Echte Messwerte im Speicher-Modul
Interessanterweise schwieg sich Micron beim NVIDIA-exklusiven GDDR6(X) erst einmal komplett aus, denn selbst die der GDDR6-Dokumentation beiliegende „Device Thermal Information“ endet ärgerlicherweise immer noch bei GDDR5. Auf Nachfragen unter Kollegen z.B. aus den R&D-Abteilungen hieß es übereinstimmend, dass die Maximaltemperatur Ttot vorm Beginn einer möglichen Zerstörung des Chips bei 120 °C liegen solle und man Tjunction wohl beim GDDR6 bei 105 °C bzw. beim GDDR6X sogar bei 110 °C als Maximalwert spezifiziert. Doch betrachten wir erst einmal das thermische Schema so eines GDDR6X-Modules, den ein wenig Theorie kann ich Euch an dieser Stelle leider nicht ersparen. Interessant ist zunächst PT, also die maximale „Power“ Ptot, die als elektrische Energie zugeführt und als Wärme auch wieder fast vollständig wieder abgegeben wird (siehe roter Pfeil).
Das sollten pro Modul so um die 2,5 bis 3 Watt sein, was erst einmal wenig klingt, aufgrund der kleinen Strukturbreite und Wärmedichte (Density) aber durchaus eine Hausnummer ist, vor allem dann, wenn die Platine darunter eh schon recht heiß ist. Denn auch wenn das Speichermodul als Package recht groß aussehen mag: der Chip selbst ist eher winzig. Man benötigt einfach viel Platz für die ganzen Anschlüsse und außerdem möchte man gern abwärtskompatibel bleiben:
An der gleichen Stelle kommt nun TJ, also Tjunction ins Spiel. Maximale Chip-Temperatur und maximale Verlustleistung stehen also hier in direktem Zusammenhang. Das ist auch genau der Wert, den z.B. auch AMD im Sensor-Loop als Speichertemperatur ausgibt. Ich habe damals bei AMD nachgefragt und erfahren, dass es sich zudem nicht um einen Durchschnittswert (Average) aller Module handelt, sondern um den absoluten Peak-Wert, also Tjunction des jeweils heißesten Modules einer Karte. Wichtig sind auch die mit den beiden anderen roten Pfeilen gekennzeichneten Werte PB, also als Pboard die Verlustleistung, die über das Board abgeführt wird und PC, was für die abgeführte Wärme Pcase über die Oberseite des Gehäuses (Package) steht.
Dazu kommen dann noch alle auftretenden Wärmewiderstande der einzelnen Schichten und die Zusammenfassung zusammengehöriger Schichten als Richtungswert nach oben hin und durch die Platine nach unten hin, sowie die Temperaturen der Umgebung (Luft) TA bzw. Tair an der Ober- und Unterseite, wobei beides durchaus auch abweichend sein kann, wenn einseitig gekühlt wird. Ich schrieb ja bereits, dass man die Temperaturen, die man NEBEN so einem Speichermodul auf der Platine misst, nur indirekt zu Rate ziehen kann, wenn es um die Temperuren im INNEREN geht. Die Temperaturen des GDDR6X-Speichers lassen sich also beim GDDR6X direkt auslesen und man bekommt von NVIDIAs Firmware sogar noch den sauber herausgerechneten Hotspot-Wert auf einem silbernen Teller präsentiert. Das alles ist viel genauer als ein willkürlich außerhalb platzierter Messwiderstand und geschieht vor allem sogar in Echtzeit!
Spannungswandler-Temperaturen
Jetzt will ich mich natürlich in technischen Details verlieren, die die meisten wohl eh langweilen würden, aber ein wenig abtauchen müssen wir zum besseren Verständnis dann wohl doch. Aber keine Angst, es bleibt verständlich genug. Kommen wir deshalb jetzt direkt zu den so wichtigen Spannungswandlern! Die sogenannte DCR (Direct Current Resistance) ist die Basis, um Temperaturen und Ströme zu kalkulieren. Doch wie erfährt der Controller nun genau, welche Ströme in welchem Regelkreis fließen und welche Temperaturen herrschen? Das Monitoring kann unterschiedlich sein, denn es gibt – wen wundert es – verschiedene Methoden dafür. Da liest man auch oft etwas von den sogenannten Smart Power Stages (SPS) und der sogenannten MOSFET DCR. Und genau jetzt wird es erneut interessant!
Das Bild unten zeigt das typische Layout mit den intelligenten SPS, die für jeden einzelnen Regelkreis mit IMON den Wert für die Stromstärke (current) und mit TMON der exakten Temperaturwert liefern, den man für die exakte Überwachung so dringend braucht. Wie die SPS diesen Wert ermitteln? Es werden die Drain-Ströme der MOSFETS in Echtzeit gemessen und diese Werte sind zudem auch extrem genau (im Beispiel oben 5 μA/A Signal), das mit den Temperaturen erledigen digitale Thermalsensoren im Inneren.
Wer sehen also auch hier, dass eine Messung außerhalb auf der Platine mit einfachen Messwiderständen nie in Echtzeit und schon gar nicht exakt genug erfolgen kann.
Wozu also noch ICX?
Die Frage ist aus Sicht des Marketings natürlich klar, denn man möchte lieb gewonnene Alleinstellungsmerkmale (die wirklich mal welche waren) nicht aufgeben, auch wenn es technisch gar keinen Sinn mehr ergibt. Denn seit Turing erlaubt auch NVIDIA eine asymmetrische und unterschiedlichen Faktoren unterworfene Lüftersteuerung, die zudem auf den in Echtzeit ermittelten Werten für die GPU (samt Tjunction), den Speicher und die Spannungswandler basiert. Das kann man technisch mit einer proprietären Lösung, die auf Platinen-Messpunkten basiert, nicht besser lösen. Im Gegenteil, man wird mait mittlerweile deutlich schlechter abschneiden.
Wenn dann noch ein (vermutlich) fehlerhaftes Platinenlayout dafür sorgt, dass eine MCU zerstört wird (Überspannung?) und im Drift-Bereich bereits die absurdesten Werte ausgibt, dann hat so eine überflüssige Lösung auf einer so teuren Karte einfach nichts mehr verloren. Das ist wie mit dem Blinddarm. Keiner braucht ihn und trotzdem fliegt er erst raus, wenn er Probleme bereitet. Grund genug für EVGA also, dieses Relikt zu beerdigen. Es gibt mittlerweile genügend Sensorwerte, die man in der EVGA-Software anzeigen könnte und dem Klicki-Bunti-Universum gerecht werden zu können. Aus technischer Sicht braucht das alles wirklich kein Mensch mehr.
Und am Ende ist es wie mit einem Auto: Was erst gar nicht drin ist, kann auch nicht kaputt gehen!
21 Antworten
Kommentar
Lade neue Kommentare
Veteran
Veteran
Urgestein
Urgestein
Urgestein
Mitglied
Mitglied
Veteran
Veteran
1
Urgestein
Veteran
Veteran
Mitglied
Urgestein
Urgestein
Veteran
Urgestein
Urgestein
Alle Kommentare lesen unter igor´sLAB Community →