GDDR6X am Limit? Über 100 Grad bei der GeForce RTX 3080 FE im Chip gemessen! | Investigativ

Neueste Speicher-Chips, wie z.B. Microns GDDR6X-Module auf der GeForce RTX 3080 erlauben es, den intern für spezielle Schutzmechanismen (z.B. das Heruntertakten) genutzten Wert der Chip-Temperatur T_junction auch mit geeigneter Software auszulesen, was an sich eine nette Ergänzung ist, würde es jeder auch tun können. Nur könnte dieses Wissen, worum es sich dabei wirklich handelt und wie hoch die Werte dann ausfallen, so manchen Zeitgenossen in arge Not und Angst bringen. Genau deshalb liegt dieser Wert im normalen Sensor Loop auch nicht frei. Der Kühler der Founders Edition ist per se nicht schlecht, aber dass NVIDIA den Speicher nur mit 19 Gbps taktet, hat mit Sicherheit auch thermische Gründe.

Wir erinnern uns: Im Launchartikel schrieb ich ja, dass sich der Speicher kaum stabil über die 20 Gbps takten ließ und im Grenzbereich sogar plötzlich wieder langsamer wurde. Dieses Verhalten haben auch einige andere Kollegen beobachtet, so dass ich der Ursache mal auf den Grund gehen wollte. Als kleinen Denkanstoß zeige ich Euch noch einmal das Infrarot-Bild der Platinenrückseite mit dem 84-°C-Hotspot an der heißesten Stelle, wo ein Speichermodul liegt. Und ja. es liegt nicht am Speicher selbst, der an anderen Stellen ja kühl genug bleibt, sondern genau dort auch an der Aufheizung durch die viel zu nah liegenden sechs Spannungswandler für NVDD.

Wärmewiderstände und Temperaturen an verschiedenen Stellen

Interessanterweise schweigt sich Micron beim GDDR6(X) komplett aus, denn selbst die der GDDR6-Dokumentation beiliegende “Device Thermal Information” endet ärgerlicherweise immer noch bei GDDR5. Der Hersteller gibt für seine GDDR5-Module eine maximale T_junction von 100 °C an, was durchaus plausibel erscheint und sich mit den Angaben für die maximale “Operation Temperature” von 95 °C deckt. Doch genau an dieser Stelle beginnen die Unklarheiten, was dann wo und warum wie warm wird.

Auf Nachfragen unter Kollegen z.B. aus den R&D-Abteilungen hieß es übereinstimmend, dass die Maximaltemperatur T_tot vorm Beginn einer möglichen Zerstörung des Chips bei 120 °C liegen solle und man Tjunction wohl beim GDDR6 bei 105 °C bzw. beim GDDR6X sogar bei 110 °C als Maximalwert spezifiziert. Doch betrachten wir erst einmal das thermische Schema so eines GDDR6X-Modules. Interessant ist zunächst P_T, also die maximale “Power” P_tot, die als elektrische Energie zugeführt und als Wärme auch wieder fast vollständig wieder abgegeben wird (siehe roter Pfeil).

Das sollten pro Modul so um die 2,5 bis 3 Watt sein, was erst einmal wenig klingt, aufgrund der kleinen Strukturbreite und Wärmedichte (Density) aber durchaus eine Hausnummer ist, vor allem dann, wenn die Platine darunter eh schon recht heiß ist. Denn auch wenn das Speichermodul als Package recht groß aussehen mag: der Chip selbst ist eher winzig. Man benötigt einfach viel Platz für die ganzen Anschlüsse und außerdem möchte man gern abwärtskompatibel bleiben:

An der gleichen Stelle kommt nun T_J, also T_junction ins Spiel. Maximale Chip-Temperatur und maximale Verlustleistung stehen also hier in direktem Zusammenhang. Das ist auch genau der Wert, den z.B. auch AMD im Sensor-Loop als Speichertemperatur ausgibt. Ich habe damals bei AMD nachgefragt und erfahren, dass es sich zudem nicht um einen Durchschnittswert (Average) aller Module handelt, sondern um den absoluten Peak-Wert, also T_junction des jeweils heißesten Modules einer Karte. Wichtig sind auch die mit den beiden anderen roten Pfeilen gekennzeichneten Werte P_B, also als P_boarddie Verlustleistung, die über das Board abgeführt wird und P_C, was für die abgeführte Wärme P_case über die Oberseite des Gehäuses (Package) steht.

Dazu kommen dann noch alle auftretenden Wärmewiderstande der einzelnen Schichten und die Zusammenfassung zusammengehöriger Schichten als Richtungswert nach oben hin und durch die Platine nach unten hin, sowie die Temperaturen der Umgebung (Luft) T_A bzw. T_air an der Ober- und Unterseite, wobei beides durchaus auch abweichend kann, wenn oben ein Wasserblock mit ins Spiel kommt. Doch dazu gleich mehr.

Die Crux eines Testers wie mir ~~besteht~~ bestand nun einerseits in der sehr spärlichen (öffentlichen) Verfügbarkeit der Spezifikationen und andererseits auch an der fehlenden (offiziellen) Möglichkeit, einmal selbst im Inneren eines Modules zu messen. Doch Stopp! Mittlerweile kann auch ich die Temperaturen des GDDR6X auslesen, genauer die Temperatur des heißesten Moduls. Das werde ich aus bestimmten Gründen jetzt nicht weiter im Detail ausführen, zumal die dafür geeignete Software nur zur internen Nutzung der Ingenieure gedacht ist. Auch wenn ich diesbezüglich keinem NDA unterliege, werde ich mich daran halten und auch nichts öffentlich zum Download anbieten oder weiterverteilen. Das ist schlicht eine Frage der Ehre und des Quellenschutzes bei signierter Software, Nachfragen sind also sinnlos.

Testsystem und -aufbau

Die Platinenrückseite habe ich wie immer “tropikalisiert”, also mit einem transparenten Lack überzocken, der in der Industrie zum Schutz für Umweltfaktoren wie z.B. hoher Luftfeuchtigkeit verwendet wird und dessen Emissionsgrad von ca. 0.95 ausgemessen wurde, somit also bekannt ist. Würde man hier den Faktor 1 ansetzen, wäre die gemessene Temperatur deutlich niedriger. Die am Benchtable angebrachte, hauchdünne Spezialfolie besitzt einen Transmissionsfaktor von ca. 0.97, den ich in der Messung ebenfalls mit berücksichtige. Das ermöglicht es mir, mit der Optris PI640 eine gescheite Temperauranalyse der relevanten Flächen vorzunehmen, da die Auflösung des verbauten Bolometers mit 640 x 480 echten Messpunkten ausreichend hoch ist.

Über die Tropikalisierung habe ich ja bereits gesprochen, so dass ich die Messwerte auch als verlässlich einstufen würde. Trotz des guten Equipments würde ich auch hier mit ca. 0.5 bis 1 Grad Toleranz rechnen, mehr aber auch nicht. Zum Einsatz kommt Witcher 3 in UHD, den ich 30 Minuten laufen lasse, bis ich final messe. Die Raumtemperatur liegt bei 22 °C, der Aufbau ist ausnahmsweise offen, weil ich eine konstante Umgebungstemperatur benötige. Man sah auf der Platine (Bild ganz oben) bereits sehr gut den Unterschied zwischen den Speichermodulen. Wir erinnern uns jetzt bitte noch einmal an die 84 °C von oben und an den Launchartikel.

Messung von Tjunction im Speicher

Die Grafik zeigt nun die Entwicklung der Speichertemperatur, die ich mit der hausinternen Software auslesen konnte. Nach dem Aufheizen bleibt ab Minute 8 alles konstant, man kann also jeweils von der finalen Temperatur ausgehen, die sich auch nach 30 Minuten nicht mehr ändern wird. Das heißeste Modul auf dem IR-Bild befindet sich in unmittelbarer Spannungswandler-Nähe und bringt es auf eine T_junction im Inneren von 104 °C. Damit ergibt sich ein Delta von ca. 20 Grad zwischen Chip und Platinen-Unterseite.

Frühere Experimente mit einem Wasserblock und vielen Backplate-Belegungs-Varianten haben noch weitere interessante Einflüsse aufzeigen können. Kühlt man nur den Speicher rückseitig nun mit einem guten Pad zwischen der Backplate und der Platine, sinkt T_board um bis zu 4 Grad, was auch T_junction um 1 bis 2 Grad sinken lässt. Bei der Wasserkühlung ist T_case zudem deutlich niedriger als T_board, was eine rückseitige Kühlung umso interessanter machen könnte. Allerdings ist es bei der RTX 3080 FE angezeigt, doch lieber nur die deutlich heißeren Spannungswandler zu kühlen, denn diese liegen in unmittelbarer Nähe. Wer jetzt übrigens darauf pocht, ich hätte ja die Backplate abgenommen, den kann ich beruhigen. Auch im komplett montierten Originalzustand ist die RAM intern noch bei 104 °C für das heißeste Modul.

Zusammenfassung und Fazit

Dass Speichermodule im Inneren deutlich heißer werden können, als es die Außenfläche auf der Moduloberseite des Packages oder die Unterseite der Platine vermuten lassen, ist kein Geheimnis. Setzt man jetzt für GDDR6 die maximale T_junction von 110 °C, sind die verbleibenden 6 Grad bis zum vermuteten Throttling echt kein großes Polster. Doch auch so ein hoher Wert ist noch kein Grund zur voreiligen Panik, wenn man die Zusammenhänge aller Temperaturen versteht.

Bedauerlicherweise halten sich NVIDIA und auch die Boardpartner sehr bedeckt, wenn es um die exakte Verwendung dieses Wertes für die Regelung der Performance (Herunterthrotteln) oder Sicherheits-Features wie Abschaltvorgänge geht, aber so ganz für umsonst wird man sich die Mühe sicher auch nicht gemacht haben. Ich für meinen Teil werde in allen kommenden Tests auch die Speichertemperaturen des GDDR6(X) der neuen Ampere-Karten mit auslesen, Auch das ist eine Frage der Ehre.