Grafikkarten Grundlagenartikel Praxis Testberichte VGA

GDDR6 Speichertemperaturen verständlich erklärt und nachgemessen – macht AMD alles richtig? | Grundlagen

Die ganzen Irrungen und (Ver)wirrungen um den urplötzlich aufgetauchten Wert der Speichertemperaturen bei AMDs aktuellen Grafikkarten führen bei vielen Anwendern verständlicherweise zur Verunsicherung.  Moderne Speicher-Chips, wie z.B. Microns GDDR6-Module erlauben es, den intern für spezielle Schutzmechanismen (z.B. das Heruntertakten) ausgelesenen Wert der Chip-Temperatur Tjunction auch auszulesen, was an sich eine nette Ergänzung ist. Nur bringt das fehlende Wissen, worum es sich dabei wirklich handelt, so manchen Zeitgenossen in arge Not und Angst.

Begriffserklärung Tjunction, Tcase und Tboard

Interessanterweise schweigt sich Micron beim GDDR6 im Detail komplett aus, denn selbst die der GDDR6-Dokumentation beiliegende “Device Thermal Information” endet ärgerlicherweise bei GDDR5. Der Hersteller gibt für seine GDDR5-Module eine maximale Tjunction von 100 °C an, was durchaus plausibel erscheint und sich mit den Angaben für die maximale “Operation Temperature” von 95 °C deckt. Doch genau an dieser Stelle beginnen die Unklarheiten, was dann wo und warum wie warm wird. Deshalb betrachten wir doch erst einmal das thermische Schema eines GDDR6-Modules.

Interessant ist zunächst PT, also die maximale “Power” Ptot, die als elektrische Energie zugeführt und als Wärme auch wieder fast vollständig wieder abgegeben wird (siehe roter Pfeil). Das sollten pro Modul so um die 2 Watt sein, was erst einmal wenig klingt, aufgrund der kleinen Strukturbreite und Wärmedichte (Density) aber durchaus eine Hausnummer ist. Denn auch wenn das Speichermodul als Package recht groß aussehen mag: der Chip selbst ist eher winzig. Man benötigt einfach viel Platz für die ganzen Anschlüsse und außerdem möchte man gern abwärtskompatibel bleiben:

Source: Micron

An der gleichen Stelle kommt nun TJ, also Tjunction ins Spiel. Maximale Chip-Temperatur und maximale Verlustleistung stehen also hier in direktem Zusammenhang. Das ist auch genau der Wert, den AMD im Sensor-Loop als Speichertemperatur ausgibt. Ich habe selbst bei AMD nachgefragt und erfahren, dass es sich zudem nicht um einen Durchschnittswert (Average) aller Module handelt, sondern um den absoluten Peak-Wert, also Tjunction des jeweils heißesten Modules einer Karte. Wichtig sind auch die mit den beiden anderen roten Pfeilen gekennzeichneten Werte PB, also als Pboard die Verlustleistung, die über das Board abgeführt wird und PC, was für die abgeführte Wärme Pcase über die Oberseite des Gehäuses (Package) steht.

Dazu kommen dann noch alle auftretenden Wärmewiderstande der einzelnen Schichten und die Zusammenfassung zusammengehöriger Schichten als Richtungswert nach oben hin und durch die Platine nach unten hin, sowie die Temperaturen der Umgebung (Luft) TA bzw. Tair an der Ober- und Unterseite, wobei beides durchaus auch abweichend kann, wenn oben ein Wasserblock mit ins Spiel kommt. Doch dazu gleich mehr.

Die Crux eines Testers wie mir besteht nun einerseits in der sehr spärlichen (öffentlichen) Verfügbarkeit der Spezifikationen und andererseits auch an der fehlenden Möglichkeit, einmal selbst im Inneren eines Modules zu messen. Deshalb habe ich alle drei Faktoren TJ, TB und TC in diesem Grundlagenartikel einmal zusammengebracht, denn TB (Tboard) und TC (Tcase) kann ich ja messen, wenn auch auf unterschiedliche Art und Weise. Doch das erkläre ich gleich noch.

Testsystem und -aufbau für alle Temperaturen

Zum Einsatz auf dem Chip, also für Tcase, nutze ich die üblichen Typ-K-Sensoren der Klasse 1, die auch in der Industrie, wie z.B. bei PC Partner, MSI oder Gigabyte zum Einsatz kommen, wenn man Grafikkarten messen möchte. Da ich über einen größeren Haufen solcher Sensoren verfüge, habe ich die benötigte Anzahl erst einmal auf möglichst hohe Genauigkeit und Übereinstimmung untereinander ausgemessen. Zum Einsatz kam dabei beim Referenz-Sensor, dessen genaues Temperaturverhalten mir im Bereich von 20 bis 100 Grad bekannt ist. Die Messtoleranz würde ich trotz aller Sorgfalt noch bei ca. 1 Grad sehen, was aber für unsere Zwecke völlig ausreicht.

Jeden der beiden Sensoren für den Speicher habe ich in einen Kupfer-Heatsink eingelassen und mit Thermo-Kleber von oben fixiert. Der dritte Sensor liegt in dem Spannungswandler-Kupferblock, den ich als reinen ergänzenden Wert betrachte, wenn es um die PCB-Temperaturen geht. Das soll uns als Kontrollwert nicht näher interessieren, weil es an dieser Stelle schon zu weit führt. Die beiden Kupfer-Kühler habe ich mit Thermo-Kleber und ordentlicher Wärmeleitfähigkeit an den Außenseiten fixiert, die Innenfläche ist hauchdünn mit Wärmeleitpaste bestrichen. Das Delta von Messfühler zur Oberfläche des Packages liegt in unserem Temperaturbereich bei ca. 1 bis 2 Grad. Deshalb habe ich als Offset zu den Messwerten noch 2 Grad addiert, um ein möglichst realistisches Ergebnis abbilden zu können.

Die Platinenrückseite habe ich “tropikalisiert”, also mit einem transparenten Lack überzocken, der in der Industrie zum Schutz für Umweltfaktoren wie z.B. hoher Luftfeuchtigkeit verwendet wird und dessen Emissionsgrad von ca. 0.95 ausgemessen wurde und somit bekannt ist. Würde man hier den Faktor 1 ansetzen, wäre die gemessene Temperatur deutlich niedriger. Die am Benchtable angebrachte, hauchdünne Spezialfolie besitzt einen Transmissionsfaktor von ca. 0.97, den ich in der Messung ebenfalls mit berücksichtige.

Das ermöglicht es mir, mit der Optris PI640 eine gescheite Temperauranalyse der relevanten Flächen vorzunehmen, da die Auflösung des verbauten Bolometers mit 640 x 480 echten Messpunkten ausreichend hoch ist. Gemessen wird an den zur Vorderseite korrespondierenden Messpunkten. Die 120-mm-Lüfter des Morpheus drehen mit jeweils ca. 1300 U/min, was sich deutlich senken ließe, aber unserer Messung entgegen kommt, da man andere Störfaktoren sicher ausschließen kann. Und laut ist dies mit den ca. 35 dB(A) dann auch noch nicht.

Die Software GPU-Z liefert die passenden Werte im Sensor-Loop für das heißeste Modul-Innere TJ, also Tjunction. Das Delta zwischen den drei Temperaturwerten ändert sich im Temperaturverlauf bei steigender Tjunction recht deutlich und hängt beim Anstieg auch nicht unwesentlich von der verwendete Kühlmethode bzw. der Temperatur des Kühlmediums ab. Gemessen wird auf der Referenzplatine einer Radeon RX 5700 XT, wobei ich für die Luftkühlung auf einen neuen Raijintek Morpheus setze, dessen neue, hybride Heatsinks auf Kupfer bzw. Aluminium man auf dem Bild oben sehen kann. Nach längeren Messungen und eingehender Beratung mit dem Hersteller haben wir den Einsatz von Kupfer auf den beiden relevanten Stellen für sinnvoll erachtet, während der dritte Speicherblock auch locker mit Aluminium auskommt. Den Kunden wird es wohl später beim Endpreis freuen.

Test System and Equipment
Hardware:
Intel Core i9-9900 K
MSI MEG Z390 Godlike
2x 8GB KFA2 HoF DDR4 4000
1x 1 TByte Patriot Viper (NVMe System SSD)
1x Seagate FastSSD Portable USB-C
Seasonic Prime 1200 Watt Titanium PSU
Cooling:
Alphacool Eisblock XPX
5x Be Quiet! Silent Wings 3 PWM (Closed Case Simulation)
Thermal Grizzly Kryonaut
Case:
Lian Li PC-T70
Modi: Open Benchtable, Closed Case
Monitor: Eizo EV3237-BK
Power Consumption:

Non-contact direct current measurement on PCIe slot (riser card)
Non-contact direct current measurement at the external PCIe power supply
Direct voltage measurement at the respective connectors and at the power supply unit
2x Rohde & Schwarz HMO 3054, 500 MHz multichannel oscilloscope with memory function
4x Rohde & Schwarz HZO50, current clamp adapter (1 mA to 30 A, 100 KHz, DC)
4x Rohde & Schwarz HZ355, probe (10:1, 500 MHz)
1x Rohde & Schwarz HMC 8012, digital multimeter with memory function

Thermografie:
1x Optris PI640 + 2x Xi400 Thermal Imagers
Pix Connect Software
Type K Class 1 thermal sensors (up to 4 channels)
Acoustics:
NTI Audio M2211 (with calibration file)
Steinberg UR12 (with phantom power for the microphones)
Creative X7, Smaart v.7
Own anechoic chamber, 3.5 x 1.8 x 2.2 m (LxTxH)
Axial measurements, perpendicular to the centre of the sound source(s), measuring distance 50 cm
Noise emission in dBA (slow) as RTA measurement
Frequency spectrum as graphic
OS: Windows 10 Pro (1903, all Updates)