AMD AMD Radeon RX Vega, der ominöse Hotspot und das richtige Auftragen von Wärmeleitpaste

Igor Wallossek

Format©
Mitarbeiter
Mitglied seit
Jun 1, 2018
Beiträge
10.107
Bewertungspunkte
18.597
Punkte
114
Alter
59
Standort
Labor
Original-Grease-1024x430.jpg


Igor Wallossek Neuen News-Beitrag vorschlagen
Wenn man eher flapsig schreibt, bei der RX Vega wäre alles ein wenig anders, dann liegt man gar nicht einmal so falsch. Neben der interessanten Technologie rund um den Interposer und den verwendeten HBM2-Speicher stellen sich natürlich auch neue technologische Herausforderungen in den Weg, über die ich ja bereits letztes Jahr in meinem Artikel "Verwirrung um drei verschiedene Packages bei der Radeon RX Vega von AMD" sehr ausführlich berichtet hatte. Dass einen aber nun genau dieses Thema in anderer Form noch einmal einholt, hat mich dann doch etwas überrascht.

Doch immer schön der Reihe nach. Bei der Analyse von nunmehr 18 Radeon RX Vega (manche Modelle hatte ich sogar mehrfach, auch zu Nachtests), sind mir nämlich einige Dinge aufgefallen, die ich so ähnlich auch bereits im Vorfeld mit verschiedenen Industriekontakten besprechen konnten. So waren die richtige Auswahl und Auftragemethode der Wärmeleitpaste und die Verschraubung der Kühler samt Anpressdruck eigentlich immer ein Thema, auch die Viskosität der verwendeten Pasten.
Die Crux mit dem ominösen Hotspot


Da es oft zu Problemen und unerklärlichen Abstürzen durch punktuelle Hitzestaus kam, haben ich viele der Karten zerlegt und wieder zusammengeschraubt, gemessen, verglichen, die Verschraubungsreihenfolge geändert und diverse Methoden zum Auftragen der Wärmeleitpaste getestet. Einschließlich der verwendeten Menge übrigens, denn auch dies wird noch eine große Rolle spielen. Doch beginnen wir zunächst mit einem Fehlerbild, um das Problem zu verdeutlichen.

Die Lüftersteuerung aller Karten reagiert primär auf den Wert, den man auch aus dem Wattman und z.B. GPU-Z als GPU-Temperatur kennt. Doch ich hatte mehrere Karten, die trotz augenscheinlich guter (weil niedriger) GPU-Temperaturwerte (teilweise sogar im Idle beim Fan-Stopp) durch Notabschaltungen glänzten. Doch wo liegt eigentlich die Ursache für dieses Phänomen? Dazu habe ich einmal die Messwerte einer solchen Karte in einem Diagramm festgehalten.

Before.png


Es existiert neben der GPU- und HBM2-Temperatur ja noch ein Sensorwert für den ominösen "Hotspot", wo immer man den auch suchen muss. Ich vermute, es ist ein Messpunkt zwischen dem Interposer und dem Package, mehr in Richtung der beiden HBM2 Stacks. Durch die spezielle Montage der Packages entsteht ja ein sogenannter Underfill, der Interposer liegt also durchaus sogar etwas hohl. Wenn dann nicht der Anpressdruck an allen Stellen optimal vorhanden ist, kann es zu partiellen Überhitzungen kommen, die von der GPU-Temperatur nur indirekt reflektiert werden.

In der oben stehenden Grafik konnte ich bis zu 106°C am Hotspot messen, im Stresstest sogar bis zu 110°C und der gefürchteten Notabschaltung. Diese kann einen sogar im Idle ereilen, da die Lüfter bei einigen Custom-Karten erst gar nicht anspringen. Manche Hersteller haben, weil die Fertigungstoleranzen zu hoch waren, den Fan-Stopp in experimentellen Beta-BIOSen wieder aufgehoben und so wenigestens Symptomheilung praktiziert. Eine echte Lösung ist so etwas natürlich auch nicht.

Das nachfolgende Bild einer industriell gefertigten Karte zeigt, wie eine eigentlich homogene Schicht "aufreißen" kann und einige Bereiche faktisch auch keinen richtigen Kontakt mehr zum Kühler bekommen, obwohl sowohl die Menge, als auch die Art der Wärmeleitpaste (Aufbringung beim Kühler-OEM) eigentlich völlig in Ordnung sind (wer sich erinnert, wir hatten bereits unlängst einen kurzen Test dazu). Hier spielen dann Faktoren wie die Reinheit von Oberflächen, aber eben auch der Faktor Mensch bei der Endmontage eine entscheidende Rolle.


Das optimale Auftragen der richtigen Paste


Bei der RX Vega setzt man in der Industrie, auch aufgrund der sehr unterschiedlichen Packages und dem Underfill-Problem, auf eher viskosere Pasten mit einer deutlich dickeren Schicht und höhere Anpressdrücke, um die überflüssige Paste seitlich herauszupressen und um die Höhenunterschiede besser ausgleichen zu können. Ich habe mit vielen Pasten experimentiert, von dünnflüssig bis sehr viskos und bin am Ende genau dort gelandet, wo auch die Hersteller ihr Glück versucht haben.

Man sollte einen vollflächigen und komplett deckenden Aufstrich mit einer eher viskosen Paste realisieren. Das ist nicht ganz einfach, weil sich zähe Paste nicht ganz so einfach gleichmäßig und ohne wieder aufzureißen verteilen lässt. Komplett zupampen sollte man das Ganze allerdings auch nicht. Was jedoch wirklich hilft, ist das Erwärmen der Paste auf mindestens 50°C. Dann flutscht selbst die störrischste Paste wie ein williges Fohlen. Wer günstig dabei sein will, nimmt die Gelid GC Extreme. Wer mehr Kohle abdrücken will (für vielleicht ein Kelvin niedrigere Temperaturen), der darf auch die Kryonaut von Thermal Grizzly benutzen. Beide Pasten sind in etwa gleich viskos.

New-Grease.jpg


Der nächste Schritt ist nun nicht minder wichtig! Das PCB wird beim Zusammenbau von oben möglichst waagerecht auf den Kühler gelegt und man sollte ein Verkanten und vorzeitiges Berühren mit einzelnen Ecken oder Flächen tunlichst vermeiden. Außerdem darf auch noch kein Druck ausgeübt werden, das Festschrauben kommt erst noch und hat es ebenfalls in sich. Normalerweise werden die Schrauben im Werk diagonal über Kreuz in einem Vorgang festgezogen. Ein Drehmoment-Aufsatz der Schrauber sorgt dabei für den richtigen Anpressdruck.

Nicht so bei der RX Vega. Die Montage wird im Werk bei den meisten Firmen inzwischen in mehreren Schritten erledigt. Betrachten wir dazu das Bild unten, denn genau dies kann jeder Anwender, der selbst mal am Kühler werkelt, ganz einfach nachvollziehen. Die GPU liegt auf dem Package vertikal betrachtet oben, der HBM2 samt des Hotspots eher unten. Genau deshalb zieht man zunächst die beiden oberen Schrauben (Gelb) alternierend an, bis man einen leichten Widerstand spürt. Danach wiederholt man das Ganze alternierend jeweils für die beiden unteren Schrauben (Violett)

Erst danach werden die beiden oberen Schrauben alternierend handfest angezogen, dann analog dazu erst die beiden unteren Schrauben. Ich baue die Karten anschließend immer erst einmal ein und absolviere einen kurzen Aufwärmprozess bis maximal 65 oder 70°C. Nun wird der PC zwangsabgeschaltet (um die Kühler nicht nachlaufen zu lassen) und die vier Schrauben werden in obiger Reihenfolge auch final richtig fest angezogen (allerdings nicht mit Gewalt überdrehen!). Windows 10 kann so einen Auschaltvorgang durchaus ab und man hat ein optimales Ergebnis.



Das Ergebnis ist nun wirklich frappierend, denn das unten stehende Diagramm zeigt die gleiche Karte, nur eben mit anderer Montage! Die Lüfter drehen deutlich niedriger (daher auch die leicht höheren GPU-Temperaturen), der Takt liegt ca. 80 MHz höher und der Hotspot liegt mit seinen 78°C fast 20°C unter dem zuerst gemessenen Horror-Wert! Auch im Stresstest wird die 80er-Marke nicht überschritten, so dass es dann schon 30°C Unterschied sind. Kleine Paste, große Wirkung!

After.png

Zusammenfassung und Fazit


Wenn Ihr Euch selbst einen Gefallen tun wollt, vergesst bitte die Klecks-, Strich- und X-Methoden bei der RX Vega. Das riesige, zerklüftete Package und die sehr unterschiedliche Technologie mit dem Interposer verlangt nach einer deutlich differenzierteren Lösung. Das, was ich hier und heute beschrieben habe, hat sich mittlerweile bewährt, denn einige der Hersteller sind diesen Vorschlägen für die Reihenfolge der Verschraubung bereits gefolgt. Und dies sicher nicht deswegen, weil es mal eine willkommene Abwechslung für die Fließband-Mitarbeiter(innen) wäre. Die RMA-Abteilungen werden es in jedem Fall danken. ;)

Den Originalbeitrag lesen
 
War das bei den Fury Karten auch schon so kompliziert mit der Kühler-Montage? Ist vielleicht auch ein Grund, warum die Vegas so schlecht verfügbar sind, weil die Montage so kompliziert ist und die Karten beim Hersteller entsprechend aufwändig geprüft werden müssen...:confused:
Danke jedenfalls für den interessanten Artikel!(y)
 
Sehr intressanter Artikel. Habe zwar noch keine AMD auf WaKü umgebaut, aber sollte ich mal in Versuchung kommen werde ich deine Tipps zu schätzen wissen. Wer hätte gedacht das die AMD Karten so speziell sind.
 
Keiner. Aber die Hotspot-Probleme sind wirklich leicht reproduzerbar. Gigabyte hatte sogar schon einen Kühler mit bis zu sechs Verschraubungen im Test. Die Prototypen fand ich echt lustig.
 
Das ist wirklich interessant, sind ja wahrlich spezielle Karten. Ich habe zwar keine Vega, aber sollte mir mal eine in die Hände fallen werde ich dran denken.
 
Viel Spaß damit :D
 
wenn ich mich jetzt noch trauen würde meine teure Vega zu zerlegen... da mein Rechner an sporadischen Abstürzen ohne Last leidet werde ich zumindest mal schauen ob da eine Ursache liegen könnte...
 
War das bei den Fury Karten auch schon so kompliziert mit der Kühler-Montage? Ist vielleicht auch ein Grund, warum die Vegas so schlecht verfügbar sind, weil die Montage so kompliziert ist und die Karten beim Hersteller entsprechend aufwändig geprüft werden müssen...:confused:
Danke jedenfalls für den interessanten Artikel!(y)

Danke Igor für den guten Artikel

Als ich den Wasserblock auf meine Nano montiert habe ist mir nichts derartiges aufgefallen.
Eine Hotspot Temperatur hat es nicht, und die GPU Temperatur liegt nur ca. 8-9 Kelvin über der Wassertemperatur.
Bei GPUs verstreiche ich die Paste sowieso immer über die gesamte Fläche.

Zur Hotspot Temperatur:
In den Vega Karten sind doch angeblich eine menge Sensoren verbaut.
Könnte die Hotspot Temperatur nicht einfach die höchste Temp. von allen Sensoren sein? Also unabhängig von der Position auf dem Chip.
 
Meine Vega 56 hat nur eine Differenz von 3-5 Grad von GPU zum HotSpot ob dies darauf schließen lässt das sie ein Aufgefülltes und Geschliffenes Package hat? Ich werde es bald erfahren der Eiswolf ist unterwegs zu mir :)
 
Also nochmal zum Mitmeißeln: Bei einem gemoldeten Package fallen die ganzen Hotspot-Probleme weg, oder?

Ist denn überhaupt geplant, wenigstens in Zukunft nur noch auf die gemoldete Variante zu setzen? Hat ja auch signifikante Vorteile was die mechanische Stabilität betrifft. Ein Heatspreader (wie noch zuletzt bei Fermi) ginge ja auch.

Ich hätte jedenfalls keinen Bock so eine Vega zu zerlegen, so macht das doch keinen Spaß. :p
 
Nein, auch gemoldete Packages haben das Bending-Issue zwischen Interposer und Underfill. Nur nicht si extrem. Die Karte aus dem Artikel war gemoldet ;)
 
Dann kann man als Selbstbastler ja nur hoffen, dass sich HBM in der jetzigen Form nie etabliert. Man könnte ja auch irgendwann einfach alles auf eine Fläche stapeln, sodass es von außen wieder wie eine klassische GPU aussieht.
 
Man sollte eher überlegen, wie man die Package-Problematik löst und sich auf einen einzigen wirklich qualifizierten Dienstleister fokussieren. Wenn aber der Forecast versagt und man wild Ressourcen dazukaufen muss, jeder Supplier aber andere Technik hat, wird es bös.
 
Sehr guter und informativer Artikel. Schön das es auch Leute gibt die sich die Dinge genau anschauen. (y):)
 
Broken by Design, wie von Igor im letzten Forumsbeitrag angeschnitten: Einige „Dienstleister“ scheinen mit dieser Fertigung Probleme zu haben, das Ergebnis ist ja offensichtlich nicht so, wie man es erwarten würde, und das muss dann auf fragwürdige Weise umgangen werden.

Gut, dass Igor da eine temporäre Lösung ausgetüftelt hat.
Schön ist allerdings auch anders. ;)
Bleibt zu hoffen, das es in Zukunft anders in der Produktion läuft, damit solche Probleme gar nicht mehr auftreten können
 
idle liegen bei meiner vega 64 (MSI Airboost OC) 1° zwischen GPU und GPU Hotspot, unter Last(26-27° Umgebungstemp., Karte bei ca. 200 Watt, Lüfter dreht mit 40-45%) sind es 12-14° bei ca. 78° GPU und 91° GPU Hotspot Temp, ich vermute das ist nicht toll aber auch nicht so schlimm das ich aktiv werden müsste... Mir ist aufgefallen, daß die HotSpot Temp sobald die Last weg ist deutlich schneller sinkt wie die GPU Temp, sich dieser also in wenigen Sekunden wieder auf +1-2° annähert, in meiner Welt ist das auch ein gutes Zeichen(da die Verbindung zum Kühler dafür funktionieren muss)... Was denkt Ihr?
 
Für rein quasi Referenzdesign passt das schon
 
Dann stell ich mal die Werte rein,
Meine RX Vega 64 von GigaByte
-- Limited Edition --

Stark Untervoltet auf 0,875 mV
Ultra HD Settings - Game Batman Arkham Knight


Anbei die Werte:

 
Zuletzt bearbeitet :
Oben Unten