Im Rahmen einer Leseranfrage wurde mir eine neue PowerColor Radeon RX 9070XT Hellhound zur Analyse übergeben, bei der unter Last außergewöhnlich hohe GPU- und Hotspot-Temperaturen beobachtet wurden, was auf eine ungleichmäßige oder lokal gestörte thermische Ankopplung des GPU-Dies schließen lässt. Trotz sachgemäßer Neuapplikation eines hochwertigen PTM-Pads sowie zusätzlichem Thermal Putty statt starrer Pads auf Speicher und Spannungswandlern konnte keine nennenswerte Verbesserung der thermischen Situation erzielt werden. Nach Demontage, oberflächenschonender Säuberung mit Xylol und anschließender mikroskopischer Untersuchung zeigte sich auf der Rückseite des Dies (also der Oberseite des Chips) ein tief strukturiertes Schadensbild mit Löchern, wie sie für ein ausgeprägtes Pitting charakteristisch ist. Dies könnte in direktem Zusammenhang mit der lokal eingeschränkten Wärmeabfuhr stehen und ja, es hat mich enorm getriggert.
Update #1 vom 02.04.2025 10:40 Uhr
AMD hat mir soeben ein erstes Statement geschickt und wird die zeitnah Karte abholen lassen:
“We are aware of the reported issue and believe this to be an isolated incident. We are working with our partners and internal teams to understand the issue and remain committed to product quality and rigorous screening throughout the production process.”
Update #2 vom 03.04.2025 10:30 Uhr
Mittlerweile sind weitere Fälle bekannt geworden, wo ladenneue RX 9070XT bereits nach wenigen Sekunden eine Hotstpot- Temperatur von 112 bis sogar 115°C erreichen. Betroffen sind hier erneut 2x PowerColor und 1x Sapphire. Diese Karten wurden von den Kunden bereits umgehend zum Händler zurückgeschickt und jeweils ein RMA-Vorgang eingeleitet. Im Falle der Sapphire-Karte habe ich die Hoffnung, dass wir sie dann anhand der Serien-Nummer in der RMA von Sapphire selektieren und genauer untersuchen können. Bei PowerColor was das leider vorerst nicht möglich. Ich habe allerdings PowerColor, XFX und Saphire kontaktiert und darum gebeten, die jeweiligen RMA-Abteilungen weiter zu sensibilisieren.
Ich habe auch Feedback bekommen, wo man eher eine Inklusion im Wafer vermutete. Da bin ich aber noch skeptisch, denn während Pits durch ihre irregulären, rauen Ränder und ihre eher zufällige Form charakterisiert sind, weisen freigelegte Inklusionen eigentlich eher glatte, definierte Konturen auf, die dann direkt auf die ursprüngliche Form des eingeschlossenen Materials zurückzuführen sind. Inklusionen können aber den Belichtungsprozess signifikant stören, insbesondere durch Streuung, Phasenverschiebungen und Topografieabweichungen. Dann wäre dieser Chip nicht voll funktionsfähig, was ja nicht der Fall ist.
Die vorliegenden Charakteristika sprechen für mich aber mit sehr hoher Wahrscheinlichkeit dafür, dass es sich bei dem beobachteten Defekt nicht um eine freigelegte Inklusion, sondern um einen Ablösungs- oder Pittingeffekt infolge lokaler mechanischer Beanspruchung handelt – möglicherweise durch eine harte Partikelverunreinigung im Schleifprozess, eine temporäre Agglomeration auf der Oberfläche oder eine Drucküberhöhung in Verbindung mit einer Mikrostruktur im Substrat (siehe Slider auf der nächsten Seite). Die Form, die unregelmäßige Topografie und das Fehlen klarer Phasengrenzen stützen meine Interpretation. Die Ränder des Defekts zeigen sehr deutlich ein heterogenes Relief mit teilweise abgestuften Höhenunterschieden. Es ist keine klar definierte Phasengrenze zu erkennen, wie sie bei typischen Inklusionen häufig sichtbar ist. Inklusionen neigen dazu, eine scharf abgrenzbare Grenzfläche zum Wirtskristall zu bilden, insbesondere wenn sie aus Oxiden oder Metallverbindungen bestehen.
An mehreren Stellen, besonders auf der rechten Seite des Defekts, sind linsenartige, sich überlappende Bruchzonen sichtbar. Diese erinnern an Abplatzungen oder Delaminierungen, wie sie bei mechanischem Stress entstehen, etwa durch abrasive Partikel oder lokale Überlastung beim Schleifen. Das Innere des Pits weist eine körnig-unruhige Textur auf, was auf einen unvollständigen Materialabtrag oder eine Rissbildung im Substrat hindeuten könnte. Solche Merkmale sind charakteristisch für Materialversagen durch mikroskopische Rissinitiierung, jedoch untypisch für die glatten, kompakten Flächen von Inklusionen. Und zu guter Letzt: Die Schleifspuren des Substrats verlaufen ungestört durch den Hintergrund, jedoch werden sie im Bereich des Defekts unterbrochen. Dies legt nahe, dass der Defekt nach oder während des mechanischen Bearbeitungsprozesses entstanden ist und nicht durch eine zuvor vorhandene, freigelegte Inklusion verursacht wurde. Genau deshalb würde ich eine Inklusion hier ausschließen.
Darüber hinaus wurden noch mögliche Einschlüsse von Gasblasen und eine mögliche Beschädigung während des Erdbebens auf Taiwan ins Spiel gebracht, falls der Wafer gerade zu dieser Zeit in Bearbeitung war. Ich denke mal, alle weiteren Spekulationen würden aktuell zu weit führen, so dass ich das hier erst einmal abbreche und auf AMD warte.
Wichtige Vorbemerkung
Da es sich hierbei vorerst um einen Einzelfall handelt und andere von mir untersuchte Chips deutlich geringere Schäden aufwiesen, lässt sich daraus noch kein Rückschluss auf eine systematische Schwäche der ganzen Produktserie ableiten. Gleichwohl sollte dieser Befund Anlass sein, die automatisierte optische Inspektion während der Fertigung im Hinblick auf atypische Defektmuster zu überprüfen und ggf. zu optimieren. Der Fokus liegt bislang ganz offensichtlich vorrangig auf der Erkennung von Kratzern, Rissen und strukturellen Abplatzungen, während isoliertes, vertieftes Pitting bislang offenbar seltener oder gar nicht erfasst wird. Gerade bei GPUs mit hohem thermischem Leistungsprofil sollte jedoch sichergestellt sein, dass auch solche isolierten, aber thermisch wirksamen Oberflächendefekte zuverlässig erkannt und klassifiziert werden. Die analysierte GPU wies sogar erste Abplatzungen an der Längskante auf, was der Lebensdauer nicht zuträglich ist.Ich habe AMD vorab mit dieser Information und den relevanten Daten versorgt und warte noch auf eine entsprechende Antwort. Denn auch wenn es erst einmal wie eine seltene Ausnahme aussieht, wird der Artikel heute zeigen, dass man auch über mögliche Probleme bei der optischen Kontrolle des Herstellers nachdenken muss. Das wiederum wäre dann durchaus tiefergreifender. Ich möchte alle bitten, die hier zitieren oder Informationen weiterverwenden, diese Vorbemerkung zu beherzigen und den Anschein einer Sensation zu vermeiden. Danke.
Hotspot-Temperatur und Hintergründe
Statt sich auf einen zentralen oder randseitigen Temperatursensor zu verlassen, integriert AMD eine Vielzahl von Temperaturfühlern (Thermal Diodes bzw. digitale Temperatursensoren, DTS) direkt auf dem GPU-Die. Diese Sensoren sind über das gesamte Die verteilt – insbesondere in der Nähe thermisch kritischer Bereiche wie Recheneinheiten (CUs), Speichercontroller, Spannungswandler oder Cacheblöcke. Diese Sensoren liefern kontinuierlich Temperaturdaten, typischerweise in hoher zeitlicher Auflösung. Die GPU-Firmware (und ggf. Teile des Treibers) wertet diese Daten aus und identifiziert den jeweils höchsten Messwert als die Hotspot-Temperatur.
Frühere Architekturen, bei AMD und auch bei Mitbewerbern, arbeiteten oft mit einem Mittelwert oder einem festen Sensorknoten, was dazu führte, dass lokale thermische Maxima (Hotspots) nicht erkannt oder deutlich unterschätzt wurden. Mit dem Hotspot-Modell erkennt das System stattdessen die thermische Spitze auf dem Die, was für modernes Power- und Temperaturmanagement essenziell ist, insbesondere bei stark lastabhängiger Leistungsaufnahme, lokalisierten Rechenoperationen (z. B. Shader-Cluster) und variabler Kühlung (Lüfterkurven, Temperaturzielsteuerung).
AMD spezifiziert für RDNA-GPUs typischerweise eine Hotspot-Temperaturgrenze von etwa 110 °C, was deutlich über der durchschnittlich berichteten GPU-Temperatur liegt. Dies ist möglich, da Hotspot-Werte sehr lokal begrenzt sind und der Rest des Dies deutlich kühler sein kann. Diese Grenze definiert jedoch das thermische Limit, ab dem automatische Taktreduktion (Thermal Throttling) eingeleitet wird, um die Integrität des Chips zu schützen. Der Leser berichtete über stark heulende Lüfter als Folge der sehr hohen Temperaturen.
Analyse des Fehlerbildes
Das Bild weiter oben zeigte eine verkleinerte Mikroskopie des Dies, die ich mit meinem Keyence VHX-7100 und einer speziellen Beleuchtung gemacht habe, um die Vertiefungen plastischer hervorzuheben und diese überhaupt zu sehen. Mit dem bloßen Auge ist so etwas auf einer spiegelnden Oberfläche nämlich kaum sichtbar. Bevor ich mich jedoch mit den ganzen Löchern im Detail beschäftige, habe ich sie erst einmal mit dem Keyence zählen und auch die Fläche vom System ermitteln lassen. Das Prinzip ist sehr ähnlich zu dem, was der Fertiger des Chips bei der Endkontrolle der Oberfläche auch nutzt und ich war erst einmal geschockt. Insgesamt 1934 Krater mit einer Gesamtfläche von über 1 Prozent der Chipfläche sind definitiv indiskutabel.
Ihr erfahrt auf der nächsten Seite, wie solche Krater entstehen können und wir man sie eigentlich hätte erkennen müssen, denn dieser Chip ließe sich auch mit der besten Wärmeleitpaste sicher nicht sinnvoll nutzen, der ist de facto für den Kunden wertlos. Leider war die Fotodokumentation vor dem ersten Säubern des Chips etwas nachlässig, weil ja keiner vermuten konnte, was uns da gleich Schönes erwartet, aber man erkennt auch hier bereits die dunklen Stellen der Kraterlandschaft:
Dass die Karte bei Powercolor durch die Endkontrolle gerutscht ist, ist eine andere Geschichte, denn das hätte auffallen müssen. Da aber ganz offensichtlich nicht wirklich getestet wurde, bleibt offen, ob nicht auch andere Karten die gleiche Mondkraterlandschaft aufwiesen und nur nicht erkannt wurde. Kleiner Side-Kick, aber nicht kriegsentscheidend: Die Folie vom Wärmeleitpad bei dem Spannungswandler für den Speicher klebt auch noch dran. Das ist zwar schwer abzubekommen und suboptimal, aber shit happens…
Nach dem Umblättern begeben wir uns auf Spurensuche in der Produktion und möglichen Ursachen für diese Metereoitenenschläge.
93 Antworten
Kommentar
Lade neue Kommentare
Urgestein
Veteran
1
Mitglied
Mitglied
1
Veteran
1
Mitglied
Urgestein
Mitglied
1
Veteran
Urgestein
Veteran
Veteran
1
Urgestein
Urgestein
Alle Kommentare lesen unter igor´sLAB Community →