Grafikkarten Grundlagenartikel Testberichte VGA

Fehlerhafte Chip-Oberfläche ab Werk bei einer Radeon RX 9070XT, extreme Hotspot-Temperaturen und Ursachenforschung zum Pitting (Update #2)

Im Rahmen einer Leseranfrage wurde mir eine neue PowerColor Radeon RX 9070XT Hellhound zur Analyse übergeben, bei der unter Last außergewöhnlich hohe GPU- und Hotspot-Temperaturen beobachtet wurden, was auf eine ungleichmäßige oder lokal gestörte thermische Ankopplung des GPU-Dies schließen lässt. Trotz sachgemäßer Neuapplikation eines hochwertigen PTM-Pads sowie zusätzlichem Thermal Putty statt starrer Pads auf Speicher und Spannungswandlern konnte keine nennenswerte Verbesserung der thermischen Situation erzielt werden. Nach Demontage, oberflächenschonender Säuberung mit Xylol und anschließender mikroskopischer Untersuchung zeigte sich auf der Rückseite des Dies (also der Oberseite des Chips) ein tief strukturiertes Schadensbild mit Löchern, wie sie für ein ausgeprägtes Pitting charakteristisch ist. Dies könnte in direktem Zusammenhang mit der lokal eingeschränkten Wärmeabfuhr stehen und ja, es hat mich enorm getriggert.

Update #1 vom 02.04.2025 10:40 Uhr

AMD hat mir soeben ein erstes Statement geschickt und wird die zeitnah Karte abholen lassen:

“We are aware of the reported issue and believe this to be an isolated incident. We are working with our partners and internal teams to understand the issue and remain committed to product quality and rigorous screening throughout the production process.”

Update #2 vom 03.04.2025 10:30 Uhr

Mittlerweile sind weitere Fälle bekannt geworden, wo ladenneue RX 9070XT bereits nach wenigen Sekunden eine Hotstpot- Temperatur von 112 bis sogar 115°C erreichen. Betroffen sind hier erneut 2x PowerColor und 1x Sapphire. Diese Karten wurden von den Kunden bereits umgehend zum Händler zurückgeschickt und jeweils ein RMA-Vorgang eingeleitet. Im Falle der Sapphire-Karte habe ich die Hoffnung, dass wir sie dann anhand der Serien-Nummer in der RMA von Sapphire selektieren und genauer untersuchen können. Bei PowerColor was das leider vorerst nicht möglich. Ich habe allerdings PowerColor, XFX und Saphire kontaktiert und darum gebeten, die jeweiligen RMA-Abteilungen weiter zu sensibilisieren.

Ich habe auch Feedback bekommen, wo man eher eine Inklusion im Wafer vermutete. Da bin ich aber noch skeptisch, denn während Pits durch ihre irregulären, rauen Ränder und ihre eher zufällige Form charakterisiert sind, weisen freigelegte Inklusionen eigentlich eher glatte, definierte Konturen auf, die dann direkt auf die ursprüngliche Form des eingeschlossenen Materials zurückzuführen sind. Inklusionen können aber den Belichtungsprozess signifikant stören, insbesondere durch Streuung, Phasenverschiebungen und Topografieabweichungen. Dann wäre dieser Chip nicht voll funktionsfähig, was ja nicht der Fall ist.

Die vorliegenden Charakteristika sprechen für mich aber mit sehr hoher Wahrscheinlichkeit dafür, dass es sich bei dem beobachteten Defekt nicht um eine freigelegte Inklusion, sondern um einen Ablösungs- oder Pittingeffekt infolge lokaler mechanischer Beanspruchung handelt – möglicherweise durch eine harte Partikelverunreinigung im Schleifprozess, eine temporäre Agglomeration auf der Oberfläche oder eine Drucküberhöhung in Verbindung mit einer Mikrostruktur im Substrat (siehe Slider auf der nächsten Seite). Die Form, die unregelmäßige Topografie und das Fehlen klarer Phasengrenzen stützen meine Interpretation. Die Ränder des Defekts zeigen sehr deutlich ein heterogenes Relief mit teilweise abgestuften Höhenunterschieden. Es ist keine klar definierte Phasengrenze zu erkennen, wie sie bei typischen Inklusionen häufig sichtbar ist. Inklusionen neigen dazu, eine scharf abgrenzbare Grenzfläche zum Wirtskristall zu bilden, insbesondere wenn sie aus Oxiden oder Metallverbindungen bestehen.

An mehreren Stellen, besonders auf der rechten Seite des Defekts, sind linsenartige, sich überlappende Bruchzonen sichtbar. Diese erinnern an Abplatzungen oder Delaminierungen, wie sie bei mechanischem Stress entstehen, etwa durch abrasive Partikel oder lokale Überlastung beim Schleifen. Das Innere des Pits weist eine körnig-unruhige Textur auf, was auf einen unvollständigen Materialabtrag oder eine Rissbildung im Substrat hindeuten könnte. Solche Merkmale sind charakteristisch für Materialversagen durch mikroskopische Rissinitiierung, jedoch untypisch für die glatten, kompakten Flächen von Inklusionen. Und zu guter Letzt: Die Schleifspuren des Substrats verlaufen ungestört durch den Hintergrund, jedoch werden sie im Bereich des Defekts unterbrochen. Dies legt nahe, dass der Defekt nach oder während des mechanischen Bearbeitungsprozesses entstanden ist und nicht durch eine zuvor vorhandene, freigelegte Inklusion verursacht wurde. Genau deshalb würde ich eine Inklusion hier ausschließen.

Darüber hinaus wurden noch mögliche Einschlüsse von Gasblasen und eine mögliche Beschädigung während des Erdbebens auf Taiwan ins Spiel gebracht, falls der Wafer gerade zu dieser Zeit in Bearbeitung war. Ich denke mal, alle weiteren Spekulationen würden aktuell zu weit führen, so dass ich das hier erst einmal abbreche und auf AMD warte.

Wichtige Vorbemerkung

Da es sich hierbei vorerst um einen Einzelfall handelt und andere von mir untersuchte Chips deutlich geringere Schäden aufwiesen, lässt sich daraus noch kein Rückschluss auf eine systematische Schwäche der ganzen Produktserie ableiten. Gleichwohl sollte dieser Befund Anlass sein, die automatisierte optische Inspektion während der Fertigung im Hinblick auf atypische Defektmuster zu überprüfen und ggf. zu optimieren. Der Fokus liegt bislang ganz offensichtlich vorrangig auf der Erkennung von Kratzern, Rissen und strukturellen Abplatzungen, während isoliertes, vertieftes Pitting bislang offenbar seltener oder gar nicht erfasst wird. Gerade bei GPUs mit hohem thermischem Leistungsprofil sollte jedoch sichergestellt sein, dass auch solche isolierten, aber thermisch wirksamen Oberflächendefekte zuverlässig erkannt und klassifiziert werden. Die analysierte GPU wies sogar erste Abplatzungen an der Längskante auf, was der Lebensdauer nicht zuträglich ist.

Ich habe AMD vorab mit dieser Information und den relevanten Daten versorgt und warte noch auf eine entsprechende Antwort. Denn auch wenn es erst einmal wie eine seltene Ausnahme aussieht, wird der Artikel heute zeigen, dass man auch über mögliche Probleme bei der optischen Kontrolle des Herstellers nachdenken muss. Das wiederum wäre dann durchaus tiefergreifender. Ich möchte alle bitten, die hier zitieren oder Informationen weiterverwenden, diese Vorbemerkung zu beherzigen und den Anschein einer Sensation zu vermeiden. Danke.

 

Hotspot-Temperatur und Hintergründe

Statt sich auf einen zentralen oder randseitigen Temperatursensor zu verlassen, integriert AMD eine Vielzahl von Temperaturfühlern (Thermal Diodes bzw. digitale Temperatursensoren, DTS) direkt auf dem GPU-Die. Diese Sensoren sind über das gesamte Die verteilt – insbesondere in der Nähe thermisch kritischer Bereiche wie Recheneinheiten (CUs), Speichercontroller, Spannungswandler oder Cacheblöcke. Diese Sensoren liefern kontinuierlich Temperaturdaten, typischerweise in hoher zeitlicher Auflösung. Die GPU-Firmware (und ggf. Teile des Treibers) wertet diese Daten aus und identifiziert den jeweils höchsten Messwert als die Hotspot-Temperatur.

Frühere Architekturen, bei AMD und auch bei Mitbewerbern, arbeiteten oft mit einem Mittelwert oder einem festen Sensorknoten, was dazu führte, dass lokale thermische Maxima (Hotspots) nicht erkannt oder deutlich unterschätzt wurden. Mit dem Hotspot-Modell erkennt das System stattdessen die thermische Spitze auf dem Die, was für modernes Power- und Temperaturmanagement essenziell ist, insbesondere bei stark lastabhängiger Leistungsaufnahme, lokalisierten Rechenoperationen (z. B. Shader-Cluster) und variabler Kühlung (Lüfterkurven, Temperaturzielsteuerung).

AMD spezifiziert für RDNA-GPUs typischerweise eine Hotspot-Temperaturgrenze von etwa 110 °C, was deutlich über der durchschnittlich berichteten GPU-Temperatur liegt. Dies ist möglich, da Hotspot-Werte sehr lokal begrenzt sind und der Rest des Dies deutlich kühler sein kann. Diese Grenze definiert jedoch das thermische Limit, ab dem automatische Taktreduktion (Thermal Throttling) eingeleitet wird, um die Integrität des Chips zu schützen. Der Leser berichtete über stark heulende Lüfter als Folge der sehr hohen Temperaturen.

Analyse des Fehlerbildes

Das Bild weiter oben zeigte eine verkleinerte Mikroskopie des Dies, die ich mit meinem Keyence VHX-7100 und einer speziellen Beleuchtung gemacht habe, um die Vertiefungen plastischer hervorzuheben und diese überhaupt zu sehen. Mit dem bloßen Auge ist so etwas auf einer spiegelnden Oberfläche nämlich kaum sichtbar. Bevor ich mich jedoch mit den ganzen Löchern im Detail beschäftige, habe ich sie erst einmal mit dem Keyence zählen und auch die Fläche vom System ermitteln lassen. Das Prinzip ist sehr ähnlich zu dem, was der Fertiger des Chips bei der Endkontrolle der Oberfläche auch nutzt und ich war erst einmal geschockt. Insgesamt 1934 Krater mit einer Gesamtfläche von über 1 Prozent der Chipfläche sind definitiv indiskutabel.

Ihr erfahrt auf der nächsten Seite, wie solche Krater entstehen können und wir man sie eigentlich hätte erkennen müssen, denn dieser Chip ließe sich auch mit der besten Wärmeleitpaste sicher nicht sinnvoll nutzen, der ist de facto für den Kunden wertlos. Leider war die Fotodokumentation vor dem ersten Säubern des Chips etwas nachlässig, weil ja keiner vermuten konnte, was uns da gleich Schönes erwartet, aber man erkennt auch hier bereits die dunklen Stellen der Kraterlandschaft:

Dass die Karte bei Powercolor durch die Endkontrolle gerutscht ist, ist eine andere Geschichte, denn das hätte auffallen müssen. Da aber ganz offensichtlich nicht wirklich getestet wurde, bleibt offen, ob nicht auch andere Karten die gleiche Mondkraterlandschaft aufwiesen und nur nicht erkannt wurde. Kleiner Side-Kick, aber nicht kriegsentscheidend: Die Folie vom Wärmeleitpad bei dem Spannungswandler für den Speicher klebt auch noch dran. Das ist zwar schwer abzubekommen und suboptimal, aber shit happens…

Nach dem Umblättern begeben wir uns auf Spurensuche in der Produktion und möglichen Ursachen für diese Metereoitenenschläge.

Kommentar

Lade neue Kommentare

Case39

Urgestein

2,674 Kommentare 1,052 Likes

Moin. Dann hoffen wir mal, das es keine Kreise zieht.

Antwort 1 Like

Smartengine

Veteran

164 Kommentare 170 Likes

Wow. 113°C auf dem Hotspot is schon wahnsinn.
Meine XFX zeigt unter vollast 79°C auf dem Hotspot.

Antwort Gefällt mir

Igor Wallossek

1

11,998 Kommentare 23,637 Likes

RDNA3 ist anders, kann man nicht vergleichen. Aber wenn ein Delta deutlich über 30K geht, muss man echt darüber nachdenken.

Antwort 3 Likes

F
Fortuba

Mitglied

13 Kommentare 6 Likes

Ist nicht letztes Jahr erst Roman in der Fabrik bei Powercolor durchgestiefelt? Da sah die Sichtprüfung zumindest authentisch aus. Kann aber auch alles nur Show gewesen sein, weil ein Besucher mit Kamera vor Ort gewesen ist.

Edit: Hier ist der Link zu seinem Youtube Video.

Antwort Gefällt mir

M
Mr.Inkognito

Mitglied

51 Kommentare 19 Likes

Mögliche Ursache könnte auch sein, dass aus Kostengründen alle Qualitätsmanagements sich auf die anderen Qualitätsmanagements verlassen.
Diese Denkweise hat man leider heute zu Tage sehr oft.
Gearscht ist dann derjenige, welche in der Produkt- bzw. Produktionskette wirklich noch Qualitätsmanagement bzw. -sicherung betreibt.

Antwort 2 Likes

Igor Wallossek

1

11,998 Kommentare 23,637 Likes

Ihr glaubt auch immer, was YouTube so von sich gibt. Ich war nämlich in der selben "Fabrik", das ist aber nur eine Art Show für Touristen mit einer einzigen Insertion-Line, also Kleinserie statt Massenproduktion. Zumal die Realität komplett anders aussieht.

BTW: Gleicher Kittel, aber nicht so überbelichtet :D

View image at the forums

Antwort 17 Likes

Smartengine

Veteran

164 Kommentare 170 Likes

Ist auch RDNA 4: XFX Mercury Radeon RX 9070 XT OC Gaming Edition
Hab sie aber noch nicht unter Windows ausprobiert. Kann eigentlich 95% unter Linux zocken :D

Antwort Gefällt mir

Igor Wallossek

1

11,998 Kommentare 23,637 Likes

In einer industriellen Produktion hat keiner Zeit, das in langen 30 Sekunden manuell zu applizieren:

View image at the forums

Das sollte mal der Pastenautomat werden. Lief aber gerade nicht :D

View image at the forums

In der realen Produktion kommen die Kühler bereits mit applizierter Paste ins Werk. Grund: die Paste haftet auf der raueren Oberfläche viel besser und wird in Sekundenbruchteilen maschinell aufgedruckt. Wer soll pro Woche bitteschön 100k oder 200k Karten manuell bepasten? :D

Ich habe damals kein Video draus gemacht, weil ich mir reichlich verarscht vorkam ;)

Antwort 15 Likes

M
Milchspende

Mitglied

33 Kommentare 7 Likes

Wow, vielen Dank für diesen Bericht!
Nochmal ein dickes Lob an dich!

Was du hier auf deiner Seite regelmäßig für technisch fundierte Artikel veröffentlicht ist einfach der Wahnsinn und konkurrenzlos!

Antwort 4 Likes

ipat66

Urgestein

1,615 Kommentare 1,747 Likes

Das ist wie die Lindt Pralinen-Werbung ... :)
Glaubt wirklich jemand, das ausgesuchte Konditoren die Pralinen mit erlesenen Füllungen von Hand befüllen ? :D

Antwort 5 Likes

F
Fortuba

Mitglied

13 Kommentare 6 Likes

Ne glauben tu ich das selber nicht. Ich hab ja selbst geschrieben, dass es wahrscheinlich alles nur Show ist, weil ja ein Besucher vor allem mit großer Reichweite und Kamera vor Ort gewesen ist.

Antwort 1 Like

Igor Wallossek

1

11,998 Kommentare 23,637 Likes

Ich schreibs gern noch einmal: Das ist ein riesiger Show-Room in einem ganz normalen Gebäude... :D

View image at the forums

Und die nächste Touristengruppe darf mal rein und wird gleich praktisch neu eingekleidet :D

View image at the forums

Antwort 14 Likes

Alter.Zocker

Veteran

395 Kommentare 289 Likes

So eine "Show-Fertigung" haben wir hier übrigens auch, v.a. um Kunden unsere eigene Automatisierungstechnik, die wir ja auch selbst in der eigenen Produktion einsetzen, "live in Real-Action" vorzuführen, aber eben auch aus Sicherheitsgründen dadurch keinen "Fremden" Zutritt zur realen Fertigung gewähren zu müssen. Früher war man da wesentlich naiver und hat scharenweise mehrmals die Woche Gruppen von Gäste/Kunden/... durch die echte Fertigung geschleust...u.a. auch nach "Stuxnet" hat man da nun deutlich "umgedacht"...

Antwort 3 Likes

e
eastcoast_pete

Urgestein

2,409 Kommentare 1,577 Likes

Jetzt bleibt noch die Frage, wie viele (oder wenige) Karten aus einer solchen Großserienfertigung derartige Schäden an der GPU haben. Denn eine ganz fehlerfreie Fertigung gibt es eben nicht, und wenn die Stückzahlen groß genug werden, wächst damit auch die Wahrscheinlichkeit, daß mindestens eine GPU mit Defekten durch die QC schlüpft. Es bleibt die Frage, wie hoch die Wahrscheinlichkeit eines solchen Schadens in dieser Reihe ist, und welche Ausfallraten sowohl AMD als auch Powercolor noch als unterhalb der Grenze betrachten.

Antwort Gefällt mir

komatös

Veteran

142 Kommentare 120 Likes

Oooooha, nur ein Tilsiter hat mehr Löcher als die Oberfläche des Die! 👀

Antwort Gefällt mir

komatös

Veteran

142 Kommentare 120 Likes

Das wären dann die, die auch glauben, dass es Menschen gibt die Zitronen falten, dass es Bananenbieger gibt oder dass Lattenrost eine Geschlechtskrankheit ist. :ROFLMAO:

Antwort 3 Likes

Igor Wallossek

1

11,998 Kommentare 23,637 Likes
LurkingInShadows

Urgestein

1,467 Kommentare 630 Likes

Oder ein bodenloses Loch wird.

jaja ich weiß Wortwitzkasse.

Antwort 1 Like

LurkingInShadows

Urgestein

1,467 Kommentare 630 Likes

Dachte der Schmetterling macht das....

Antwort Gefällt mir

Danke für die Spende



Du fandest, der Beitrag war interessant und möchtest uns unterstützen? Klasse!

Hier erfährst Du, wie: Hier spenden.

Hier kannst Du per PayPal spenden.

About the author

Igor Wallossek

Chefredakteur und Namensgeber von igor'sLAB als inhaltlichem Nachfolger von Tom's Hardware Deutschland, deren Lizenz im Juni 2019 zurückgegeben wurde, um den qualitativen Ansprüchen der Webinhalte und Herausforderungen der neuen Medien wie z.B. YouTube mit einem eigenen Kanal besser gerecht werden zu können.

Computer-Nerd seit 1983, Audio-Freak seit 1979 und seit über 50 Jahren so ziemlich offen für alles, was einen Stecker oder einen Akku hat.

Folge Igor auf:
YouTube   Facebook    Instagram Twitter

Werbung

Werbung