GPUs Graphics Reviews

RDNA3 and too high hotspot temperatures on some AMD Radeon RX 7900 XT(X) – Cause research

Of course, you can discuss BIOS problems with the changed telemetry of the new RDNA3 cards, faulty thermal sensors in an alleged amok mode or even tangible mechanical problems, but in the end only AMD is currently able to give a comprehensive and honest answer. But you can certainly look for reasons as an outsider and approach the “issue” from different sides. Since the firmware remains locked to us for many reasons, I tried to find at least possible mechanical problems via “try & error” and time-consuming 3D scans. So far, the problems have only been concentrated on AMD’s reference cards, regardless of whether they are directly from the AMD store or relabeled by the board partners. This is because the manufacturer is a PC partner on behalf of AMD for all these cards. AMD’s first statement unfortunately doesn’t say anything concrete yet, so we’ll have to wait and see.

Important preface

Today’s article is unfortunately based on only one card (RX 7900 XT Reference) from my own inventory, which showed a slightly higher hotspot (up to 45 Kelvin in the vertical and 38 Kelvin as delta in the horizontal setup) than the rest of the tested cards (there up to 19 Kelvin as delta in Furmark). This would certainly have been even higher with an XTX, but I only wanted to test a card that I had also disassembled (and documented) myself first beforehand. I rejected offers to analyze other affected maps as well, and not only because of time constraints. Unfortunately, all specimens had already been fundamentally “tinkered with” by the buyers, i.e. they had already been disassembled and provided with new thermal paste. However, it is no longer possible to work with this in a meaningful and plausible way. 

Unfortunately, it is also a fact that replacing the used thermal paste (phase changer) in the cases known to me may only provide little remedy (namely if the rest of the conditions are not right), but in other cases on the Internet it allegedly does. This, in turn, led me to take a closer look at the heatsink and, by extension, the vapor chamber. One of the reasons why I haven’t written anything on the subject so far was, of course, the necessary time off that I allowed my family and myself over the holidays after a year. Of course, I do not claim general validity with this article, since it is only an exemplary test. However, the result shows very well that the chosen construction and a rather poor workmanship can lead to exactly this hotspot problem in individual cases, and you can definitely draw the appropriate conclusions.

Acquisition of board and cooler data

But that doesn’t mean I didn’t do anything at all. Or better: I had something done. For example, the boards and coolers captured in my 3D scanner, which has taken me a whopping 12 days in total so far, because I scanned at the highest possible resolution this time. In the meantime, you can even take a long weekend off. Until the next change in the 3D scanner. The hotspot problem was not new to me, and I started taking measurements before the wave swept through the networks. Nevertheless, unfortunately, I have only just finished.

The image above shows something that I have even observed in several cases (but more or less pronounced), because I document every card I disassemble very carefully with images during the whole process. Strictly speaking, you can already gather two interesting pieces of information from the photo. The first is the use of a so-called phase changer, i.e. a special material instead of a more or less viscous paste. This can be recognized by the formation of small air bubbles and, of course, by the very hard consistency, shiny surface and color. Second, it’s the imprints themselves that suggest very poor gap dimensions, but I’ll get to that. The fact is that you actually only take such pads if you are quite aware of the surface problems.

 

Since I have experimented a lot with such materials myself, I naturally have some experience with them. These materials are very easy to apply, analogous to a thin pad, but they require a so-called burn-in. With the pads I prefer (Boyd), this already takes place from approx. 52 °C and, to be on the safe side, you can also increase this up to 60 °C. This is because the material becomes fluid and then irreversibly hardens when it cools down. The thermal conductivity is comparatively low, i.e. worse than that of good pastes. Only AMD knows why they did not use the previously used, much better black graphite pads. And there’s a certain error factor that you have to take into account as well. Especially when we will look at the detail scans on the next page.

And now let’s compare the two images, please. The impression is almost identical in both pictures! If you look carefully here, you will also be able to guess what I later measured in the individual height planes, even without a 3D scan. However, I want to emphasize that here again: it only explains possible, mechanically caused problems, not potentially existing electrical ones! And so it may well be that one or the other factor here could also coincide unhappily with the problems we have highlighted.

I also noticed that the affected card (but not all) performed slightly better when installed vertically, and changing the thermal paste to a very good “normal” paste barely changed the delta, despite lower temperatures overall. The hotspot thus remained similarly pronounced, just differently and no longer quite as high as an absolute value. Reducing the TBP also brought only limited relief and the delta remained approximately the same even then.

The task was to combine the cooler of an inconspicuous card with the circuit board of the affected card! Why hasn’t anyone tested this yet? Even if it can be a purely exemplary statement due to the availability of only one card with a hotspot problem: the problem only occurred with the cooler of the originally affected card in the crossover test! That is, the hotspot was purely cooler-dependent in my case. Since PCBs deform more or less irreversibly after several heating and cooling phases and this “imprint” is in fact preserved for eternity, I first scanned the entire PCB completely (which takes about 5 days, since I’m not Croesus and can’t rely on faster laser technology).

However, what can already be seen very well on a scan with a less high resolution in the horizontal plane (the vertical resolution is always maximum): We can see that the board has clearly warped around the GPU area. Of course, these are not really catastrophic values yet, but it is definitely worth a closer examination, because there must be reasons for this. Exactly this I would also not like to withhold from you. so please turn the page once.

371 Antworten

Kommentar

Lade neue Kommentare

LurkingInShadows

Urgestein

1,402 Kommentare 604 Likes

@Igor Wallossek :
1) Crowdfunding für LASER?

2) Sehe ich das auf S.1 richtig, dass das PCB um 0,11 verzogen ist? (0,34 re.o. und 0,23 zweiter Wert von re.u.); Ist das der Wert den du auf S.2 anführst, oder nur durch diesen entstanden?

3) Was geben die Werte in den Klammern bei der Heatsinkvermessung an?

4) S.2, 4.Absatz unter der Heatsinkgrafik (=3.Absatz im Fazit), 1.Satz
"Sensoren" gehört vor "in der GPU", oder?

Antwort 3 Likes

Not_A_Nerd

Mitglied

49 Kommentare 45 Likes
Igor Wallossek

1

10,942 Kommentare 20,743 Likes

Es geht NICHT um die 110 Grad oder ein Throttling (das ist ja dann nur die für den letzten DAU auch sichtbare kausale Folge), sondern das Delta an sich, das da nicht hingehört. Da ist es nur die Frage der TBP, wie hoch die Hotpot Temperatur dann am Ende ausfällt. Das steht auch so im Artikel. Da steht zudem auch drin, dass ich das seit zwei Wochen verfolge, also lange bevor TH US was dazu schrieb oder das durch die Medien ging. Nur dauern richtige Messungen halt etwas länger.

Der Artikel zeigt nämlich auch, warum ein normales Repaste meist nichts bringt. Und warum ich KEINE fremden Karten genutzt habe. Meine XT hat das gleiche Problem und wenn ich die TBP erhöhe, komme ich auch deutlich höher in Richtung Ü100. Es ist hier ein belegbares ein Heatsink-Problem. wo der Hotspot um stellenweise über 30 K runtergebracht werden konnte. Richtig verteilter und dosierter Anpressdruck FTW.

2.) Nein. Das ergibt sich aus den 0.07 an der GPU und den 0.04 am Heatsink, da sich dieser ja nicht anpassen lässt und beide Flächen konkav sind.
3.) Eine Länge und die Differenzen der Achsen (X,Z,Y), wobei der letzte Wert in den Klammern die Höhendifferenz ist
4.) Gefixt, da fehlte ein Wort :D

Der Delta-Vergleich steht im Intro und im Fazit. Das hohe Delta weist auf einen miesen, ungleichmäßigen Kontakt hin. Das konnte man bei den alten Karten durch meine Methode mit der WLP locker korrigieren. Hier aber liegt der Fall anders, weil die Vapor-Chamber schief angeschliffen wurde und zudem noch mittig verbeult ist. Das sieht man sogar schon gegen das Licht mit bloßem Auge. Das ist aus meiner Sicht ein klarer Sachmangel und so eine Karte gehört kommentarlos ausgetauscht.

Antwort 8 Likes

Klicke zum Ausklappem
P
Pokerclock

Urgestein

570 Kommentare 507 Likes

@Igor Wallossek

Falls Interesse besteht, könnte ich eine XTX leihweise zur Verfügung stellen. Unverbastelt, rund 20h betrieben bislang. Sie ist aber m.E. unauffällig. https://extreme.pcgameshardware.de/...atur-ab-diese-sei-normal.628522/post-11189099

Ich könnte mich auch mal darum bemühen ein 110er-Hotspot-Modell zu besorgen.

Antwort 1 Like

Igor Wallossek

1

10,942 Kommentare 20,743 Likes

Wenn, brauche ich eine unverbastelte heiße Karte :)
Eine gute XTX habe ich ja ;)

Antwort Gefällt mir

O
Ozzy

Veteran

225 Kommentare 137 Likes

Guter Artikel, Igor, wie immer.
Ich frage mich langsam ehrlich, gibt es bei den beiden Herstellern, naja, sogar auch bei Intel, die hatten im Graka Bereich ja auch so ihre Probleme, keine echten, guten Ingenieure mehr?
Ist der Zeitdruck zu groß geworden, um ordentlich zu entwickeln und zu testen?
Oder haben die nur noch günstige, junge Entwickler, denen einfach die Erfahrung eines Igors fehlt?
Erst die Grünen mit dem Stecker, jetzt dieses Problem.
Schreckt mich komplett ab, mir was neues zu holen. Ist mittlerweile wie bei Spielen, kann man erst nach ein paar Monaten Updates spielen.
Ist bei einem Hardwareproblem irgendwie doof ;)
Guten Rutsch, Igor.
Dir und deiner Familie alles beste fürs neue Jahr.
Auch an den Rest hier im Forum.
Kommt gut und gesund rein und durch.
Grüße

Antwort 5 Likes

DMHas

Mitglied

72 Kommentare 36 Likes

Interessanter Artikel! Wenn der Originalkühler von so "schlechter Qualität" ist, bin ich gespannt, wie sich die Custom-Designs der Hersteller bei diesem Thema schlagen werden. Ebenfalls interessant wären Erfahrungen mit Wasserkühlblöcken. @Igor Wallossek: ist in dieser Richtung etwas geplant?

Antwort Gefällt mir

Igor Wallossek

1

10,942 Kommentare 20,743 Likes

Typische Man-in-the-Midle-Story. Das war schon bei den FuryX und den fiependen Pumpen das Problem. AMD beauftragt PC Partner, die beauftragen Coolermaster, die beauftragen AVC, die beauftragen noch weitere Zulieferer usw.... Da ist ein seriöses Qualitätsmanagement fast unmöglich. Am Ende war es der Verguss samt Blasen im Harz. :D

Die XFX und die Sapphire haben bisher keine Auffälligkeiten. Die Kühler sind jedoch auch richtig plan. Wasserblock wird man sehen müssen, wann was kommt. Gescannt ist die Karte ja.

Antwort 7 Likes

Megaone

Urgestein

1,877 Kommentare 1,794 Likes

Erstmal Danke an dich Igor für den Test. Sowas findet man nur bei dir. Eine kleine Spende für den Laser ist gerade raus (y).

Sätze wie:"Ich für meinen Teil habe mein Problem zumindest lösen können.." machen mir immer Angst.

Wieviele können das denn?

Der Durchschnittsdepp (und davon bin auch nicht so arg weit entfernt ) scheitert doch schon daran, die Temperaturen seiner Karte auszulesen, respektive weiss nichtmal, das es sowas wie einen Hotspot überhaupt gibt.

Von Tom`s Hardware lesen und Texte übersetzen ist der weiter entfernt, wie eine Kuh vom eierlegen.

Von daher ist das mit "keine Sorgen machen" der völlig falsche Ansatz.

Da kann man schon darüber nachdenken, wieviel Leute so eine Trümmerlotte im Rechner haben und sich fragen, wieso im Sommer die Leistung einbricht.

Das gleiche gilt natürlich auch für NVIDIA mit Ihrer Kabellotterie.

Offenkundig ist es von den die Herrschaften zuviel verlangt, gut geteste Produkte zu einem Preis, der für viele einem Monatslohn entspricht, auf den Markt zu bringen.

Da ist raffen, Dollars zählen und die Marktingmaschine auf Touren bringen wohl deutlich einfacher. Wenn ich mir diesen Müll, der sich ja nicht nur auf Grafikkarten beschränkt so anschaue, verstehe ich Leute, die sich ein einfaches Notebook und zum zocken eine Playstation kaufen, immer mehr.

Bin mal gespannt wie Firmen wie Gigabyte oder diverse andere auf einen RMA Wunsch reagieren. Bei meiner 3090 hies es letztens noch O-Ton.

"Das gehört so."

Throtteln ist völlig normal, sonst wäre es ja nicht eingebaut und diene dem Schutz der Karte und Throtteln wäre kein Mangel! Und wen interessiere es schon, was irgendeine Internetseite so von sich gibt.

Ich kam mir vor wie in dieser alten SWR3 Radiocomedyserie: " Das Kaufhaus des Grauens ".

Antwort 7 Likes

Klicke zum Ausklappem
a
andr_gin

Mitglied

75 Kommentare 38 Likes

Das Problem an der Sache ist nicht das throttling. Das sollte ja nur in Extremfällen passieren.
Das Hauptproboem ist, dass die Lüfterkurven an der Hotspot Temperatur hängen und diese dann kurz vor dem throttlen auf 100% hochdrehen.

So Kommentare von AMD, dass das alles innerhalb der Spezifikation ist können sie sich echt sparen. Als Konsument kann ich die Karte 14 Tage ohne Angabe von Gründen zum Händler zurück schicken bzw. innerhalb von 2 Jahren als Gewährleistungsfall eine Reparatur/Austausch verlangen. Den Rest darf sich dann Digital River mit AMD ausmachen.

Antwort 2 Likes

G
Guest

Super Analyse zu dem Thema! Das Erste was ich dazu finde und sich, im Rahmen der Möglichkeiten, damit auseinander setzt.

Ich habe mit meiner XTX (Powercolor MBA)keine Temp. Probleme, aber ich habe die Schrauben mal nachgezogen, die vier vom GPU-Kreuz waren unverschämt lose! die drumrum nur minimal besser!

Versiegelt war bei der Karte gar nichts, weder der übliche kleine Siegelaufkleber, noch sonst was. Auch fehlte dieser kleine Aufkleber, der "früher" mal bei der Endkontrolle aufgeklebt wurde... Vielleicht tracken die Hersteller das aber nun über Seriennummern... k.A..

Ich habe den EKWB Waterblock bestellt und werde dann beim Umbau nochmal vorher und nachher 3DMark anwerfen und mit GPU-Z und HWInfo paar Screenshots erstellen...
Das Ding soll Ende Januar kommen.

@Igor Wallossek Wenn interesse besteht, könnte ich den XTX-MBA Kühler mal als Leihgabe nach erfolgreichem Umbau zur Verfügung stellen, wenns was nützt....

Antwort 3 Likes

Gurdi

Urgestein

1,370 Kommentare 900 Likes

Das Delta kann ich bestätigen, 15-20 Kelvin, ein Repaste auf meiner Aorus bringt ein ähnliches Delta hervor bei Referenz TBP. Das scheint also derzeit so der optimale Zustand zu sein.

Antwort Gefällt mir

O
Ozzy

Veteran

225 Kommentare 137 Likes

Und die lernen nix draus?
Man man, in so großen Konzernen wird einem alles vorgegeben, was man sagen darf, anziehen darf, annehmen darf usw.
Aber sowas bekommen die nicht auf die Reihe?

Antwort 3 Likes

Megaone

Urgestein

1,877 Kommentare 1,794 Likes

Bist du dir da so sicher? Das mag ja jetzt alles so sein, aber wie sieht es im Sommer bei 35 Grad oder mehr aus. Da war ja meine Wakü schon an Ihren Grenzen.

Verlangen kannst du viel. Das Spiel heist aber im Zweifelsfall: " Wer will was von wem." In der Regel funktionieren die Rechtsabteilungen von großen Unternehmen besser als kleine Kanzleien. Und wieviel Kunden sind schon so Konfliktfreudig. Gebellt wird immer viel, gerade in den Foren. Beissen tun die wenigsten. Wobei ich damit explizit nicht dich meine.

Oder auf die Kunden abwälzen. Die meisten müssen sich ja in der Regel erstmal mit dem Hersteller der Customs amüsieren.

Antwort Gefällt mir

G
Guest

@Ozzy Ich arbeite in einem recht großen Unternehmen, und ich kann aus erster Hand, als Sumpfmitarbeiter bestätigen, wenn dir ein Problem auffällt, und du zu oft sagst, "Leute, da ist ein Problem, das und das wäre die Lösung".... bist du für "die da oben" das Problem!
Weil das eigene Unternehmen ist ja immer (frei nach "Postal") die "überflieger-company" - Man ist perfekt! ... und Probleme und Fehler machen nur die Anderen!
Das beobachte ich nun schon eine Weile... und bekomme das auch von anderen Unternehmen so zugetragen... und das international!
Das wird bei AMD,Intel,nVidia nicht anders sein!

Leider!

Antwort 14 Likes

*
***

Veteran

496 Kommentare 312 Likes

Von was sprichst Du eigentlich?

Man kann einiges in der eigenen Firma steuern, aber auch da arbeiten nur Menschen und die machen Fehler. Wenn Du andere Firmen mit etwas beauftragst, kannst Du zwar Bedingungen in den Vetrag schreiben und die Firma eventuell auch wegen Vertragsbruch belangen, wenn die Bedingungen nicht eingehalten werden - aber erst hinterher. VERMEIDEN wirst Du die Fehler nicht können. Du kannst schließlich nicht jede einzelne produzierte Karte komplett prüfen bevor sie ausgeliefert wird.

An irgendeiner Stelle ist es immer eine Sache des Vertrauens und des Risikomanagement.

Übrigens: Je mehr man in der eigenen Firma produziert, desto teurer wird es (weil man sich nicht spezialisieren kann). Deswegen werden solche Dinge outgesourced. Wenn Du darauf bestehst, dass Du als Firma über alles die Kontrolle behältst, musst Du dafür einen Preis zahlen. Und, falls Dir das nicht klar sein sollte, der einzige der diesen Preis bezahlen muss, ist am Ende der Kunde. Wer denn sonst? Der Kunde ist die einzige Geldquelle!

Antwort Gefällt mir

Megaone

Urgestein

1,877 Kommentare 1,794 Likes

Naja, die Frage ist ja nicht, das Fehler passieren, sondern wie damit am Ende umgegangen wird. Was natürlich sicher erstmal abzuwarten bleibt.

Aber merken hätte man das im Vorfeld eigentlich können und müssen.

PS:
Bevor ich es im Eifer des Gefechtes vergesse.

Allen eine guten Rutsch und ein schönes und gesundes 2023. (y)

Antwort 5 Likes

RedF

Urgestein

5,159 Kommentare 2,960 Likes

So kenne ich das auch -_- . War auch schon in der entwiklung tätig, an den ingenieuren liegt es eher nicht.
Die bekommen bauchschmerzen was dann an Produkt verkauft wird weil das Produkt zu tode gespart wird.

Antwort 6 Likes

LurkingInShadows

Urgestein

1,402 Kommentare 604 Likes

Das mit dem Firmenübergreifendem QA ist so eine Sache....

Zulieferer macht im besten Fall Stichproben beim Ein- und/oder Ausgang, der nächste genauso..... Finde da mal nen Fehler der nicht in >80% (Hausnummer) der Produkte auftritt.

Antwort 4 Likes

Danke für die Spende



Du fandest, der Beitrag war interessant und möchtest uns unterstützen? Klasse!

Hier erfährst Du, wie: Hier spenden.

Hier kannst Du per PayPal spenden.

About the author

Igor Wallossek

Editor-in-chief and name-giver of igor'sLAB as the content successor of Tom's Hardware Germany, whose license was returned in June 2019 in order to better meet the qualitative demands of web content and challenges of new media such as YouTube with its own channel.

Computer nerd since 1983, audio freak since 1979 and pretty much open to anything with a plug or battery for over 50 years.

Follow Igor:
YouTube Facebook Instagram Twitter

Werbung

Werbung