Allgemein • GPUs • Graphics • Practice • Pro • Reviews • Workstations

AMD Radeon Pro W7600 with a Blackout ex-factory – A modification provides a remedy and raises questions

18. August 2023 06:10

Actually, everything looked so good when I recently started the big roundup of workstation graphics cards and also published the first part with all four new Radeon Pro graphics cards. The cards didn’t perform badly, on the contrary. But I already noted things during benchmarking back then that I definitely wanted to re-test. Especially during a longer rendering process with HIP, but also a 3D loop to determine the power consumption, I already had isolated blackscreens with this card, but initially blamed it on a possibly defective DP cable (which then really turned out to be a wobbly candidate).

But something was still different. The normal dropouts and black screens are usually either accompanied by a fan whine or a reboot. Or everything freezes. Here, however, the computer continued to run normally, but without a picture on the graphics card. A test with a second screen on the iGP showed me that the system was still running. Everything could be shut down normally and then restarted. This of course postpones the follow-up with the four single cards again, because I first had to take care of the Radeon Pro W7600. Because one thing is also certain: Reliability is the focus of workstation graphics cards and exactly that wasn’t given here. Keyword reliability.

The best workstation graphics cards from AMD and NVIDIA in 2023 – How does the Radeon Pro W7000 series compare to Ada and Ampere in benchmarks?

Protocol of the blackout

With the necessary trust in God, I was able to reproduce the blackout with various applications. No matter if Lightwave, Horizon Zero Dawn or Furmark, at some point it went dark. By the way, the card didn’t last 6 minutes with Furmark, so I opted for the very hard, but shorter tour for the record. I tested the whole thing with an internal beta of HWInfo64 (thanks to Martin Malik for participating!) and learned, for example, that the SMU outputs four different temperatures per memory module (for the 2 GB modules), although they actually don’t have any registers for it officially. But AMD delivers something there, that only times as info besides.

The average of the memory temperatures was 94 to 95 °C at the time of the crash. That is already at the upper limit of the specified temperature window, but it is not so critical that it could lead to a blackout. We also see the other temperatures, which are very high but not yet life-threatening. And now? Something had to be wrong.

I looked at the fan curve afterwards, because the fans usually stick to Tjunction, which is the hotspot of the GPU. However, the whole thing was quite strange. So, for a better understanding, I made radiometric videos of the rear side during the heating process and connected them with the charts. Also worth noting is the delta of around 5 Kelvin between the PCB measurement area and the GPU temperature, because that’s usually a maximum of 1 Kelvin, not more.

First, once again, the video with the temperatures up to the blackout:

And now the whole thing again as a comparison between GPU temperature and fan speed. You don’t have to understand this curve, though:

So I have no choice but to disassemble the card. Let’s go!

Pages:

91 Antworten

Zeige alle Kommentare an

Kommentar

Lade neue Kommentare

Brxn

Veteran

257 Kommentare 71 Likes

#1 Aug 18, 2023

Wirklich erschreckend für ne Profi Workstation Karte. Kann ja nicht sein, dass da immer erst n Igor kommen muss, der denen aufzeigt, was die für Dreck auf die Karte schmieren usw ...

Antwort 1 Like

Ole

Mitglied

30 Kommentare 9 Likes

#2 Aug 18, 2023

da fällt mir direkt der Telekom business-DSL-Vertrag ein, wo man da als Arztpraxis plötzlich auch mehrere Tage ohne Internet und Telefon dasteht und sich am Ende fragt, warum man denn "pro" kauft, wenn "normal" irgendwie besser ist...

Antwort 1 Like

Macces

Mitglied

27 Kommentare 22 Likes

#3 Aug 18, 2023

Hallo Igor,

ich bin zwar meist nur ein stiller Mitleser und nicht so reich an Foreneinträgen aber ab und zu melde ich mich auch mal zu Wort.

Gerade weil hier oft die Fehler der Hersteller aufgedeckt werden und diese auch ungeschönt veröffentlicht werden, bin ich gern Gast hier auf der Seite.
Weil die Reichweite hier groß genug ist, hat diese Fehlersuche und Beseitigung ja auch oft genug ein Resultat und führt zum Umdenken bei den Herstellern. Manche sind leider ein wenig lernresistenter als andere und man muss sie mehrmals darauf hinweisen.

Da ich auch ein wenig Geschick im aufschrauben und modifizieren von Hardware habe, nehme ich viele der Beispiele hier auch als Anleitung für mich, um die vorhandene Hardware "zu verbessern". Manchmal auch erst, wenn die vorhandene Wärmeleitpast oder die Pads zu alt werden.

Ich sehe es eher als positive Werbung für die Webseite, auch wenn dadurch einige andere Artikel ggf. später veröffentlicht werden.

Gruß

Macces

Antwort 9 Likes

eastcoast_pete

Urgestein

1,728 Kommentare 1,061 Likes

#4 Aug 18, 2023

Schon bei Consumer Karten ist sowas schon sehr schräg (in jedem Sinn), aber bei Profi Karten, die ja auch noch mal eine ganze Ecke mehr kosten, ist's unverzeihlich. Da springt AMD den verbliebenen Kunden mit dem nackten Hintern ins Gesicht. Bessere Werbung für Nvidia kann man gar nicht machen. Wenn ich mir morgen eine GPU für den professionellen Einsatz kaufen müsste, wär spätestens jetzt klar, daß es was Grünes wird.

Antwort 3 Likes

ipat66

Urgestein

1,433 Kommentare 1,461 Likes

#5 Aug 18, 2023

Auch wenn es sich um eine der kleinen Profi-Karten handelt, ist die Umsetzung
in wichtigen Details wieder einmal nicht preiswert sondern billig.
Schon wieder...
Es wird an guter Paste und weichen Pads gespart.
Ein sich wiederholendes NO-GO.
Wie kann es sein,das es bei diesen wichtigen Montageschritten,weiterhin keine Besserung gibt ?

Auf Antworten kann man (Igor) anscheinend auch länger warten....
Schade.

Antwort 1 Like

echolot

Urgestein

1,127 Kommentare 884 Likes

#6 Aug 18, 2023

@Igor Wallossek Na immerhin generierst Du damit ein paar Klicks. Spaß bei seite. Die Community ist froh wenn der faule Zauber auffliegt. Bitte weiter so.

Antwort Gefällt mir

Igor Wallossek

10,559 Kommentare 19,816 Likes

#7 Aug 18, 2023

Solche Pads kann man machen, wenn die Balance stimmt. Dass es Probleme geben kann und man sich dessen bewusst ist, zeigt die Metallplatte um den Sockel herum. Aber wenn es sogar die Boardpartner schaffen, Abstandshalter zu verbauen, weil diese 4-Module-Lösung kippelig ist, dann frage ich mich echt nach der Praxiserfahrung des Engineerings.

MSI macht das richtig:

View image at the forums

Mir ist die Chamber beim Losschrauben gleich ganz rausgefallen. Die Paste war bretthart und gerissen. Auch das kann man mit solcher Paste /Pads machen, aber dann muss auch alles plan sitzen.

Naja, ich würde lieber mal was loben, als immer nur Fehler anzumahnen. Aber das sind solche Basics... NVIDIA ist da eher zweigleisig. Bei der RTX 2080 Ti hatte man wegen das asymmetrisch befestigten Kühlers Lötperlenabrisse unterm Speichermodul. Das hatte ich ja auch als Ursache aufgedeckt. Komischerweise hatten sowohl die Titan als auch die RTX 6000 bereits den Underfill vom ersten Tag an, nur bei den Consumer-Karten hat man gespart. Dummheit in Tüten.

Aber dass man jetzt beim OEM solche Fehler wiederholt, will sich mir nicht erschließen. Schade, dass das 3D-Profilometer erst heute kommt und noch kalibriert werden muss, sonst häte ich auch mal die gebogene Platine gezeigt. Ich weiß schon, warum ich mir solche "Spielzeuge" kaufe. Sonst glaubt es ja wieder keiner. Wenn ich da mit dem Haarlineal ankomme, lachen sich die Herren Konstrukteure vor Überheblichkeit eine Schaumblase auf den Kaffee. :D

Antwort 14 Likes

Klicke zum Ausklappem

big-maec

Urgestein

923 Kommentare 544 Likes

#8 Aug 18, 2023

Für mich ist das kein Rätsel, wenn du extern Karten fertigen lässt, arbeitet der Auftragsfertiger voll und ganz in Eigenverantwortung. Denke mal das wird auch alles dem Auftragsfertiger überlassen.
Es wird, zwar Vorgaben geben und so gut es geht umgesetzt, aber wie das so ist mit der Theorie und Praxis, es sind zwei unterschiedliche Welten.
Im Grunde funktioniert die Karte ja aber nur nicht so wie geplant.

Antwort Gefällt mir

Igor Wallossek

10,559 Kommentare 19,816 Likes

#9 Aug 18, 2023

Wenn sie bei normaler Last nach ein paar Stunden einfach ausgeht oder unter harter Last nach nicht einmal 6 Minuten, hat das mit "funktionieren" nichts mehr zu tun. Nein, sie funktioniert eben nicht. Im Übrigen hatte nicht nur ich diesen Fehler, also scheint es auch kein Einzelfall zu sein. Sonst hätte ich nicht so einen Aufwand betrieben, den mir eh keiner zahlt. :(

Antwort 5 Likes

Igor Wallossek

10,559 Kommentare 19,816 Likes

#10 Aug 18, 2023

Dass MSI jetzt stabilisiert, hat auch was mit der RTX 4070 Ventus 3X zu tun, bei der ich ein Review verweigert hatte. Die war sowas von instabil und wabbelig. Das war eine harte Diskussion mit dem R&D, aber man hat gelernt.

Antwort 4 Likes

echolot

Urgestein

1,127 Kommentare 884 Likes

#11 Aug 18, 2023

Liegt es daran, dass die Gewinnmarge immer weiter schrumpft oder sind die alle so rücksichtslos geldgeil? Wer hat bei soviel outsourcing überhaupt noch den Überblick und wie leicht bekommt man heute ISO 9001 Zertifikate? Alles sehr grenzwertige ausgelegt.

Antwort Gefällt mir

Phoenixxl

Veteran

160 Kommentare 124 Likes

#12 Aug 18, 2023

Was mich wundert:
Die Damen und Herren, bzw. die zuständigen Damen und Herren können doch auch rechnen.
Die paar Cent mehr für besser Pads und richtig platziert dürften doch viel günstiger sein, als regelmäßige RMAs.

Dazu kommt, dass das schlechte Presse bringt.
Dagegen wäre eine Karte zu einem vernünftigen Preis mit sehr guter (Verarbeitungs-) Qualität doch recht attraktiv.

Eine etwas krumme Analogie:
Baldurs Gate 3 zeigt sich gerade, dass die Kunden ein großartiges Produkt wollen, auf das man auch gerne länger wartet. Und Geld lässt sich damit offensichtlich auch verdienen!

Antwort Gefällt mir

Igor Wallossek

10,559 Kommentare 19,816 Likes

#13 Aug 18, 2023

Haha, man kauft es sich. So wie die ganzen TÜV-Siegel. :D

Antwort 7 Likes

konkretor

Veteran

312 Kommentare 321 Likes

#14 Aug 18, 2023

Da ist man schon mit der Software hinten dran. Jetzt liefert man noch schlechte Hardware, so wird das nichts AMD

Antwort Gefällt mir

Igor Wallossek

10,559 Kommentare 19,816 Likes

#15 Aug 18, 2023

Die glauben auch nur, was denen das Engineering erzählt, das selbst unter Druck steht, weil der Finanzrahmen schon arg knapp gehalten wurde. Der OEM lässt die Kühler von Drittunternehmen fertigen, da gibt es dann wieder die leidige Befehlkette, die ohne straffes QM nicht zu beherrschen ist.

Antwort 3 Likes

echolot

Urgestein

1,127 Kommentare 884 Likes

#16 Aug 18, 2023

Ich beschreibe es mal so. Die Qualität des Engineering hat in den letzten Jahren auch stark gelitten. Man bewegt sich bei der Auslegung sehr grenzwertig was den Materialeinsatz angeht. Im Projektgeschäft schon lange so. Die rechnerischen Reserven verhinderten Einiges. Dann ging man auch noch an diese Reserven und irgendwann ist nichts mehr da, woran man noch sparen könnte. Wird dann zum Schluß auf den Kunden abgewälzt. Et Voilà! Ähnliches beim QM.

Antwort 1 Like

Deridex

Urgestein

2,226 Kommentare 859 Likes

#17 Aug 18, 2023

Aus meiner Sicht hat keiner der beiden GPU Hersteller eine weiße Weste.

Antwort Gefällt mir

Moeppel

Urgestein

884 Kommentare 315 Likes

#18 Aug 18, 2023

Sofern wir nicht davon ausgehen, dass hier ein Montagsmodell vorliegt:

Also eine RMA Produkt, was durch ein RMA Produkt getauscht wird, was RMA'ed wird, um durch ein RMA Produkt getauscht zu werden?

Irgendwie hat man den Gelddruckzug verpasst :p

Antwort Gefällt mir

Ghoster52

Urgestein

1,462 Kommentare 1,127 Likes

#19 Aug 18, 2023

QM, das ich nicht lache.... :ROFLMAO:
Wer bei uns zu blöd zum arbeiten ist (geht beim Hammer in die Hand nehmen los), darf in der QM arbeiten.
(Ich habe die letzten Jahre einige kommen und gehen gesehen, einige waren nicht in der Lage einen Messschieber richtig zu benutzen)
Das "Fachpersonal" was die Anlage nicht im Griff hat (z.B. Zeichnungen richtig lesen) geht in die Arbeitsvorbereitung.
(ist das Bindeglied zwischen Kunden und Produktion) Seit Jahren ärgert sich unsere Produktion mit "Pro Lean" rum.
Die Liste ist sehr lang und man fragt sich echt wo das noch enden soll.... :(

Antwort 3 Likes

Alle Kommentare lesen unter igor´sLAB Community →

Danke für die Spende

Du fandest, der Beitrag war interessant und möchtest uns unterstützen? Klasse!

Hier erfährst Du, wie: Hier spenden.

Hier kannst Du per PayPal spenden.

Intel’s Q3’23 update – driver and software offensive for more performance of Arc graphics cards

THERMALTAKE The Tower 200 ITX showcase Review – Is that actually still Mini-ITX?!

About the author

View All Posts

Igor Wallossek

Editor-in-chief and name-giver of igor'sLAB as the content successor of Tom's Hardware Germany, whose license was returned in June 2019 in order to better meet the qualitative demands of web content and challenges of new media such as YouTube with its own channel.

Computer nerd since 1983, audio freak since 1979 and pretty much open to anything with a plug or battery for over 50 years.

Follow Igor:
YouTube Facebook Instagram Twitter