Eigentlich sah alles so gut aus, als ich unlängst mit dem großen Roundup der Workstation-Grafikkarten begonnen und auch den ersten Teil mit allen vier neuen Radeon Pro Grafikkarten bereits veröffentlicht habe. Schlecht schnitten die Karten nicht ab, im Gegenteil. Aber ich habe mir damals schon beim Benchmarken Dinge notiert, die ich unbedingt noch einmal nachtesten wollte. Vor allem bei einem längeren Rendervorgang mit HIP, aber auch einem 3D-Loop zur Ermittlung der Leistungsaufnahme, hatte ich mit dieser Karte bereit vereinzelt Blackscreens, schob es aber zunächst auf ein möglicherweise defektes DP-Kabel (das sich dann auch wirklich als Wackel-Kandidat herausstellte).
Aber irgendetwas war trotzdem anders. Denn die normalen Aussetzer und Blackscreens werden normalerweise entweder von einem Aufheulen der Lüfter oder gleich mit einem Reboot begleitet. Oder aber es freezt alles. Hier aber lief der Rechner normal weiter, nur eben ohne Bild an der Grafikkarte. Ein Test mit einem zweiten Bildschirm an der iGP zeigte mir, dass das System noch regiert. Es ließ sich auch alles normal herunterfahren und danach gleich wieder neu starten. Damit verschiebt sich das Follow-Up mit den vier Einzelkarten natürlich erneut, denn ich habe mich erst einmal um die Radeon Pro W7600 kümmern müssen. Denn eines steht auch fest: Bei Workstation-Grafikkarten steht die Zuverlässigkeit im Mittelpunkt und genau diese war hier nicht gegeben. Stichwort Reliability.
Protokoll des Blackouts
Ich habe, mit dem nötigen Gottvertrauen, den Blackout mit verschiedenen Applikationen reproduzieren können. Egal ob Lightwave, Horizon Zero Dawn oder Furmark, irgendwann wurde es dunkel. Mit Furmark hielt die Karte übrigens keine 6 Minuten durch, so dass ich mich fürs Protokoll für die ganz harte, aber dafür kürzere Tour entschieden habe. Das Ganze habe ich mit einer internen Beta von HWInfo64 getestet (Danke an Martin Malik für das Mitmachen!) und beispielsweise gelernt, Dass die SMU vier verschiedene Temperaturen pro Speichermodul ausgibt (bei den 2 GB Modulen), obwohl diese eigentlich offiziell gar keine Register dafür besitzen. Aber AMD liefert da was, das nur mal als Info nebenbei.
Der Durchschnitt der Speichertemperaturen lag zum Zeitpunkt des Abbruchs bei 94 bis 95 °C. Das liegt zwar bereits an der Obergrenze des spezifizierten Temperaturfensters, ist aber nicht so kritisch, dass es zum Blackout führen könnte. Wir sehen auch die anderen Temperaturen, die sehr hoch, aber noch nicht lebensbedrohlich sind. Und nun? Irgendetwas musste ja faul sein.
Ich habe mir danach die Lüfterkurve angeschaut, denn die Lüfter kleben normalerweise an Tjunction, also dem Hotspot der GPU. Allerdings war das Ganze schon reichlich komisch. Also habe ich fürs bessere Verständnis einmal radiometrische Videos der Rückseite während des Erwärmungsvorganges gemacht und das mit den Charts verbunden. Beachtenswert ist auch das Delta von rund 5 Kelvin zwischen der PCB-Messfläche und der GPU-Temperatur, denn das ist normalerweise maximal 1 Kelvin groß, nicht mehr.
Zunächst noch einmal das Video mit den Temperaturen bis zum Blackout:
Und jetzt das Ganze noch einmal als Vergleich zwischen GPU-Temperatur und der Lüftergeschwindigkeit. Diese Kurve muss man allerdings nicht verstehen:
Also bleibt mir nichts anderes übrig, als die Karte zu zerlegen. Auf geht’s!
91 Antworten
Kommentar
Lade neue Kommentare
Veteran
Mitglied
Mitglied
Urgestein
Urgestein
Urgestein
1
Urgestein
1
1
Urgestein
Veteran
1
Veteran
1
Urgestein
Urgestein
Urgestein
Urgestein
Alle Kommentare lesen unter igor´sLAB Community →