Amazon startet die Beta Phase eines neuen Spiels und nahezu zeitgleich melden User im ganzen Internet, dass ihre Nvidia RTX 3090 GPUs sterben. Die Gründe sind bisher offiziell noch nicht geklärt. Bei EVGA soll es angeblich an einem defekten Lüfter Controller liegen, wobei aber anderen Quellen zufolge auch Karten anderer Boardpartner oder sogar anderer GPU-Hersteller betroffen sein sollen. Und Amazon hat sich mittlerweile zu Wort gemeldet und gibt fröhlich Entwarnung. Das ist einmal in einer Nussschale zusammengefasst, was gerade in der Hardware-Industrie und Community falsch läuft und dabei ist mir persönlich auch eine Sicherung durchgebrannt. Deshalb möchte ich nun meine Sicht auf die Dinge in diesem Editorial darlegen. Es ist also meine ganz persönliche Sicht der Dinge, das muss ich natürlich voranstellen.

Zunächst einmal gilt es natürlich bei einem Massensterben von GPUs die User vorzuwarnen, um vielleicht noch die eine oder andere Karte vor dem Tod zu bewahren. Bisher ist nur klar, die jüngsten Meldungen hängen mit dem Spiel “New World” von Amazon zusammen, dass seit kurzem in der Closed Beta spielbar ist. Also bietet es sich an, auf allen Websites und Foren, in Artikeln und Threads mit möglichst viel Reichweite zu Ampere-Besitzern auf das Thema aufmerksam zu machen. Lieber einmal zu oft weitergesagt, als zu wenig! 😉
Internet Information Clusterf***
Igor hatte das Thema ja gestern bereits mit exklusiven Informationen von EVGA beleuchtet. Laut internen Informationen, wird die Ursache bei diesem Hersteller bei dem Chip für die Lüftersteuerung vermutet, die aus unbekannten Gründen genau bei diesem Spiel den Geist aufgibt. Dies würde bedeuten, dass tatsächlich nur Karten dieses Herstellers betroffen sind.
I've now had the following GPU owners express they have had shut downs and failures with New World…
RX590
6800
6800XT
6900XT
3080Ti
3090
So once again, the issue definitely is with SOMETHING in the way the game New World is rendering. This ISNT a 3090'exclusive issue! PERIOD!!— JayzTwoCents (@JayzTwoCents) July 22, 2021
Dem ist aber – wenn man den diversen Reports im Internet glauben mag – nicht so. Grund hierfür wiederum scheint eine zweite mögliche Sterbeursache zu sein, die alle Vendors, und wenn man dem Tweet von JayzTwoCents glaubt, auch andere GPU-Typen betrifft. Daher sollte man auch einmal klar festhalten, dass es eben keine generelle Entwarnung für nicht-EVGA-Karten gibt, zumindest zum jetzigen Zeitpunkt!
Natürlich muss man sich immer die Frage stellen, wie verlässlich solche Meldungen und Aussagen sind, oder ob nicht der eine oder andere Trittbrettfahrer dabei ist, der seine anderweitig defekte Grafikkarte irgendwie mit in den RMA-Prozess schmuggeln möchte. Aber auch wenn man keine bösen Absichten unterstellt, muss man natürlich die Belastbarkeit solcher Meldungen in jedem Fall prüfen.

Prüfen und erst dann ggf. aussortieren. Was keine gute Idee ist, ist sich mit Scheuklappen nur auf die Aussage einer Quelle zu beziehen, alles andere zu ignorieren oder als falsch abzustempeln. Ja, im Internet ist es schwierig den Überblick zu behalten, wir Menschen sind damit oft überfordert und ja, das ist auch nichts Neues. Aber genau in einem Fall wie diesem, kommt die Menschlichkeit bei der Informationsverarbeitung mal wieder an die Oberfläche.
Idealerweise sollte eine zentrale Stelle alle solche Meldungen sammeln, bei den Usern nach Schilderungen, Verifikation etc. fragen und dann die Glaubhaftigkeit bzw. Verlässlichkeit der Meldung evaluieren. Ähnlich wie es das PEI bei Nebenwirkungen zu Covid-19-Impfungen macht– bietet sich als Vergleich an und kennen überraschend wenige, nur mal so am Rande. Als eine solche zentrale Informations-Sammelstelle würde sich in diesem Fall z.B. Nvidia anbieten. Aber dass jeder Reviewer sein eigenes Süppchen an Informationen zusammenkocht, diese aber nicht vollständig öffentlich macht, ist auch nicht wirklich hilfreich.

Wenn man dann eine belastbare Daten-Basis hat, könnte man mit den Daten arbeiten, Fehlmeldungen aussortieren und gemeinsame Nenner finden, wie z.B. die sehr hohen FPS im Menü bei New World – teilweise im Bereich von mehreren Tausend –, die Popcorn-ähnlichen Geräusche, die mit dem Sterben der Karten einhergehen, oder die PCB-Designs der verschiedenen Vendors, wo manche scheinbar mehr und manche weniger anfällig sind.
Erst dann kann man Aussagen zur Ursache treffen oder pauschale Entwarnungen aussprechen. Vorher ist das, zumindest meiner Meinung nach, schlichtweg fahrlässig. Nun leben wir leider nicht in einer perfekten Welt und eine Datensammlung dieser Art, selbst wenn es sie gäbe, würde wahrscheinlich von Nvidia nicht öffentlich gemacht werden. Aber zumindest ein offizielles Statement von Nvidia sollte wohl man abwarten, um guten Gewissens einen Weg nach vorne absehen zu können.
1000 und 1 FPS, und es hat Boom gemacht!
Was nun die tatsächliche Ursache für das GPU-Massensterben ist, ist zu diesem Zeitpunkt weiterhin unklar. Die plausibelste Erklärung scheint zumindest mir folgende zu sein: Durch die extrem hohen FPS im Menü des Spiels, durchläuft die GPU extrem kurze Renderzyklen (< 1 ms). Diese Renderzyklen verursachen die altbekannten Spikes bei Stromstärke und Leistungsaufnahme. Neben Igor’s Launch Review sieht man das auch im Update zum Wundertreiber sehr schön. Im obigen Diagramm daraus, werden die Spikes in der Leistungsaufnahme mit einer Auflösung von 10 µs dargestellt. Wohlgemerkt handelt es sich dabei “nur” um eine kleinere und etwas sparsamere RTX 3080.
Auf allen modernen Grafikkarten überwacht eine spezielle Monitoring-Schaltung diese Spikes permanent, bremst sie ein oder schaltet die Karte im Extremfall sogar komplett ab. Aber im Falle von New World sind die Spikes wohl so unglaublich kurz, dass das interne Monitoring der Karten schlichtweg zu langsam ist. Es scheint eine Grenze bei ca. 1 ms bzw. 1000 FPS zu geben, ab der die Karte einfach nicht mehr merkt, wenn die sich zu Tode säuft. Dies würde auch zu der angeblichen Info passen, dass auch andere high-end Karten betroffen sind, die solch gefährlich hohe FPS erreichen können.

Manche Hersteller wie EVGA oder MSI verbauen auf ihren PCBs zusätzlich Sicherungen, um die vergleichsweise teuren Komponenten der Spannungsversorgung vor Überbelastungen zusätzlich zu schützen. In diesen Fällen lösen dann eben diese trägen Sicherungen bei der Summe aller ultrakurzen Spikes bzw. Transienten irgendwann aus und die Karte ist letztendlich auch defekt, nur eben später einfacher zu reparieren.
Aber hier sollte auch einmal mehr angemerkt werden, dass alle Boardpartner jedes ihrer PCB-Designs vor der Produktion bei Nvidia zur Freigabe vorlegen müssen (Greenlight Program). Also fällt die Verantwortlichkeit für ein fehlerhaftes bzw. suboptimales PCB-Designs doch wieder auf Nvidia zurück. Aber wie gesagt, diese Erklärung mit den Spikes ist nur eine Theorie von vielen und offiziell bestätigt ist noch gar nichts. Also genießt das bitte auch mit einem entsprechend großen Salzkörnchen bzw. Spekulatius.
47 Antworten
Kommentar
Lade neue Kommentare
Veteran
Mitglied
1
Urgestein
Veteran
1
1
Veteran
Urgestein
Neuling
Veteran
Urgestein
Urgestein
Veteran
Urgestein
Urgestein
Urgestein
Urgestein
Mitglied
Alle Kommentare lesen unter igor´sLAB Community →