Gaming Grafikkarten News

New World GPU-Opfer wiederbelebt! – Überlastete Vcore Power Stages auf Nvidia Ampere von Youtuber identifiziert

Der Youtuber buildzoid hat auf seinem Kanal Actually Hardcore Overclocking eine defekte Grafikkarte eines Twitter-Followers untersucht, die angeblich dem neuen Amazon MMO New World zum Opfer gefallen war. Nach wenigen Stunden mit der Grafikkarte konnte der erfahrene Hardware-Guru bereits das Problem diagnostizieren und sie tatsächlich ins Leben zurückholen!

Bereits während der Beta Phasen von Amazons neuem MMO New World gab es diverse Berichte in Foren und sozialen Netzwerken, dass dem Spiel vermehrt die Pixelbeschleuniger zum Opfer fallen. Hauptsächlich beschränkte sich das Phänomen auf high-end Nvidia Ampere Karten wie RTX 3080 und RTX 3090 Modelle, wobei es auch vereinzelt Meldungen anderer Modelle, auch mit AMD GPUs gab.

Zunächst wurde als alleinige Ursache ein Qualitätsproblem bei Grafikkarten des Herstellers EVGA vermutet, wie auch bereits bei uns zu lesen war. Ein fehlerhafter Chip zur Lüftersteuerung war hier zunächst der Hauptkandidat. Später wurde dies aber von EVGA dementiert und stattdessen eine fehlerhafte Lötstelle eines Mosfets der Spannungsversorgung als Ursache bezeichnet, für die der Hersteller auch zeitnah Austausch-Hardware an betroffene Nutzer sendete.

Amazon hatte zugleich den Zusammenhang zwischen sterbenden Grafikkarten und ihrem neuen MMO gänzlich dementiert, versichert das Spiel sei „safe to play“, aber dennoch ein FPS Limit im Menü als zusätzliche Absicherung implementiert. Wir hatten bereits damals vermutet, dass es noch eine zweite Ursache für das spontane Silizium-Ableben im Bereich der Stromversorgung geben könnte, und die Reaktion Amazons in Frage gestellt. Die Beta war vorbei, das Problem wurde nicht genauer untersucht und geriet in Vergessenheit.

Wenige Wochen später folgte nun der offizielle Launch des Spiels und prompt auch neue Meldungen toter RTX 3080 und RTX 3090 Grafikkarten, nicht nur von EVGA. Ein betroffenes RTX 3090 Vision OC Modell des Herstellers Gigabyte konnte sich der Youtuber buildzoid von einem seiner Twitter Follower ausleihen, um als einer von wenigen tatsächlich auf die Suche nach der Ursache des Silizium-Sterbens zu gehen.

Im ersten Video analysiert er die PCB und kann mit einem Multimeter bereits erste defekte Komponenten bzw. Baugruppen identifizieren. So hatte eine der Sicherungen der 12V Anschlüsse ausgelöst, aber auch mehre Phasen der GPU-Spannungsversorgung haben eine verdächtig niedrigen Erdungs-Widerstand, was auf den Defekt einer Power Stage hindeutet.

Wenig später gab es bereits ein Update-Video, in dem die Grafikkarte tatsächlich schon wieder ins Leben gerufen werden konnte. Hierfür musste lediglich die ausgelöste Sicherung und eine defekte Power Stage entfernt werden und schon kann die Karte wieder in Betrieb genommen werden. Eine vollständige Reparatur ist dies war nicht, aber zumindest startet das System, die Karte wird vom Nvidia-Treiber vollständig erkannt und kann sogar den GPU-Z Rendertest ausführen.

Was nun definitiv die Ursache für die ausgefallene Power Stage ist, konnte buildzoid bisher nicht feststellen. Mögliche Theorien sind aber zum einen ein Qualitätsproblem bei den weitreichend eingesetzten Smart Power Stage Komponenten von OnSemi oder zum anderen ein möglicher Design-Fehler der VRM-Konfiguration im Zusammenhang mit dem Stromspiegel und parallel verbauten Power Stages in einer Phase. In beiden Fällen wäre eine Reparatur wohl keine nachhaltige Lösung und es wäre mit einem erneuten Ausfall der Karte bei New World oder ähnlich anspruchsvollen Spielen zu rechnen.

Wir sind gespannt, welche neuen Erkenntnisse es noch geben wird, und dankbar, dass sich endlich jemand tiefgehend mit dem Problem auseinandersetzt und mit einer Autopsie am Silizum-Leichnam der wirklichen technischen Fehlerursache auf den Grund geht. Und auch wenn das Phänomen erst verstärkt durch New World hervorgerufen wurde, sollte eine Applikation, die lediglich dokumentierte DirectX API-Kommandos durch den Treiber absetzt, niemals einen Hardware-Ausfall auslösen können. Amazon ist hier also neutral betrachtet in Schutz zu nehmen. 

Die Hersteller der Grafikkarten oder Nvidia haben sich bisher noch gar nicht zu dem Problem geäußert, von einer transparenten Aufarbeitung ganz zu schweigen. Die tatsächliche Ursache und Lösung bleibt also weiter unklar und das Massensterben von Hardware mit jeweiligem Straßenwert von mehreren Tausend Euro in Zeiten einer beispiellosen Chipknappheit erst einmal weitergehen. Zudem sollte erwähnt sein, dass eine einzelne Grafikkarten natürlich nicht zwingend repräsentativ für alle New World-Opfer ist. Den GPU-Herstellen hingegen stünden weitaus höhere Stückzahlen Testobjekten zur Verfügung, um die Ursache zweifelsfrei festzustellen.

Kommentar

Lade neue Kommentare

RedF

Urgestein

4,664 Kommentare 2,553 Likes

Na das bringt doch ein wenig Licht ins Dunkel.

Antwort 1 Like

M
Morgrain

Veteran

190 Kommentare 140 Likes

Meine 3090 Vision OC ist mir vor einigen Monaten bei einer Runde Starcraft II abgeraucht. Black Screen Absturz, keine Fehlermeldung, Karte wurde nicht mehr erkannt. Hatte von Anfang an etwas Probleme, die Netzteil Kabel reinzustecken - der rechte Stecker ging zwar rein, rastete aber nie ein. Das war ein bekannter Serienfehler, angeblich war meine Seriennummer aber nicht mehr betroffen. Neue Revision.

Zur Reparatur eingeschickt und bekam sie wieder zurück (Seriennummer kontrolliert) - repariert. Auf einmal passten die Netzteil Kabel wunderbar und rasteten problemlos ein. Wurde also ausgetauscht, obwohl angeblich neue Revision mit bereits behobenem Fehler. Hat jetzt also alles tiptop funktioniert. Dann... vor ein paar Tagen angefangen... Halo CE (Uraltgame) auf einmal lauter Black Screen Abstürze mit 100% Fanspeed. Behebbar nur durch hardreset durch Powerknopf am Gehäuse. Habe alles an Fehlersuche betrieben. Bioseinstellungen, Netzteil ausgetauscht, Kabel ausgetauscht... Powertarget runter genommen (80%) - nichts hat geholfen. Bis ich einfach mal auf die Idee gekommen bin, mir den Core Clock der Karte anzuschauen. Weil das Spiel eben alt und gammlig ist (grafisch gesehen), läuft die Karte nur auf 40% und hat lauter Reserven für Boost - und will auf knapp 2100 Mhz takten - das ist einfach zu hoch und sorgt für Abstürze. Also einfach den Takt um -106 MHz reduziert und seitdem habe ich Ruhe. Bei anspruchsvollen Games, wo nicht so hoch getaktet wird, habe ich überhaupt keine Probleme.

Von wegen, Nvidia hätte das treiberseitig gelöst. Einen Sche*ßdr*ck hat man da gelöst. Die Teile takten immernoch zu hoch und stürzen deshalb ab. Wobei das auch nichts mit Temperaturen zutun hat. Habe vor einigen Black Screen Abstürzen mit Afterburner die Temps kontrolliert und die Karte war grade mal bei 60°C Core und knapp 79° VRAM.

Und so etwas bei so urteuren Karten... man ist Alphatester...

Antwort 4 Likes

Klicke zum Ausklappem
Martin Gut

Urgestein

7,780 Kommentare 3,576 Likes

Wer neben der Werbeabteilung etwas davon hat, weiss ich auch nicht. Wofür eine Karte bei 40 % Auslastung so hoch dreht oder bei Sekundenbruchteilen Last auf den vollen Boost geht, ist mir nicht klar. Ich wüsste nicht, in welcher Situation man den Unterschied zu etwas weniger Boost merken sollte. Dann, wenn man beim Arbeiten oder Gaming Leistung braucht, geht es immer um Dauerlasten über längere Zeit.

Antwort Gefällt mir

M
Morgrain

Veteran

190 Kommentare 140 Likes

Tjoa, der ganze Boostalgorithmus der RTX 3000er ist für die Tonne. Meine Karte ist im Idle Betrieb (Browser) in der Regel bei 200-435 Coreclock, alle paar jubeljahre schießt das Teil aber auch mal auf 1800 hoch. Warum, das weiß nur Nvidia. Beobachte das jetzt schon seit ich das Teil habe und das kann ich bislang immernoch nicht festmachen an irgendwas, wie Browserfenster schließen, Videos abspielen oder so. Ich nenne das mal vorsichtig zufällig, auch wenn das irgendwelche Gründe haben wird, die aber nicht sinnvoll sein werden...

Ich habe mich über die Monate auf jedenfall schon mit einigen Dingen herumplagen müssen - und das als Käufer eines urteuren Produkts. Eine Frechheit...

Antwort 3 Likes

S
Schattenläufer

Mitglied

35 Kommentare 26 Likes

Nichts wird passieren.
Bauteil- bzw. Baugruppenvorgebende Chipsatzentwickler, Boardpartner und Spieleentwickler werden den Schwarzen Peter hin- und herschieben und die Sache so gut es geht aussitzen.

Man stelle sich vor, "jemand" würde eine Fehlkonstruktion einer oder mehrerer Baugruppen zugeben und müsste Ersatz für alle möglich-betroffenen Karten leisten.
:ROFLMAO:

Antwort Gefällt mir

Zanza

Mitglied

41 Kommentare 7 Likes

Spiele auch New World und hab eine RTX 3090 FTW3 ULTRA + 10-jährige Garantie und bis jetzt läuft alles.

Antwort Gefällt mir

B
BurnOut_Student

Veteran

223 Kommentare 61 Likes

Finde ich auch gut das sich endlich jemand das Problem mal näher anschaut. Ich beobachte das ne Weile da ich auch das Game selber spiele.
Gibt wirklich viele Modelle mittlerweile die über Probleme berichten, aber klar die Karten werden ans Limit gebracht und viele halten das wohl nicht mehr aus.

Trotzdem finde ich es komisch, habe bei mir ein PT von 90% eingestellt. Vorher lief die GPU immer bei 110%. 99% der Zeit habe ich Schwankungen von bis zu +5% PT so das ich auf 95% komm ... aber heute waren es auch mal kurz 108%. Muss zugeben ich habe vor NW auch nie so drauf geachtet, evtl. ist das ganz normal ka. Dank Igor wissen wir ja wie stark die GPU´s spiken können, aber evtl geschieht das hier öfters oder für einen längeren Zeitraum ? Kenne mich damit leider zuwenig aus, aber kann mir vorstellen das wenn ne GPU da schwach ist oder auf 120% PT voreingestellt ist und dann so nen Spike kommt, dabei hops geht ?

Irgendwie glaube ich das hier die Spikes anders sind (schneller, höher, länger) als bei anderen Games, wäre das möglich ?

Antwort Gefällt mir

Gurdi

Urgestein

1,370 Kommentare 900 Likes

Interessante Erfahrungsberichte hier im Thread.
Meine XT löst das ganz elegant, Obwohl ich 2,8GHZ eingestellt habe, boostet die Karte bei Teillast auf einen offenbar fixen Maximalwert vin 2,5Ghz

Antwort Gefällt mir

B
Besterino

Urgestein

6,730 Kommentare 3,326 Likes

>100h New World seit Release, davor Closed Beta, Open Beta alles auf max @4K mit meiner 3090FTW3 Ultra ohne irgendeine Anpassung im Treiber oder BIOS, ohne aktive Zusatztool und ohne jede Probleme.

Spielspaß wie er sein soll.

Jedenfalls von der Technikseite - Warteschlangen, überfüllte Siedlungen, Lag in Instanzen sind andere Themen, für die die GPU wohl nix kann… ;)

Antwort Gefällt mir

G
Guest

Die Analyse wäre doch sicher etwas für Igorslab.:)

Komisch ist das in der Tat, warum? Die Regulation kommuniziert mit der GPU und das Modul verteilt dann die Lastzustände auf die einzelnen Phasen. Möglicherweise ein Designfehler oder ein Biosproblem. Das es auf verschiedenen Layouts zum gleichen Fehler kommt und dann der Hersteller bestimmter Komponenten das Problem sein soll, ist eher an den Haaren herbei gezogen. Man sucht den Sündenbock. In bestimmten Fällen scheint die Leistungsaufnahme im Peakbereich unter Volllastszenarien die Bauteile zu stark zu belasten und das Absenken der Spannungen reagiert zu träge, was zu einem zu lang andauernden Overshot führt, der vermutlich die Bauteile schneller altern lässt und sie in den Hardwaretod zwingt. Immer dann wenn man versucht aufgrund einer hohen Taktrate, die man anpeilt, zugleich VDroop Zustände der VCore zu minimieren um diese Taktrate hochzuhalten, besteht für die Bauteile ein gewisses Risiko, für zu hohe und zu lange "Überschwinger" über der Idlevoltage. Und das NVidia anscheinend an der Konkurrenz vorbei wollte, ist klar offensichtlich. Den Preis zahlt dann der Anwender. Zumal es die Serienstreuung auch noch gibt und das Binning ggf. auch Schuld sein könnte, weil man derzeit alles auf's Board bringt was GPU heißt (oder danach aussieht). Alias GT102 BDK Probleme inklusive...

Aber so wie wir NVidia kennen, macht es auch etwas Kleber (bei 2.5T teuren Grakas, was solls wird doch alles gekauft).;)

Schön zu wissen das man eine tickende Zeitbombe im PC verbaut hat.

Hilfe ja, VID runter, gezielt Undervolt und Leistung verlieren. Aber die Reviews sind ja gelaufen, "wir sind vorne". Da stehen einem die Nackenhaare zu Berge, wenn man glaubt das NVidia für eine 3090S das max PT auf über 450W erhöhen will.

*Und falls ich noch etwas einwerfen darf, scheint das Problem bekannt da die Partner mittlerweile "v2" bestimmter Versionen auflegen.

Antwort 1 Like

Klicke zum Ausklappem
B
Besterino

Urgestein

6,730 Kommentare 3,326 Likes

Ich finde das alles nicht aussagekräftig. Kein Mensch kann belastbare Aussagen zur „Historie“ der Karte treffen - insbesondere wurde die zwischendurch mal rechts und links mit irgendwelchen hardcore Einstellungen gequält, monatelanges Mining betrieben, dröflzig mal „huschhusch“ der Kühler gewechselt und/oder an der Spannung gedreht bis zur Kotzgrenze und darüber hinaus.

Dann fällt irgendwann die Karte aus und man reiht sich in den „habe ganz harmlos nur XYZ gespielt“ Train ein und hofft auf kostenlose Unterstützung (und manchmal noch Aufmerksamkeit oder was weiß ich).

Klar ist eigentlich nur, die Karte ist defekt. Ja, ist Kacke und darf bei normaler Nutzung inkl. bisserl OC und auch Mining nicht passieren.

Bei jeder Aussage zu Ursache (hab nur New World gespielt) und Wirkung (Defekt) ist man aber allein (!) auf die Glaubwürdigkeit des jeweiligen Nutzers angewiesen, und wie weit es damit im Internet her ist… Prost Mahlzeit. Und dann soll EIN FALL mit all diesen Unwägbarkeiten ein Indiz für etwaige Ursachen sein? Ja ne, is klar.

Antwort 1 Like

G
Guest

Mining ist kein Garantiefall, also Vorsicht mit solchen Aussagen in Foren. Da findet man seinen Sündenbock nämlich ziemlich schnell.

Antwort Gefällt mir

B
Besterino

Urgestein

6,730 Kommentare 3,326 Likes

Ich habe jedenfalls nirgends was von Garantie, Anspruch oder sonstwas auch nur ansatzweise juristisch Angehauchtes geschrieben. Ausschließlich Ursache, Wirkung und einmal Unterstützung - im Gegensatz zu den sonstigen 99,99% achte ich sehr wohl auf meine Wortwahl.

Und wer einen Sündenbock sucht, findet auch immer einen. Wer dafür mich nehmen will, bitte gern, lässt mich kalt.

Antwort 1 Like

B
BurnOut_Student

Veteran

223 Kommentare 61 Likes
Game Watt (Afterburner) TDP % (Afterburner) Watt (GPU-Z) TDP % (GPU-Z)
New World 260,2 108 247,3 95,7
Mortal Online II (Beta) 241,6 108 247,1 92,8
Cyberpunk 2077 246,7 132 250,2 96,2
BF 2042 (Beta) 242,9 100 242,7 93,4

Habe mir Heute mal vergleichsweise paar andere Spiele und deren Spikes angeschaut (0,3s Messintervall). In einem Video von JayztwoCents wird ja gezeigt das NW so starke Spikes hat. Keine Ahnung bei mir ist das wohl in jedem Spiel so, dabei ist die TDP auf 90% eingestellt was ca. 230 W entspricht. Bin selbst überrascht über die Ergebnisse, vorallem CP spiked extrem (hier waren die FPS auch am niedrigsten). Hier am Anfang mit höherer FPS ca 30 und dann mit niedriger 15. (DLSS an und aus)

View image at the forums

Auf die Voltage habe ich nun nicht geachtet aber die ist bei mir eh limitiert.
Also entweder verstehe ich bei dem ganzen etwas falsch oder es scheint einfach nix ungewöhnliches zu sein und die Grafikkarten waren einfach Schrott ? Naja ich bin aufjedenfall gespannt was noch herauskommt. :)

Antwort Gefällt mir

Klicke zum Ausklappem
G
Guest

Die Spikes sind normal, die GPU läuft dann ins PT (VCore Limit, womöglich von ihnen selbst gesetzt, die Spikes sind die Schwankungen/Trägheit in der Schaltung/Regelung).

Genau deshalb braucht es die mehr als 450W, es geht letztlich nur darum alles zu verw*rsten was früher nie auf einem Grafikbord gelandet wäre, also werfen wir die Effizienz über den Haufen mit der Begründung, mehr für alle. Langsam muss man sich fragen, ob die bei 600W Steckern noch ganz klar im Kopf sind.

NVidia selbst hat es mit Maxwell und Pascal gezeigt, es geht auch anders. Also letztlich geht es derzeit nur um maximale Ausbeute und deren Verwendung, da kann es dann bei dem gleichen Board in einer Serie zu massiven Spreizungen bei den maximalen Verbräuchen kommen (Peaks und extreme Belastungszyklen der Bauteile aufgrund der Serienstreuung in der Fertigung, gute und böse Dies die dann zu gleichen Preisen beim Anwender landen), weil eben jeglicher Schund verbaut wird und natürlich bedeutet das vor allem mehr, mehr für die Hersteller, wie NVidia vorne weg. Das Ganze jubelt zudem die Kosten maximal in die Höhe und steht dem aktuellen Trend entgegen, der Umwelt zu Liebe auch mal zu sparen. Weniger ist oft mehr.

Ist schon irgendwie komisch das man alles aufs Board haben will, wo die Fertiger in 2023 mit heftigen Überproduktionen in der Fertigung rechnen und schon massiv vor Überschüssen warnen. Aber dann vergraben wir den Rest in der Wüste.

In Bereiche Automotive hat NVidia genauso gedacht, dann verbauen wir eben einen Stecker mehr und lassen unser Pilotmodul 150W verbrauchen, sind dafür aber aus vielen Listen der Hersteller gestrichen worden. Nein danke, kein Bedarf für Mikrowellen in Auto.:)

@Besterino
Sie waren gar nicht persönlich gemeint, schrieben aber etwas von kostenloser Unterstützung. Aber man könnte es dann auf den Part, der nicht kommerziellen und abgedeckten Verwendung im Bereich Mining schieben, und damit hätte man trotz möglicher Konstruktionsfehler seinen Spündenbock gefunden, die "minen alle" und dafür können wir nichts. Damit muss man klar rechnen. Und das hier und anderswo mitgelesen wird, davon können sie zu 100% ausgehen.

Antwort Gefällt mir

Klicke zum Ausklappem
k
kermit_nc

Mitglied

51 Kommentare 19 Likes

Dem Datenblatt des smart power stages kann es nicht der Ausgangs-Strom gewesen sein, der das einzelne Modul zerstört hat. Der OCP liegt bei min 74A (70A max peak current) mit 10A Hysterese. Also Kurzschlussfest.
Der Fehler ist bei der Karte im Video der Kurzschluss im Eingangskreis des smart power stages der die 12V Sicherung ausgelöst hatte.

Es hat den Anschein das an mehren Stellen die Sicherheitsreserven ausgereizt wurden. Wenn dann Lieferanten ihre Produkte "preis-optimieren" werden diese dann unterschritten und es geht schief.

Antwort Gefällt mir

G
Guest

Dann müssten "beide" *geschlappt* haben, noch mal genau schauen welche Phase es ist und welche Bauteile!

Antwort Gefällt mir

k
kermit_nc

Mitglied

51 Kommentare 19 Likes

Denke ich nicht. Wenn ein Entwickler die Specs voll ausreizt oder sogar überreizt nutzt er Hersteller Reserven, die nicht spezifiziert sind. Wenn der Hersteller bei seiner Preisoptimierung der Chargen solche Reserven reduziert geht es schief. Und auf die herstellerseitigen Reserven hat der Entwickler keinen Anspruch.
Nur wenn eine der Chargen seine Leistungswerte nicht mehr erfüllt hat der Hersteller ein Problem. ONsemi ist aber bisher immer sehr zuverlässig in Erinnerung geblieben.

Ich sehe aber eher eine Kombination der Maßnahmen als Ursache. Die sehr aggressive Last- und Leistungsregelung führt die GPU und die Versorgung an die Belastungsgrenze und zwangsläufig geben die Schwachstellen dann nach.

Antwort Gefällt mir

Martin Gut

Urgestein

7,780 Kommentare 3,576 Likes

Das reicht doch nur für die nächsten Generationen. Danach braucht es 2 x 12-Pin. :rolleyes:

Antwort Gefällt mir

Danke für die Spende



Du fandest, der Beitrag war interessant und möchtest uns unterstützen? Klasse!

Hier erfährst Du, wie: Hier spenden.

Hier kannst Du per PayPal spenden.

About the author

Xaver Amberger (skullbringer)

Werbung

Werbung