Gaming GPUs Latest news

New World GPU victim revived! – Overloaded Vcore power stages identified on Nvidia Ampere by Youtuber

Youtuber buildzoid, on his Actually Hardcore Overclocking channel, investigated a Twitter follower’s broken graphics card that had allegedly fallen victim to the new Amazon MMO New World. After a few hours with the graphics card, the experienced hardware guru was already able to diagnose the problem and actually bring it back to life!

Already during the beta phases of Amazon’s new MMO New World, there were various reports in forums and social networks that pixel accelerators were increasingly falling victim to this game. Mainly the phenomenon was limited to high-end Nvidia Ampere cards like RTX 3080 and RTX 3090 models, although there were also occasional reports of other models, also with AMD GPUs.

At first, a quality problem with graphics cards from the manufacturer EVGA was suspected as the sole cause, as we had already covered. A faulty chip for fan control was initially the main candidate here. Later this was denied by EVGA and instead a faulty solder joint of a mosfet of the power delivery was named as the cause, for which the manufacturer also promptly sent replacement hardware to affected users.

Amazon had at the same time completely denied the connection between dying graphics cards and their new MMO, assuring the game was “safe to play”, but still implemented an FPS limit in the menu as an additional safeguard. We had already suspected at the time that there might be a second cause for the spontaneous silicon die-off in the voltage regulation area, and questioned Amazon’s response. The beta was over, the problem was not investigated further and forgotten.

A few weeks later the official launch of the game followed and promptly new reports of dead RTX 3080 and RTX 3090 graphics cards resurfaced, not only from EVGA. Youtuber buildzoid was able to borrow an affected RTX 3090 Vision OC model from manufacturer Gigabyte from one of his Twitter followers, to be one of the first to actually go in search of the actual cause of the silicon diying.

In the first video, he analyzes the PCB and can already identify the first defective components or circuits with a multimeter. One of the fuses of the 12V connections had blown, but also several phases of the GPU power supply have a suspiciously low ground resistance, which points to the defect of a power stage.

A little later there was already an update video, in which the graphics card could actually be brought back to life. All that had to be done was to remove the blown fuse and a defective power stage and the card could be put back into operation. A complete fix this was not, but at least the system boots, the card is fully recognized by the Nvidia driver and can even run the GPU-Z render test.

What is now definitely the cause for the failed Power Stage, buildzoid could not determine yet. However, possible theories include a quality problem with OnSemi’s widely used Smart Power Stage components or a possible design flaw in the VRM configuration related to the current balancing and parallel power stages installed in a single phase. In both cases, a repair would probably not be a sustainable solution and he would have to expect the card to fail again in New World or similarly demanding games.

We’re excited to see what new findings there will be, and grateful that someone is finally taking a deep look at the problem and getting to the bottom of the real technical cause of the error with an autopsy on the silicon corpse. And even though the phenomenon was first brought on by New World, an application that merely issues documented DirectX API commands through the driver should never be able to trigger a hardware failure. So neutrally speaking we have to cut Amazon some slack here. 

The manufacturers of the graphics cards or Nvidia have not yet commented on the problem, not to mention a transparent investigation. So the actual cause and solution remains unclear and the mass death of hardware with a respective street value of several thousand Euros in times of an unprecedented chip shortage will continue for the time being. It should also be mentioned that a single graphics card is of course not necessarily representative of all New World victims. GPU manufacturers, on the other hand, would have far greater numbers of test objects at their disposal to determine the cause beyond doubt.

Kommentar

Lade neue Kommentare

RedF

Urgestein

4,645 Kommentare 2,542 Likes

Na das bringt doch ein wenig Licht ins Dunkel.

Antwort 1 Like

M
Morgrain

Veteran

190 Kommentare 140 Likes

Meine 3090 Vision OC ist mir vor einigen Monaten bei einer Runde Starcraft II abgeraucht. Black Screen Absturz, keine Fehlermeldung, Karte wurde nicht mehr erkannt. Hatte von Anfang an etwas Probleme, die Netzteil Kabel reinzustecken - der rechte Stecker ging zwar rein, rastete aber nie ein. Das war ein bekannter Serienfehler, angeblich war meine Seriennummer aber nicht mehr betroffen. Neue Revision.

Zur Reparatur eingeschickt und bekam sie wieder zurück (Seriennummer kontrolliert) - repariert. Auf einmal passten die Netzteil Kabel wunderbar und rasteten problemlos ein. Wurde also ausgetauscht, obwohl angeblich neue Revision mit bereits behobenem Fehler. Hat jetzt also alles tiptop funktioniert. Dann... vor ein paar Tagen angefangen... Halo CE (Uraltgame) auf einmal lauter Black Screen Abstürze mit 100% Fanspeed. Behebbar nur durch hardreset durch Powerknopf am Gehäuse. Habe alles an Fehlersuche betrieben. Bioseinstellungen, Netzteil ausgetauscht, Kabel ausgetauscht... Powertarget runter genommen (80%) - nichts hat geholfen. Bis ich einfach mal auf die Idee gekommen bin, mir den Core Clock der Karte anzuschauen. Weil das Spiel eben alt und gammlig ist (grafisch gesehen), läuft die Karte nur auf 40% und hat lauter Reserven für Boost - und will auf knapp 2100 Mhz takten - das ist einfach zu hoch und sorgt für Abstürze. Also einfach den Takt um -106 MHz reduziert und seitdem habe ich Ruhe. Bei anspruchsvollen Games, wo nicht so hoch getaktet wird, habe ich überhaupt keine Probleme.

Von wegen, Nvidia hätte das treiberseitig gelöst. Einen Sche*ßdr*ck hat man da gelöst. Die Teile takten immernoch zu hoch und stürzen deshalb ab. Wobei das auch nichts mit Temperaturen zutun hat. Habe vor einigen Black Screen Abstürzen mit Afterburner die Temps kontrolliert und die Karte war grade mal bei 60°C Core und knapp 79° VRAM.

Und so etwas bei so urteuren Karten... man ist Alphatester...

Antwort 4 Likes

Klicke zum Ausklappem
Martin Gut

Urgestein

7,743 Kommentare 3,556 Likes

Wer neben der Werbeabteilung etwas davon hat, weiss ich auch nicht. Wofür eine Karte bei 40 % Auslastung so hoch dreht oder bei Sekundenbruchteilen Last auf den vollen Boost geht, ist mir nicht klar. Ich wüsste nicht, in welcher Situation man den Unterschied zu etwas weniger Boost merken sollte. Dann, wenn man beim Arbeiten oder Gaming Leistung braucht, geht es immer um Dauerlasten über längere Zeit.

Antwort Gefällt mir

M
Morgrain

Veteran

190 Kommentare 140 Likes

Tjoa, der ganze Boostalgorithmus der RTX 3000er ist für die Tonne. Meine Karte ist im Idle Betrieb (Browser) in der Regel bei 200-435 Coreclock, alle paar jubeljahre schießt das Teil aber auch mal auf 1800 hoch. Warum, das weiß nur Nvidia. Beobachte das jetzt schon seit ich das Teil habe und das kann ich bislang immernoch nicht festmachen an irgendwas, wie Browserfenster schließen, Videos abspielen oder so. Ich nenne das mal vorsichtig zufällig, auch wenn das irgendwelche Gründe haben wird, die aber nicht sinnvoll sein werden...

Ich habe mich über die Monate auf jedenfall schon mit einigen Dingen herumplagen müssen - und das als Käufer eines urteuren Produkts. Eine Frechheit...

Antwort 3 Likes

S
Schattenläufer

Mitglied

35 Kommentare 26 Likes

Nichts wird passieren.
Bauteil- bzw. Baugruppenvorgebende Chipsatzentwickler, Boardpartner und Spieleentwickler werden den Schwarzen Peter hin- und herschieben und die Sache so gut es geht aussitzen.

Man stelle sich vor, "jemand" würde eine Fehlkonstruktion einer oder mehrerer Baugruppen zugeben und müsste Ersatz für alle möglich-betroffenen Karten leisten.
:ROFLMAO:

Antwort Gefällt mir

Zanza

Mitglied

41 Kommentare 7 Likes

Spiele auch New World und hab eine RTX 3090 FTW3 ULTRA + 10-jährige Garantie und bis jetzt läuft alles.

Antwort Gefällt mir

B
BurnOut_Student

Veteran

223 Kommentare 61 Likes

Finde ich auch gut das sich endlich jemand das Problem mal näher anschaut. Ich beobachte das ne Weile da ich auch das Game selber spiele.
Gibt wirklich viele Modelle mittlerweile die über Probleme berichten, aber klar die Karten werden ans Limit gebracht und viele halten das wohl nicht mehr aus.

Trotzdem finde ich es komisch, habe bei mir ein PT von 90% eingestellt. Vorher lief die GPU immer bei 110%. 99% der Zeit habe ich Schwankungen von bis zu +5% PT so das ich auf 95% komm ... aber heute waren es auch mal kurz 108%. Muss zugeben ich habe vor NW auch nie so drauf geachtet, evtl. ist das ganz normal ka. Dank Igor wissen wir ja wie stark die GPU´s spiken können, aber evtl geschieht das hier öfters oder für einen längeren Zeitraum ? Kenne mich damit leider zuwenig aus, aber kann mir vorstellen das wenn ne GPU da schwach ist oder auf 120% PT voreingestellt ist und dann so nen Spike kommt, dabei hops geht ?

Irgendwie glaube ich das hier die Spikes anders sind (schneller, höher, länger) als bei anderen Games, wäre das möglich ?

Antwort Gefällt mir

Gurdi

Urgestein

1,370 Kommentare 900 Likes

Interessante Erfahrungsberichte hier im Thread.
Meine XT löst das ganz elegant, Obwohl ich 2,8GHZ eingestellt habe, boostet die Karte bei Teillast auf einen offenbar fixen Maximalwert vin 2,5Ghz

Antwort Gefällt mir

B
Besterino

Urgestein

6,704 Kommentare 3,301 Likes

>100h New World seit Release, davor Closed Beta, Open Beta alles auf max @4K mit meiner 3090FTW3 Ultra ohne irgendeine Anpassung im Treiber oder BIOS, ohne aktive Zusatztool und ohne jede Probleme.

Spielspaß wie er sein soll.

Jedenfalls von der Technikseite - Warteschlangen, überfüllte Siedlungen, Lag in Instanzen sind andere Themen, für die die GPU wohl nix kann… ;)

Antwort Gefällt mir

G
Guest

Die Analyse wäre doch sicher etwas für Igorslab.:)

Komisch ist das in der Tat, warum? Die Regulation kommuniziert mit der GPU und das Modul verteilt dann die Lastzustände auf die einzelnen Phasen. Möglicherweise ein Designfehler oder ein Biosproblem. Das es auf verschiedenen Layouts zum gleichen Fehler kommt und dann der Hersteller bestimmter Komponenten das Problem sein soll, ist eher an den Haaren herbei gezogen. Man sucht den Sündenbock. In bestimmten Fällen scheint die Leistungsaufnahme im Peakbereich unter Volllastszenarien die Bauteile zu stark zu belasten und das Absenken der Spannungen reagiert zu träge, was zu einem zu lang andauernden Overshot führt, der vermutlich die Bauteile schneller altern lässt und sie in den Hardwaretod zwingt. Immer dann wenn man versucht aufgrund einer hohen Taktrate, die man anpeilt, zugleich VDroop Zustände der VCore zu minimieren um diese Taktrate hochzuhalten, besteht für die Bauteile ein gewisses Risiko, für zu hohe und zu lange "Überschwinger" über der Idlevoltage. Und das NVidia anscheinend an der Konkurrenz vorbei wollte, ist klar offensichtlich. Den Preis zahlt dann der Anwender. Zumal es die Serienstreuung auch noch gibt und das Binning ggf. auch Schuld sein könnte, weil man derzeit alles auf's Board bringt was GPU heißt (oder danach aussieht). Alias GT102 BDK Probleme inklusive...

Aber so wie wir NVidia kennen, macht es auch etwas Kleber (bei 2.5T teuren Grakas, was solls wird doch alles gekauft).;)

Schön zu wissen das man eine tickende Zeitbombe im PC verbaut hat.

Hilfe ja, VID runter, gezielt Undervolt und Leistung verlieren. Aber die Reviews sind ja gelaufen, "wir sind vorne". Da stehen einem die Nackenhaare zu Berge, wenn man glaubt das NVidia für eine 3090S das max PT auf über 450W erhöhen will.

*Und falls ich noch etwas einwerfen darf, scheint das Problem bekannt da die Partner mittlerweile "v2" bestimmter Versionen auflegen.

Antwort 1 Like

Klicke zum Ausklappem
B
Besterino

Urgestein

6,704 Kommentare 3,301 Likes

Ich finde das alles nicht aussagekräftig. Kein Mensch kann belastbare Aussagen zur „Historie“ der Karte treffen - insbesondere wurde die zwischendurch mal rechts und links mit irgendwelchen hardcore Einstellungen gequält, monatelanges Mining betrieben, dröflzig mal „huschhusch“ der Kühler gewechselt und/oder an der Spannung gedreht bis zur Kotzgrenze und darüber hinaus.

Dann fällt irgendwann die Karte aus und man reiht sich in den „habe ganz harmlos nur XYZ gespielt“ Train ein und hofft auf kostenlose Unterstützung (und manchmal noch Aufmerksamkeit oder was weiß ich).

Klar ist eigentlich nur, die Karte ist defekt. Ja, ist Kacke und darf bei normaler Nutzung inkl. bisserl OC und auch Mining nicht passieren.

Bei jeder Aussage zu Ursache (hab nur New World gespielt) und Wirkung (Defekt) ist man aber allein (!) auf die Glaubwürdigkeit des jeweiligen Nutzers angewiesen, und wie weit es damit im Internet her ist… Prost Mahlzeit. Und dann soll EIN FALL mit all diesen Unwägbarkeiten ein Indiz für etwaige Ursachen sein? Ja ne, is klar.

Antwort 1 Like

G
Guest

Mining ist kein Garantiefall, also Vorsicht mit solchen Aussagen in Foren. Da findet man seinen Sündenbock nämlich ziemlich schnell.

Antwort Gefällt mir

B
Besterino

Urgestein

6,704 Kommentare 3,301 Likes

Ich habe jedenfalls nirgends was von Garantie, Anspruch oder sonstwas auch nur ansatzweise juristisch Angehauchtes geschrieben. Ausschließlich Ursache, Wirkung und einmal Unterstützung - im Gegensatz zu den sonstigen 99,99% achte ich sehr wohl auf meine Wortwahl.

Und wer einen Sündenbock sucht, findet auch immer einen. Wer dafür mich nehmen will, bitte gern, lässt mich kalt.

Antwort 1 Like

B
BurnOut_Student

Veteran

223 Kommentare 61 Likes
Game Watt (Afterburner) TDP % (Afterburner) Watt (GPU-Z) TDP % (GPU-Z)
New World 260,2 108 247,3 95,7
Mortal Online II (Beta) 241,6 108 247,1 92,8
Cyberpunk 2077 246,7 132 250,2 96,2
BF 2042 (Beta) 242,9 100 242,7 93,4

Habe mir Heute mal vergleichsweise paar andere Spiele und deren Spikes angeschaut (0,3s Messintervall). In einem Video von JayztwoCents wird ja gezeigt das NW so starke Spikes hat. Keine Ahnung bei mir ist das wohl in jedem Spiel so, dabei ist die TDP auf 90% eingestellt was ca. 230 W entspricht. Bin selbst überrascht über die Ergebnisse, vorallem CP spiked extrem (hier waren die FPS auch am niedrigsten). Hier am Anfang mit höherer FPS ca 30 und dann mit niedriger 15. (DLSS an und aus)

View image at the forums

Auf die Voltage habe ich nun nicht geachtet aber die ist bei mir eh limitiert.
Also entweder verstehe ich bei dem ganzen etwas falsch oder es scheint einfach nix ungewöhnliches zu sein und die Grafikkarten waren einfach Schrott ? Naja ich bin aufjedenfall gespannt was noch herauskommt. :)

Antwort Gefällt mir

Klicke zum Ausklappem
G
Guest

Die Spikes sind normal, die GPU läuft dann ins PT (VCore Limit, womöglich von ihnen selbst gesetzt, die Spikes sind die Schwankungen/Trägheit in der Schaltung/Regelung).

Genau deshalb braucht es die mehr als 450W, es geht letztlich nur darum alles zu verw*rsten was früher nie auf einem Grafikbord gelandet wäre, also werfen wir die Effizienz über den Haufen mit der Begründung, mehr für alle. Langsam muss man sich fragen, ob die bei 600W Steckern noch ganz klar im Kopf sind.

NVidia selbst hat es mit Maxwell und Pascal gezeigt, es geht auch anders. Also letztlich geht es derzeit nur um maximale Ausbeute und deren Verwendung, da kann es dann bei dem gleichen Board in einer Serie zu massiven Spreizungen bei den maximalen Verbräuchen kommen (Peaks und extreme Belastungszyklen der Bauteile aufgrund der Serienstreuung in der Fertigung, gute und böse Dies die dann zu gleichen Preisen beim Anwender landen), weil eben jeglicher Schund verbaut wird und natürlich bedeutet das vor allem mehr, mehr für die Hersteller, wie NVidia vorne weg. Das Ganze jubelt zudem die Kosten maximal in die Höhe und steht dem aktuellen Trend entgegen, der Umwelt zu Liebe auch mal zu sparen. Weniger ist oft mehr.

Ist schon irgendwie komisch das man alles aufs Board haben will, wo die Fertiger in 2023 mit heftigen Überproduktionen in der Fertigung rechnen und schon massiv vor Überschüssen warnen. Aber dann vergraben wir den Rest in der Wüste.

In Bereiche Automotive hat NVidia genauso gedacht, dann verbauen wir eben einen Stecker mehr und lassen unser Pilotmodul 150W verbrauchen, sind dafür aber aus vielen Listen der Hersteller gestrichen worden. Nein danke, kein Bedarf für Mikrowellen in Auto.:)

@Besterino
Sie waren gar nicht persönlich gemeint, schrieben aber etwas von kostenloser Unterstützung. Aber man könnte es dann auf den Part, der nicht kommerziellen und abgedeckten Verwendung im Bereich Mining schieben, und damit hätte man trotz möglicher Konstruktionsfehler seinen Spündenbock gefunden, die "minen alle" und dafür können wir nichts. Damit muss man klar rechnen. Und das hier und anderswo mitgelesen wird, davon können sie zu 100% ausgehen.

Antwort Gefällt mir

Klicke zum Ausklappem
k
kermit_nc

Mitglied

51 Kommentare 19 Likes

Dem Datenblatt des smart power stages kann es nicht der Ausgangs-Strom gewesen sein, der das einzelne Modul zerstört hat. Der OCP liegt bei min 74A (70A max peak current) mit 10A Hysterese. Also Kurzschlussfest.
Der Fehler ist bei der Karte im Video der Kurzschluss im Eingangskreis des smart power stages der die 12V Sicherung ausgelöst hatte.

Es hat den Anschein das an mehren Stellen die Sicherheitsreserven ausgereizt wurden. Wenn dann Lieferanten ihre Produkte "preis-optimieren" werden diese dann unterschritten und es geht schief.

Antwort Gefällt mir

G
Guest

Dann müssten "beide" *geschlappt* haben, noch mal genau schauen welche Phase es ist und welche Bauteile!

Antwort Gefällt mir

k
kermit_nc

Mitglied

51 Kommentare 19 Likes

Denke ich nicht. Wenn ein Entwickler die Specs voll ausreizt oder sogar überreizt nutzt er Hersteller Reserven, die nicht spezifiziert sind. Wenn der Hersteller bei seiner Preisoptimierung der Chargen solche Reserven reduziert geht es schief. Und auf die herstellerseitigen Reserven hat der Entwickler keinen Anspruch.
Nur wenn eine der Chargen seine Leistungswerte nicht mehr erfüllt hat der Hersteller ein Problem. ONsemi ist aber bisher immer sehr zuverlässig in Erinnerung geblieben.

Ich sehe aber eher eine Kombination der Maßnahmen als Ursache. Die sehr aggressive Last- und Leistungsregelung führt die GPU und die Versorgung an die Belastungsgrenze und zwangsläufig geben die Schwachstellen dann nach.

Antwort Gefällt mir

Martin Gut

Urgestein

7,743 Kommentare 3,556 Likes

Das reicht doch nur für die nächsten Generationen. Danach braucht es 2 x 12-Pin. :rolleyes:

Antwort Gefällt mir

Danke für die Spende



Du fandest, der Beitrag war interessant und möchtest uns unterstützen? Klasse!

Hier erfährst Du, wie: Hier spenden.

Hier kannst Du per PayPal spenden.

About the author

Xaver Amberger (skullbringer)

Werbung

Werbung