Gaming GPUs Latest news

More detective work on Ampere mass deaths in New World – Youtuber explains possible causes

We had already recently reported about buildzoid and the RTX 3090 GPU he revived, which had previously stopped working for one of his Twitter followers while playing the MMO New World. Now, the Youtuber has published a video of over 1 hour in which he speculates on possible causes for the spontaneous shutdown and death of Nvidia Ampere GPUs in Amazon’s new MMO with measurement results of this graphics card and various datasheets.

First, he corrects two mistakes from older videos. The layout of the board of the Gigabyte RTX 3090 Eagle OC is very close to the reference design of Nvidia, which uses 9 or 10 power stages for the GPU power supply depending on the version. He further corrects that these Vcore phases are actually powered by the UP9511R PWM controller, which is analog and can only power 8 phases. As a result, 2 of the 10 power stages are installed together as one phase, as will be explained in detail later.

Using the data sheet of the PWM controller from UPI Micro, buildzoid first explains how the “Total Output Current Protection”, or OCP for short, works. Although not all variables for calculating the threshold could be determined exactly, it would be between 642 A conservatively and 1368 A realistically. This is typical for Nvidia GPU designs, which cheat their load peaks past the TDP. This is measured on Nvidia cards by means of “shunt” resistors, which are located before the capacitors and inductors of the input voltage and thus can only measure a filtered average.  

The 60 Ampere power stages installed on the Gigabyte card are specified for short-term load peaks of 80 Ampere, but the effect of such peaks on the service life of the components is questionable. And even with the 60 amps specified for continuous operation, the waste heat with a total of 90 W would be too large for the installed cooling solution. Effectively, however, this would also mean that the OCP would effectively never intervene, and before it did, it would probably be more likely that the voltage regulation components would go up in smoke.

The fact that Nvidia Ampere cards can allow themselves much higher currents for short periods of time and are effectively only limited in average power consumption is also consistent with Igor’s measurements from the launch review, with nearly 600 W at peak at 350 W TDP.

Since the OCP would most likely never intervene, the Youtuber goes on to discuss the “Channel Current Limit” feature, which he says is a special feature on this VRM. Effectively, the individual phases are limited to a maximum current, above which the phase is throttled. While phases with two power stages are limited to 160 A, there are individual phases with both an 80 A limit and a 130 A limit. Why there are different limits for identically built phases, he cannot explain, says buildzoid. 

The consequence of throttling the current would inevitably be a brief drop in the voltage supply to the GPU, which would lead to instability or even triggering of the “Under Voltage Protection”. The latter is a further protective mechanism that switches off the VRM if the output voltage is too low. The result of this would be that the GPU itself would shut down, while the rest of the components like the fan controller would go into hysteresis. The consequence of this would be a black screen and 100% fan speed, which would match the various reports of New World victims. Only a complete reboot of the system could reset the triggered protection function.

That Ampere GPU would become unstable due to too low voltage or too high clock speed was already suspected shortly after the launch. The associated “POSCAP drama” has been sufficiently illuminated and what was the real cause, a faulty boost algorithm, insufficient chip quality, too sparse capacitor layouts, borderline VRM configuration, or a combination of all of the above, the minds are still arguing today. However, it is clear that Nvidia’s fix with a subsequent driver update also noticeably throttled the short-term load peaks of Ampere GPUs.

Even if the definite cause still can’t be determined exactly, Nvidia’s decisions in the implementation of the GPU power supply are questionable or not comprehensible in some places. Also why the spontaneous demise in New World would mainly affect models of the manufacturer Gigabyte, he could not explain more precisely without further ado. However, a possible explanation would be a different implementation of the Nvidia reference design from manufacturer to manufacturer.

Since the RTX 3090 GPU he repaired was only on loan and it was to be returned to the owner in working order, buildzoid could not run further tests without risking renewed damage. Ideally, though, he would use a victim video card and an oscilloscope to measure the current draw while New World would run on the hardware. But since this would lead to a potential demise of the card, and since they are already anything but cheap to buy, he currently lacks the means for further investigations. 

Update 26.10.2021, 12:40 Uhr:

In a new additional video buildzoid shows off the power consumption behavior in the applications Furmark and Unigine Superposition. In the former, a well known very power hungry stress test, the RTX 3090 manages to reach the 350 W TDP, despite automatically throttling back to about 1200 MHz and 0.72 V GPU Voltage. In Unigine Superposition with “8K” resolution the monitoring GPU-Z even shows short peaks of up to 412 W, even still when the stock power limit of 350 W remains unchanged. 

This would point to Ampere GPUs being naturally very power hungry and even more so when games manage to utilize a big part of the GPUs CUDA cores. Similar to the Superposition Benchmark at high resolutions, the behavior in New World could simply mean very good optimizations by the game developers leading to very high utilization of the GPU. Consequently future games with ever increasing demands and even more efficient use of the hardware resources could lead to similar consequences as New World. So this would mean Amazon’s new MMO was just a harbinger for what Nvidia Ampere GPU owners could soon face. 

 

Lade neue Kommentare

Case39

Urgestein

1,958 Kommentare 569 Likes

Ampere macht von Anfang an den Eindruck, überhastet auf den Markt gebracht worden zu sein.

Antwort 4 Likes

2
2Chevaux

Mitglied

92 Kommentare 73 Likes

Huhu Xaver :)

Na, da hab' ich ja was angerichtet :) mit meinem Hinweis zum indirekten Zitat letzthin – ich wollte dich damit nicht verunsichern, Du hast eine angenhem flüssig lesbare Schreibe schon bisher.

Erstmal Danke, daß Du das so konsequent umgesetzt hast. Als Hinweis dazu, weil ich mit meinen Hinweis auf den Konjunktiv bei der indirekten Rede mich etwas in der Schuld für die wahrscheinlich daraus resultierende, leichte Holprigkeit im Artikel sehe:

Du kannst leicht "leseunterbrechend" wirkende "würde" und "wäre" ganz oft "wegvereinfachen" (muss nicht zwanghaft sein, aber am Konjunktiv II anzeigenden "würde" und "wäre" neigen Texte zu stocken, sie sind oft etwas fehl am Platze), so wie Du es in den ersten Absätzen wahrscheinlich auch intuitiv schon getan hast, also etwa

"Effektiv bedeute das [/dieses] aber auch [...]"
statt
"Effektiv würde dies aber auch bedeuten [...]"

oder

"Die Folge dessen sei [...]"
statt
"Die Folge dessen wäre [...]"

Auch ist in anderen Situationen meist der Konjunktiv I bei der indirekten Rede erste Wahl, also (beispielhaft) "gebe" statt "gäbe" oder "geben würde", was Du auch wieder zu Beginn intuitiv besser gemacht, im Verlauf deines Artikels dann aber hast schleifen lassen.

Vielen Dank für den Artikel davon ab aber natürlich auch inhaltlich, ich freue mich schon darauf, später am Tag Buildzoids Video zu schauen.

Viele Grüße
Thomas

Antwort 1 Like

Klicke zum Ausklappem
RedF

Urgestein

1,741 Kommentare 691 Likes

Klingt für mich als wollte Nvidia dahinter einen höheren verbrauch verstecken ( überrascht von AMDs Karten bzw deren leistung ).
Haben aber nicht mit dummen zufällen bei New World gerechnet.

Aber bin da nur Laie.

Antwort Gefällt mir

grimm

Urgestein

1,487 Kommentare 647 Likes

Danke für den Artikel. Die Hersteller sollten dem Herren von sich aus Test-Karten zur Verfügung stellen. Oder man setzt sich mal mit einem der Hardware-Versender hin und holt sich einen Rückläufer. Wird wohl niemand ein Interesse dran haben... Die Amperes überspringe ich.

Antwort Gefällt mir

P
Phelan

Mitglied

57 Kommentare 41 Likes

IMO eher das sie die Karten bis zur maximalen Grenze ausgereizt haben ... Also Werks OC bereits im Referenzdesinge.

Bei den Amper Karten kann man einfach mal 50W runter gehen und hat nur 1-3% FPS Verlust, sie laufen also weit oberhalb des Sweetspots.

Die Herstellen wollten nun aber selber noch OCn da sie die Karten von Anfang an nicht zum UVP anbieten konnten, da dieser Preis für sie niemals zu machen war. Im Glaube da wird schon wie immer Reserve trinne sein, haben sie also noch ein bischen rausgekitzelt.

Im Gegensatz zu früher war aber keine Reserve mehr trinne.

Den Trend hat man aktuell allgemein. Auch die CPUs kommen defakto Werks OC't und werden mit teils abartigen Vcore und TPDs hochgeprügelt um irgendwo noch 1% mehr rauszuquetschen.

Antwort 2 Likes

Klicke zum Ausklappem
LurkingInShadows

Veteran

470 Kommentare 137 Likes

Hose runter, Schw....vergleich halt

Da kommt mir, warum auch immer, wieder die Szene in Tomorrow Never Dies in den Sinn, wo ein Admiral zu M sagt sie habe nicht das was es für solche Handlungen braucht, und sie antwortet mit Wenigstens muss ich nicht mit dem was mir fehlt denken.

Antwort Gefällt mir

Case39

Urgestein

1,958 Kommentare 569 Likes

@Phelan Ja, das beinhaltet der Eindruck ebenfalls.

Antwort Gefällt mir

skullbringer

Veteran

200 Kommentare 188 Likes

Der Czechische Kollege hat eben nochmal nachgelegt. Im Video von heute zeigt er, dass sich eine RTX 3090 mit default 350 W TDP je nach Anwendung bereits 412 W genehmigen könne! 👀

Antwort 2 Likes

wuchzael

Urgestein

603 Kommentare 286 Likes

Buildzoids Videos schau ich mir ziemlich regelmäßig an. Der Junge hat was drauf und macht, worauf er Bock hat, ohne irgendwas großartig zu bewerben (y). Wie es mir zum Launch schon erschien, scheint bei den Ampere Karten der Performancezuwachs rein über die erhöhte Leistungsaufnahme erkauft worden zu sein und wie es aussieht, haben die AICs das wohl etwas unterschätzt. Genau dasselbe Bild wie damals, als die AMD/ATI Karten so viel Strom gebraucht haben und häufiger mal ausgefallen sind. AIBs wie Sapphire haben daraus gelernt und später stabilere Stromversorgungen auf ihre Karten gepackt. Ich fänd es aber besser, wenn die Chip-Entwickler sich darauf besinnen würden, auch mal an der Effizienz zu arbeiten, statt als weiter die Anzahl der Kerne und die Frequenz zu erhöhen. Vielleicht gäbe es dann auch mal wieder attraktivere MSRPs und weniger abgerauchte Spannungswandler.

Grüße!

Antwort 1 Like

Klicke zum Ausklappem
LurkingInShadows

Veteran

470 Kommentare 137 Likes

oder mehr Chips pro Wafer und somit insgesamt mehr Karten....

Antwort Gefällt mir

Danke für die Spende



Du fandest, der Beitrag war interessant und möchtest uns unterstützen? Klasse!

Hier erfährst Du, wie: Hier spenden.

Hier kannst Du per PayPal spenden.

About the author

Xaver Amberger (skullbringer)

Advertising

Advertising