Gaming GPUs Latest news

More detective work on Ampere mass deaths in New World – Youtuber explains possible causes

We had already recently reported about buildzoid and the RTX 3090 GPU he revived, which had previously stopped working for one of his Twitter followers while playing the MMO New World. Now, the Youtuber has published a video of over 1 hour in which he speculates on possible causes for the spontaneous shutdown and death of Nvidia Ampere GPUs in Amazon’s new MMO with measurement results of this graphics card and various datasheets.

First, he corrects two mistakes from older videos. The layout of the board of the Gigabyte RTX 3090 Eagle OC is very close to the reference design of Nvidia, which uses 9 or 10 power stages for the GPU power supply depending on the version. He further corrects that these Vcore phases are actually powered by the UP9511R PWM controller, which is analog and can only power 8 phases. As a result, 2 of the 10 power stages are installed together as one phase, as will be explained in detail later.

Using the data sheet of the PWM controller from UPI Micro, buildzoid first explains how the “Total Output Current Protection”, or OCP for short, works. Although not all variables for calculating the threshold could be determined exactly, it would be between 642 A conservatively and 1368 A realistically. This is typical for Nvidia GPU designs, which cheat their load peaks past the TDP. This is measured on Nvidia cards by means of “shunt” resistors, which are located before the capacitors and inductors of the input voltage and thus can only measure a filtered average.  

The 60 Ampere power stages installed on the Gigabyte card are specified for short-term load peaks of 80 Ampere, but the effect of such peaks on the service life of the components is questionable. And even with the 60 amps specified for continuous operation, the waste heat with a total of 90 W would be too large for the installed cooling solution. Effectively, however, this would also mean that the OCP would effectively never intervene, and before it did, it would probably be more likely that the voltage regulation components would go up in smoke.

The fact that Nvidia Ampere cards can allow themselves much higher currents for short periods of time and are effectively only limited in average power consumption is also consistent with Igor’s measurements from the launch review, with nearly 600 W at peak at 350 W TDP.

Since the OCP would most likely never intervene, the Youtuber goes on to discuss the “Channel Current Limit” feature, which he says is a special feature on this VRM. Effectively, the individual phases are limited to a maximum current, above which the phase is throttled. While phases with two power stages are limited to 160 A, there are individual phases with both an 80 A limit and a 130 A limit. Why there are different limits for identically built phases, he cannot explain, says buildzoid. 

The consequence of throttling the current would inevitably be a brief drop in the voltage supply to the GPU, which would lead to instability or even triggering of the “Under Voltage Protection”. The latter is a further protective mechanism that switches off the VRM if the output voltage is too low. The result of this would be that the GPU itself would shut down, while the rest of the components like the fan controller would go into hysteresis. The consequence of this would be a black screen and 100% fan speed, which would match the various reports of New World victims. Only a complete reboot of the system could reset the triggered protection function.

That Ampere GPU would become unstable due to too low voltage or too high clock speed was already suspected shortly after the launch. The associated “POSCAP drama” has been sufficiently illuminated and what was the real cause, a faulty boost algorithm, insufficient chip quality, too sparse capacitor layouts, borderline VRM configuration, or a combination of all of the above, the minds are still arguing today. However, it is clear that Nvidia’s fix with a subsequent driver update also noticeably throttled the short-term load peaks of Ampere GPUs.

Even if the definite cause still can’t be determined exactly, Nvidia’s decisions in the implementation of the GPU power supply are questionable or not comprehensible in some places. Also why the spontaneous demise in New World would mainly affect models of the manufacturer Gigabyte, he could not explain more precisely without further ado. However, a possible explanation would be a different implementation of the Nvidia reference design from manufacturer to manufacturer.

Since the RTX 3090 GPU he repaired was only on loan and it was to be returned to the owner in working order, buildzoid could not run further tests without risking renewed damage. Ideally, though, he would use a victim video card and an oscilloscope to measure the current draw while New World would run on the hardware. But since this would lead to a potential demise of the card, and since they are already anything but cheap to buy, he currently lacks the means for further investigations. 

Update 26.10.2021, 12:40 Uhr:

In a new additional video buildzoid shows off the power consumption behavior in the applications Furmark and Unigine Superposition. In the former, a well known very power hungry stress test, the RTX 3090 manages to reach the 350 W TDP, despite automatically throttling back to about 1200 MHz and 0.72 V GPU Voltage. In Unigine Superposition with “8K” resolution the monitoring GPU-Z even shows short peaks of up to 412 W, even still when the stock power limit of 350 W remains unchanged. 

This would point to Ampere GPUs being naturally very power hungry and even more so when games manage to utilize a big part of the GPUs CUDA cores. Similar to the Superposition Benchmark at high resolutions, the behavior in New World could simply mean very good optimizations by the game developers leading to very high utilization of the GPU. Consequently future games with ever increasing demands and even more efficient use of the hardware resources could lead to similar consequences as New World. So this would mean Amazon’s new MMO was just a harbinger for what Nvidia Ampere GPU owners could soon face. 

 

Lade neue Kommentare

Case39

Urgestein

2,025 Kommentare 618 Likes

Ampere macht von Anfang an den Eindruck, überhastet auf den Markt gebracht worden zu sein.

Antwort 4 Likes

2
2Chevaux

Mitglied

99 Kommentare 78 Likes

Huhu Xaver :)

Na, da hab' ich ja was angerichtet :) mit meinem Hinweis zum indirekten Zitat letzthin – ich wollte dich damit nicht verunsichern, Du hast eine angenhem flüssig lesbare Schreibe schon bisher.

Erstmal Danke, daß Du das so konsequent umgesetzt hast. Als Hinweis dazu, weil ich mit meinen Hinweis auf den Konjunktiv bei der indirekten Rede mich etwas in der Schuld für die wahrscheinlich daraus resultierende, leichte Holprigkeit im Artikel sehe:

Du kannst leicht "leseunterbrechend" wirkende "würde" und "wäre" ganz oft "wegvereinfachen" (muss nicht zwanghaft sein, aber am Konjunktiv II anzeigenden "würde" und "wäre" neigen Texte zu stocken, sie sind oft etwas fehl am Platze), so wie Du es in den ersten Absätzen wahrscheinlich auch intuitiv schon getan hast, also etwa

"Effektiv bedeute das [/dieses] aber auch [...]"
statt
"Effektiv würde dies aber auch bedeuten [...]"

oder

"Die Folge dessen sei [...]"
statt
"Die Folge dessen wäre [...]"

Auch ist in anderen Situationen meist der Konjunktiv I bei der indirekten Rede erste Wahl, also (beispielhaft) "gebe" statt "gäbe" oder "geben würde", was Du auch wieder zu Beginn intuitiv besser gemacht, im Verlauf deines Artikels dann aber hast schleifen lassen.

Vielen Dank für den Artikel davon ab aber natürlich auch inhaltlich, ich freue mich schon darauf, später am Tag Buildzoids Video zu schauen.

Viele Grüße
Thomas

Antwort 1 Like

Klicke zum Ausklappem
RedF

Urgestein

2,705 Kommentare 1,194 Likes

Klingt für mich als wollte Nvidia dahinter einen höheren verbrauch verstecken ( überrascht von AMDs Karten bzw deren leistung ).
Haben aber nicht mit dummen zufällen bei New World gerechnet.

Aber bin da nur Laie.

Antwort Gefällt mir

grimm

Urgestein

1,997 Kommentare 1,139 Likes

Danke für den Artikel. Die Hersteller sollten dem Herren von sich aus Test-Karten zur Verfügung stellen. Oder man setzt sich mal mit einem der Hardware-Versender hin und holt sich einen Rückläufer. Wird wohl niemand ein Interesse dran haben... Die Amperes überspringe ich.

Antwort Gefällt mir

P
Phelan

Mitglied

99 Kommentare 72 Likes

IMO eher das sie die Karten bis zur maximalen Grenze ausgereizt haben ... Also Werks OC bereits im Referenzdesinge.

Bei den Amper Karten kann man einfach mal 50W runter gehen und hat nur 1-3% FPS Verlust, sie laufen also weit oberhalb des Sweetspots.

Die Herstellen wollten nun aber selber noch OCn da sie die Karten von Anfang an nicht zum UVP anbieten konnten, da dieser Preis für sie niemals zu machen war. Im Glaube da wird schon wie immer Reserve trinne sein, haben sie also noch ein bischen rausgekitzelt.

Im Gegensatz zu früher war aber keine Reserve mehr trinne.

Den Trend hat man aktuell allgemein. Auch die CPUs kommen defakto Werks OC't und werden mit teils abartigen Vcore und TPDs hochgeprügelt um irgendwo noch 1% mehr rauszuquetschen.

Antwort 2 Likes

Klicke zum Ausklappem
LurkingInShadows

Urgestein

501 Kommentare 153 Likes

Hose runter, Schw....vergleich halt

Da kommt mir, warum auch immer, wieder die Szene in Tomorrow Never Dies in den Sinn, wo ein Admiral zu M sagt sie habe nicht das was es für solche Handlungen braucht, und sie antwortet mit Wenigstens muss ich nicht mit dem was mir fehlt denken.

Antwort Gefällt mir

Case39

Urgestein

2,025 Kommentare 618 Likes

@Phelan Ja, das beinhaltet der Eindruck ebenfalls.

Antwort Gefällt mir

skullbringer

Veteran

245 Kommentare 227 Likes

Der Czechische Kollege hat eben nochmal nachgelegt. Im Video von heute zeigt er, dass sich eine RTX 3090 mit default 350 W TDP je nach Anwendung bereits 412 W genehmigen könne! 👀

Antwort 2 Likes

wuchzael

Moderator

663 Kommentare 337 Likes

Buildzoids Videos schau ich mir ziemlich regelmäßig an. Der Junge hat was drauf und macht, worauf er Bock hat, ohne irgendwas großartig zu bewerben (y). Wie es mir zum Launch schon erschien, scheint bei den Ampere Karten der Performancezuwachs rein über die erhöhte Leistungsaufnahme erkauft worden zu sein und wie es aussieht, haben die AICs das wohl etwas unterschätzt. Genau dasselbe Bild wie damals, als die AMD/ATI Karten so viel Strom gebraucht haben und häufiger mal ausgefallen sind. AIBs wie Sapphire haben daraus gelernt und später stabilere Stromversorgungen auf ihre Karten gepackt. Ich fänd es aber besser, wenn die Chip-Entwickler sich darauf besinnen würden, auch mal an der Effizienz zu arbeiten, statt als weiter die Anzahl der Kerne und die Frequenz zu erhöhen. Vielleicht gäbe es dann auch mal wieder attraktivere MSRPs und weniger abgerauchte Spannungswandler.

Grüße!

Antwort 1 Like

Klicke zum Ausklappem
LurkingInShadows

Urgestein

501 Kommentare 153 Likes

oder mehr Chips pro Wafer und somit insgesamt mehr Karten....

Antwort Gefällt mir

P
Phoenixxl

Mitglied

91 Kommentare 59 Likes

Erschreckend wie wenig gute Elektrotechnik man für so einen Preis bekommt.
Igor kann den Eingangsfilter bei den 6000er Karten ja gar nicht genug loben.
Dagegen scheint man hier einfach nur ein Chaos von Schutzschaltungen, Mess(Versuchen) und so weiter zu haben.
Da drängt sich der Verdacht auf, dass man am alten Layout für die RTX 2000ee möglichst wenig ändern wollte und nur Flickwerk betrieben hat.
Und dann Preise weit jenseits der 2000€. Richtig, richtig bitter.

Antwort Gefällt mir

big-maec

Veteran

216 Kommentare 109 Likes

Man darf ja sowas nicht schreiben, aber mir war das von Anfang an ein bisschen zu unsicher mit den Ampere Karten, deshalb habe ich die RTX 3090 wieder abgegeben. Habe in diesem Jahr aus mehreren Gründen mal auf AMD gesetzt, sonst Intel und Nvidia. Scheint ja bis jetzt die bessere Wahl gewesen zu sein. Werde es auch weiter verfolgen, schon allein deswegen, weil ich nach dem Launch schon woanders meine Bedenken zu dieser Generation geäußert hatte.

Antwort Gefällt mir

B
Besterino

Urgestein

5,919 Kommentare 2,681 Likes

Ich positioniere mich mal gegen den Trend: ich will mehr Leistung bei GPUs. Wenn ich dafür mehr Strom verbrauchen muss, bitte sehr. Besser wäre anders, aber wenn’s nur so geht, dann sperre ich mich nicht.

Nur stabil soll es bitte sein und die Leistung eben nur abgerufen werden, wenn es sein „muss“. Was sein muss, gibt meines Erachtens der Monitor vor: ich plädiere dafür, die Sync-Technologien noch mehr in den Vordergrund zu rücken und dann kann man die GPU auch in 99% der Fälle auf das Maximum der Monitorfrequenz begrenzen. Dann fährt die GPU ansonsten ganz entspannt weit unter ihren Möglichkeiten und säuft halt nur, wenn erforderlich. Wer dann noch mehr FPS jenseits der Hz-Grenze will, kann das ja freigeben und denjenigen ist der Verbrauch vermutlich „noch egaler“ als mir.

Nicht falsch verstehen: Ich bin aus Umweltbewusstsein (und bissi Gesundheit/Bewegung) von Auto auf Fahrrad für den täglichen Weg ins Büro umgestiegen - bei Wind und Wetter. Heizung wird gespart, Strom ansonsten auch wo geht und beim Einkauf der Fressalien wird auch auf Region und Nachhaltig geachtet.

Aber. Bei. Meinem. PC. Ist. Schluss.

Ein Laster gönne ich mir (noch). :p

Back to topic: stutzig macht mich, dass angeblich das Sterben jetzt bei Gigabyte so häufig sein soll? Was ist denn aus dem ehemaligen schwarzen Schaf EVGA geworden?

Für mich sind das immer noch alles Einzelfälle, die Äußerungen dazu von egal welcher Seite allenfalls Mutmaßungen. Schade, aber was da genau bei der GPU und Stromversorgung passiert und warum, sind und bleiben offenbar gut gehütete Geheimnisse.

Antwort 1 Like

Klicke zum Ausklappem
Wie jetzt?

Mitglied

39 Kommentare 33 Likes

Ampere scheint in der Tat mit der sprichwörtlichen heißen Nadel gestrickt worden zu sein - die Hinweise mehren sich. Gut möglich das man von der der AMD RX6000er Reihe bei der Rasterleistung kalt erwischt wurde und dann auf Kante nähen musste. Da geht mir dann aber der eigentlich begrüßenswerte Wettbewerb eindeutig in die falsche Richtung. Zu Lasten des Kunden ist nicht so dolle.

Antwort 1 Like

Genie_???

Veteran

217 Kommentare 64 Likes

Da gibt es halt das Problem, das (zu) oft nach Benchmarkbalken gekauft wird.
Der zweite ist halt der erste Verlierer.
Dem Anschein nach war hier die Maxime: Wo wir sind ist vorne und wir bleiben vorne. Koste es was es wolle?
Als Anfangs die Runde machte, dass die mit 50W weniger nur geringe Prozentwerte an FPS verlieren, habe ich schon kein gutes Gefühl gehabt.
Ich finde es jedenfalls gut, das AMD das Spiel nicht so weit mitgegangen ist.
Mit den MCM´s nächstes? Jahr dürften die 400W zumindest in der Spitze aber wohl fallen.

Antwort 1 Like

Danke für die Spende



Du fandest, der Beitrag war interessant und möchtest uns unterstützen? Klasse!

Hier erfährst Du, wie: Hier spenden.

Hier kannst Du per PayPal spenden.

About the author

Xaver Amberger (skullbringer)

Advertising

Advertising