GPUs • Graphics • Latest news • Practice

EVGA GeForce RTX 3080, RTX 3090 and (not only) New World – when design flaws cause graphics cards to run amok | Tests

25. July 2021 09:30

Disclaimer: The following article is machine translated from the original German, and has not been edited or checked for errors. Thank you for understanding!

Overload at high FPS numbers on all cards

Now let’s move on to what many colleagues have unfortunately lumped together with the fan problem, even though it’s pure nonsense. Because the behavior of current graphics cards at exorbitantly high FPS numbers (e.g. in menus) and an emergency shutdown of the card (power good) or the triggering of the OCP in the PSU is anything but new. Again, of course, the values are more extreme in “New World” than usual, so it’s also more noticeable. It’s not new, though, and it’s certainly not game-dependent. Amazon’s “New World” is a closed beta and as such, of course, should be taken with a grain of salt when it comes to stability and potential bugs. Distributing a game without a limiter is negligent and downright stupid, but you always have to expect something like that in a beta as a tester. So from that point of view, you also have to distribute the pity and blame a little differently.

Which brings us to the topic at hand. I won’t repeat myself now, nor will I go through the functional scheme of Power Tune or Boost again. That would be boring and maybe even a bit confusing for non-technical people. Nevertheless, we need to talk about monitoring again. AMD and NVIDIA take a completely different approach here, albeit with similar results. Simplified: While AMD monitors the power consumption of the GPU and memory controller directly at the power gates, NVIDIA controls all external 12-volt supply lines in their entirety. With all the advantages and disadvantages.

Until Pascal, the very slow INA3221 from Ti was almost always used for this purpose, which allowed monitoring in coarser ms intervals. But with ever faster load changes due to the ever faster cards, one was already faced with big problems with Pascal as to whether the OCP (or OPP) could still trigger in time. So these chips already reached their limits more and more often and there were already some problems with too fast load changes or too high FPS numbers.

That’s why NVIDIA has reacted very quickly and since Turing has been using monitoring chips with a (theoretically) higher resolution by a factor of 1000. In the picture below we see UPI’s specially designed uS5650, which enables much shorter monitoring intervals, similar to On Semi’s NCP45491. However, only NVIDIA knows how short these really are in reality, because even in the specs and the base design kit for the board partners, such details are unfortunately not listed. So this is really secret, unfortunately.

Now, of course, one can monitor oneself to death and a too fast evaluation and calculation of the respective actual states also costs quite a lot of resources. So one can only assume that from about 1000 to 2000 FPS (i.e. already below 1 ms) inaccuracies could occur at identical render load, which finally do not include certain spikes anymore or one assumes a too low total load in the end. Shunt measurements in such short intervals are also subject to various errors, especially since the flowing currents are recorded on the primary side, i.e. before the voltage transformers, and the series coils and various capacitors are also located there. And it probably also explains why the measured power consumption can sometimes exceed the upper values for the power limit stored in the firmware (not only as a short peak).

Without going into more detail about the respective circuits, where I am also bound to various NDAs, one can definitely conclude that it must be a concern of the chip manufacturers to cut exactly that on the software side on the driver side, which does not always seem to be under control on the hardware side in such exceptional situations. This ranges from the power estimation engine in interaction with the all controlling arbitrator (firmware of the graphics cards) to the render pipeline and the respective interfaces of the drivers, because both NVIDIA and AMD already have functionally completely sufficient frame limiters.

These limiters could be set by default at 500 or 1000 FPS without affecting the latencies. If a user then picks this up at their own risk, it is solely (and subsequently in the event of shutdowns or damage) their own fault. Again, NVIDIA and AMD are equally affected, as the topic is too complex for a Sunday article. Here I will surely measure again more exactly.

Anyone who tampers with shunts and thus renders protective circuits obsolete also deserves no sympathy whatsoever. The result then looked like this for “New World”, for example. It’s your own fault.

Source: User GremaxLP – ElmorLabs Discord

Summary and conclusion

It is certainly understandable for the reader that all parties involved did not push the whole thing further due to the expensive hardware and the current shortage. Especially since such a fragile limit sampling is also primarily the task of a manufacturer’s R&D department, in this case EVGA, and the customer must not mutate into a tester. It is commendable if the manufacturer offers an exchange of the defective cards. But due to the current facts, he would probably have no other choice anyway, which means that the noble gesture would then turn into a normal recall.

I can only advise any owner of one of the affected models to contact EVGA prophylactically when the fan problem occurs and not wait until it comes to a final damage. After several conversations with technicians of other board partners, one can also come to the conclusion that this problem should be solvable with a firmware update. One can only hope that EVGA will position itself more clearly here and not blame everything on Amazon again. Because that is exactly what is wrong, even if the PR has gratefully picked it up.

And to the rest, I like to give the advice not to become all problems tigether in a pot and to question certain rush information more critically. If you then use a frame limiter analogous to your monitor capabilities, you not only save energy and avoid the nasty coil whining, but you also avoid such emergency shutdowns caused by sluggish games or too high FPS numbers caused by too low graphics challenges in older and/or extremely simple games.

Pages:

84 Antworten

Zeige alle Kommentare an

Kommentar

Lade neue Kommentare

OR4LIFE

Neuling

1 Kommentare 1 Likes

#1 Jul 25, 2021

Ich kann mir vorstellen das seitens EVGA die nächsten Tage ein Bios Update für die 3090 kommen wird. Da sind sie immer recht fix.
Bei meiner 3090 ftw3 werden bei GPU-Z und EVGA PresicsionX unterschiedliche Werte bei der Lüftersteuerung angezeigt, obwohl dort keine Lüfter mehr angesteckt sind. Zeigt doch schon das dort der Wurm drin ist.

View image at the forums

Antwort 1 Like

Corro Dedd

Urgestein

1,809 Kommentare 668 Likes

#2 Jul 25, 2021

Hatte es gestern nicht schreiben wollen, weil ich von dem Thema zu wenig Ahnung habe, aber so etwas ähnliches hatte ich mir schon gedacht: Durch die hohen FPS kommt die Strommessung nicht mehr hinterher und der Chip fungiert als Kurzschluss, quasi open gates, und zieht statt 350W auf einmal 600W oder mehr.

Aber das erklärt noch nicht, warum überwiegend EVGA Karten betroffen sind. Wenn es doch eine von Nvidia vorgegebene Maßnahme ist, genau diesen Chip einzusetzen um den Stromfluss kurz hinter der Buchse zu messen, dann haben den doch auch Asus, MSI, Palit und Co. ebenfalls drauf. Von diesen hört man aber wenig bis nichts.

Antwort 2 Likes

Martin Gut

Urgestein

7,759 Kommentare 3,562 Likes

#3 Jul 25, 2021

FAN 1 Speed (RPM) zeigt den Drehzahlmesswert. Der scheint bei den GPU-z-Screens von Igor offensichtlich falsch zu sein, denn so schnell kann ein Lüfter ja nicht drehen. Das sagt aber erst mal nur, dass die Messung oder Auslesung der Drehzahl des Lüfters nicht richtig funktioniert.

Über die Regelung des Lüfters und was dort warum schief läuft sagt der Messwert nichts aus. Die Messung hat nichts mit der Regelung zu tun. Man sieht weder warum die Regelung nicht richtig funktioniert noch was sie genau macht. Interessant wäre, ob die Regelung aufgrund von Temperatursensormessungen oder Stromsensoren irgend welche Sicherheitsfunktionen aktiviert. Das könnte ein Grund für das zeitweise Hochdrehen der Lüfter sein. Ein Grund für eine Beschädigung der Karte ist aber auch das nicht.

Warum es aber an verschiedenen Stellen zu einer Überlastung von Bauteilen kommt, ist für mich noch nicht geklärt.

Antwort Gefällt mir

Deridex

Urgestein

2,212 Kommentare 846 Likes

#4 Jul 25, 2021

Und ich wurde erst vor einer Weile gefragt, warum ich ein Problem mit den Shunt-Mods habe...

Antwort 3 Likes

Igor Wallossek

10,178 Kommentare 18,761 Likes

#5 Jul 25, 2021

Es steht die Frage im Raum, inwieweit der fehlerhafte Lüfter-Controller durch das verquere Schaltungsdesign wirklich Amok läuft. Es dürfte wohl sogar richtig ausgelesen werden. Nur die API-Rückgabe ist dann gestört, weil der Chip absoluten Käse produziert und wegdriftet. Die andere Kurve wird nämlich separat erzeugt und die stimmt. Allerdings ist hier die CPU nicht mit im Spiel.

Antwort Gefällt mir

LurkingInShadows

Urgestein

1,348 Kommentare 550 Likes

#6 Jul 25, 2021

230.000 RPM wären auch mehr als sehr sportlich.... Turbos in der F1 machen 125.000, und die sind aktiv Ölgekühlt^^

Antwort Gefällt mir

Zanza

Mitglied

41 Kommentare 7 Likes

#7 Jul 25, 2021

Frame-Limiter kann ich ja über Nvidia Systemsteuerung einstellen. Der wird bei mir immer nach einem Neustart wieder deaktiviert.

Antwort Gefällt mir

Alkbert

Urgestein

930 Kommentare 705 Likes

#8 Jul 25, 2021

"[...] Allerdings muss man auch hier auch ergänzen, dass eine der gebrickten GeForce RTX 3090 zusätzlich noch auf einen Shunt-Mod setzte. Dass man damit alle Schutzmechanismen der GPU aushebelt, sei mal außen vorgelassen, denn solche Mods bringen niemandem etwas, es sei denn, man will den Längsten haben und Schäden riskieren.[...]"

Und damit ist dann auch die Garantie weg, für einen nicht spürbaren und allenfalls messbaren Vorteil bei Leuten, die zuviel Geld zu haben scheinen.
Bei Anno ist mir das im DX12 Benchmark auch schon aufgefallen. Da heulen die Lüfter auch bei meiner ASUS TUF ordentlich, wobei die Temperatur sehr (!) im Rahmen bleibt.

Antwort 1 Like

Guest

#9 Jul 25, 2021

Man kann Shunt-Mod gutheißen oder auch nicht aber nicht jeder Versuch Bestleistung zu erzielen oder das absolute Maximum aus der Technik rauszukitzeln würde ich mit "den Längsten haben wollen" bezeichnen. ☝️

Aber ich krieg nur einmal im Jahr Weihnachtsgeld, deshalb nehme ich davon Abstand! Hatte schon Muffensausen beim Kühlerumbau.

Antwort 2 Likes

Besterino

Urgestein

6,709 Kommentare 3,310 Likes

#10 Jul 25, 2021

Jo... ist bei mir ähnlich. Neben der Sorge um die Hardware allgemein und der miserablen Verfügbarkeiten im Hinblick auf einen Ersatz fehlt mir auch die Zeit, um mich da dann vernünftig einzulesen. Ich muss dann halt leider wohl weiter neue Grakas kaufen, bis dann endlich mal die Performance "out of the box" reicht, um auf 4K mit 120FPS daddeln zu können. Na gut, auf Wasser umbauen tu' ich auch...

Antwort 3 Likes

Wie jetzt?

Mitglied

55 Kommentare 44 Likes

#11 Jul 25, 2021

Keine Ahnung ob das eine Macke speziell deines Systems ist oder bei Grün generell auftritt. Aber der MSI Afterburner bringt den Riva Tuner Statistic Server (kurz: RTSS) mit und der hat einen sehr komfortablen und für jede Anwendung separat setzbaren framelimiter dabei.

Antwort 1 Like

Besterino

Urgestein

6,709 Kommentare 3,310 Likes

#12 Jul 25, 2021

So, Spiel läuft. Also die Charakter-Erstellung, der Rest muss bis zum Abschluss der Wartungsarbeiten warten. :D

Laut Nvidia-Anzeige bei max. 119FPS in Video und Char-Menü.

Edit &T Korrektur: auf 4K bin ich bei 82-89FPS bei allen Settings auf Very High. Der GPU wirds aber trotz Wasser warm mit 60° und quasi konstant 98-99% Auslastung.

Antwort 1 Like

Art

Mitglied

47 Kommentare 8 Likes

#13 Jul 25, 2021

@Redaktion: 2x kleine Typos: "in einen Top zu werden" -> "in einen Topf werfen"

Antwort Gefällt mir

Alkbert

Urgestein

930 Kommentare 705 Likes

#14 Jul 25, 2021

Das ist schon richtig. Aber Shunt mod heißt unter dem Strich: Ich betreibe die Karte ausserhalb der Spezifikation und auf eigenes Risiko.
Wenn ich (abstrahiert von der Legalitätsfrage) Methanol in meinen Tank schütte, kann ich auch nicht den Hersteller bei Defekten heranziehen und sollte darüber hinaus schon aus Gründen des Anstands (auch wenn das heute in gewissen Kreisen nicht mehr modern ist) davon absehen, die entsprechende Firma mit einem "Shitstorm" deswegen zu überziehen, was man gerade wieder bei EVGA sehen kann.

Antwort Gefällt mir

Igor Wallossek

10,178 Kommentare 18,761 Likes

#15 Jul 25, 2021

Naja, also das, was bei EVGA gerade zu sehen ist, ist eine Fehlkonstruktion, die auch so zusammenklappt. Man hätte das besser kommunizieren und vor allem auch schon handeln müssen, denn ich weiß, dass sie den Grund kennen. Wo kommt wohl meine Info her... ;)

Das mit den Lüftern zieht sich schon seit einigen Monaten und hatte auch bei Turing schon diverse Probleme verursacht. Es ist nicht den Moddern anzulasten. Die Karte stirbt dann allerdings etwas eher und dann hat der Modder auch beim Sterben der Karte noch den Längsten. :D

Antwort 4 Likes

Venox

Neuling

2 Kommentare 0 Likes

#16 Jul 25, 2021

Darf man fragen welche Asus TUF du genau hast? Ich selbst habe eine 3080 TUF OC und habe bisher sowas nicht feststellen können bei Anno 1800. Habe natürlich auch nicht aktiv drauf geachtet, überwache aber sehr konstant mit Afterburner und GPU-Z. Habe aber auch schon meine Erfahrung gemacht was den fan controller angeht als ich das vbios geupdated habe. Da war Asus Tweak II für verantwortlich, oder jedenfalls seit der Installation davon waren meine Lüfter konstant bei 53% und drehten nicht mehr hoch. Nach Deinstallation war das Problem behoben.

Antwort Gefällt mir

cunhell

Urgestein

548 Kommentare 503 Likes

#17 Jul 25, 2021

Hallo Igor,
es hat sich ein kleiner Typo eingeschlichen. Oder war da der Wunsch der Vater des Gedanken ;-)
"Das wiederum vereist auf eine Notabschaltung durchs Netzteil hin,"
Es sollte vermutlich "verweist" heissen.

Ansonsten sehr schöner Artikel.

Grüße
Cunhell

Antwort Gefällt mir

k0k0k0

Veteran

136 Kommentare 63 Likes

#18 Jul 25, 2021

hier ebenfalls^^:
"Auch hier muss man EVGA und vielen Kollegen wiedersprechen."

Antwort Gefällt mir

Phoenixxl

Veteran

158 Kommentare 120 Likes

#19 Jul 25, 2021

Ich im Gespräch im Freundeskreis: Ich weiß alles über PC Hardware.
Ich, nach Lektüre eines Textes von Igor, in dem er ein bisschen genauer ins Detail geht: Ich weiß nichts über PC Hardware.

Nach diesem kleinen Spaß:
Danke, Igor, für die ausführliche Erklärung. Eigentlich hatte sich das ja genau so abgezeichnet und dass es nicht nur an New World liegen konnte, war ja eigentlich schon an der Natur des Fehlers (Hardware!) absehbar.
Jays2Cents hat sich -mal wieder- nicht mit Ruhm bekleckert. Man merkt, dass er mehr oder weniger durch Zufall ein großer Youtuber wurde. Mit echtem Know How glänzt er ja nie.
Insofern bist du ein riesen Glück für die deutschsprachige Hardware-Community!

Bisher hatte ich nie einen globalen Framelimiter drin, sondern z.B. vor dem Start von Gothic 3 das Powerlimit auf 50% gesetzt. Wenn ich mich Recht erinnere, dann ist es gar nicht soooooo selten, dass ein Intro eines altes Spiels Mal eben 8000 FPS hat. Ich bin mir aber auch gar nicht sicher, in das dann nicht pre-rendered ist.
Ich werde auf jeden Fall ein globales FPS Limit einrichten.

Peinlich an der Sache fand ich User, die geschrieben haben, dass die betroffenen ohne global Limiter selbst schuld gewesen wären.

Es ist ja nun zum Glück kein häufiges Problem , dass es erstens zu solchen Lasten kommt und zweitens die Schutzschaltungen nicht richtig auslösen.

Man vertraut ja immer auf die Selbst-Sicherung der Hardware, sobald man etwas ohne WHQL Label nutzt. Zumal das Label im Endeffekt nicht mehr wert ist als 80+X.

Ich kann's jedenfalls niemandem verübeln an einer Beta teilzunehmen, Windows 11 zu installieren usw. ohne, dass er sich Sorgen um die Hard(!)-ware macht.

Antwort 3 Likes

Klicke zum Ausklappem

Alle Kommentare lesen unter igor´sLAB Community →

Danke für die Spende

Du fandest, der Beitrag war interessant und möchtest uns unterstützen? Klasse!

Hier erfährst Du, wie: Hier spenden.

Hier kannst Du per PayPal spenden.

Intel Alder Lake S Launch – Only Enthusiast CPUs and Z690 Chipset between Oct. 25 and Nov. 19 in 2021, the rest is coming later

Crazy “New World” – Chaos in the hardware and gaming industry (once again) | Editorial

About the author

View All Posts

Igor Wallossek

Editor-in-chief and name-giver of igor'sLAB as the content successor of Tom's Hardware Germany, whose license was returned in June 2019 in order to better meet the qualitative demands of web content and challenges of new media such as YouTube with its own channel.

Computer nerd since 1983, audio freak since 1979 and pretty much open to anything with a plug or battery for over 50 years.

Follow Igor:
YouTube Facebook Instagram Twitter