GPUs Graphics Latest news Practice

EVGA GeForce RTX 3080, RTX 3090 and (not only) New World – when design flaws cause graphics cards to run amok | Tests

Disclaimer: The following article is machine translated from the original German, and has not been edited or checked for errors. Thank you for understanding!

Overload at high FPS numbers on all cards

Now let’s move on to what many colleagues have unfortunately lumped together with the fan problem, even though it’s pure nonsense. Because the behavior of current graphics cards at exorbitantly high FPS numbers (e.g. in menus) and an emergency shutdown of the card (power good) or the triggering of the OCP in the PSU is anything but new. Again, of course, the values are more extreme in “New World” than usual, so it’s also more noticeable. It’s not new, though, and it’s certainly not game-dependent. Amazon’s “New World” is a closed beta and as such, of course, should be taken with a grain of salt when it comes to stability and potential bugs. Distributing a game without a limiter is negligent and downright stupid, but you always have to expect something like that in a beta as a tester. So from that point of view, you also have to distribute the pity and blame a little differently.

Which brings us to the topic at hand. I won’t repeat myself now, nor will I go through the functional scheme of Power Tune or Boost again. That would be boring and maybe even a bit confusing for non-technical people. Nevertheless, we need to talk about monitoring again. AMD and NVIDIA take a completely different approach here, albeit with similar results. Simplified: While AMD monitors the power consumption of the GPU and memory controller directly at the power gates, NVIDIA controls all external 12-volt supply lines in their entirety. With all the advantages and disadvantages.

Until Pascal, the very slow INA3221 from Ti was almost always used for this purpose, which allowed monitoring in coarser ms intervals. But with ever faster load changes due to the ever faster cards, one was already faced with big problems with Pascal as to whether the OCP (or OPP) could still trigger in time. So these chips already reached their limits more and more often and there were already some problems with too fast load changes or too high FPS numbers.

That’s why NVIDIA has reacted very quickly and since Turing has been using monitoring chips with a (theoretically) higher resolution by a factor of 1000. In the picture below we see UPI’s specially designed uS5650, which enables much shorter monitoring intervals, similar to On Semi’s NCP45491. However, only NVIDIA knows how short these really are in reality, because even in the specs and the base design kit for the board partners, such details are unfortunately not listed. So this is really secret, unfortunately.

Now, of course, one can monitor oneself to death and a too fast evaluation and calculation of the respective actual states also costs quite a lot of resources. So one can only assume that from about 1000 to 2000 FPS (i.e. already below 1 ms) inaccuracies could occur at identical render load, which finally do not include certain spikes anymore or one assumes a too low total load in the end. Shunt measurements in such short intervals are also subject to various errors, especially since the flowing currents are recorded on the primary side, i.e. before the voltage transformers, and the series coils and various capacitors are also located there. And it probably also explains why the measured power consumption can sometimes exceed the upper values for the power limit stored in the firmware (not only as a short peak).

Without going into more detail about the respective circuits, where I am also bound to various NDAs, one can definitely conclude that it must be a concern of the chip manufacturers to cut exactly that on the software side on the driver side, which does not always seem to be under control on the hardware side in such exceptional situations. This ranges from the power estimation engine in interaction with the all controlling arbitrator (firmware of the graphics cards) to the render pipeline and the respective interfaces of the drivers, because both NVIDIA and AMD already have functionally completely sufficient frame limiters.

These limiters could be set by default at 500 or 1000 FPS without affecting the latencies. If a user then picks this up at their own risk, it is solely (and subsequently in the event of shutdowns or damage) their own fault. Again, NVIDIA and AMD are equally affected, as the topic is too complex for a Sunday article. Here I will surely measure again more exactly.

Anyone who tampers with shunts and thus renders protective circuits obsolete also deserves no sympathy whatsoever. The result then looked like this for “New World”, for example. It’s your own fault.

Source: User GremaxLP – ElmorLabs Discord

Summary and conclusion

It is certainly understandable for the reader that all parties involved did not push the whole thing further due to the expensive hardware and the current shortage. Especially since such a fragile limit sampling is also primarily the task of a manufacturer’s R&D department, in this case EVGA, and the customer must not mutate into a tester. It is commendable if the manufacturer offers an exchange of the defective cards. But due to the current facts, he would probably have no other choice anyway, which means that the noble gesture would then turn into a normal recall.

I can only advise any owner of one of the affected models to contact EVGA prophylactically when the fan problem occurs and not wait until it comes to a final damage. After several conversations with technicians of other board partners, one can also come to the conclusion that this problem should be solvable with a firmware update. One can only hope that EVGA will position itself more clearly here and not blame everything on Amazon again. Because that is exactly what is wrong, even if the PR has gratefully picked it up.

And to the rest, I like to give the advice not to become all problems tigether in a pot and to question certain rush information more critically. If you then use a frame limiter analogous to your monitor capabilities, you not only save energy and avoid the nasty coil whining, but you also avoid such emergency shutdowns caused by sluggish games or too high FPS numbers caused by too low graphics challenges in older and/or extremely simple games.

 

Lade neue Kommentare

OR4LIFE

Neuling

1 Kommentare 1 Likes

Ich kann mir vorstellen das seitens EVGA die nächsten Tage ein Bios Update für die 3090 kommen wird. Da sind sie immer recht fix.
Bei meiner 3090 ftw3 werden bei GPU-Z und EVGA PresicsionX unterschiedliche Werte bei der Lüftersteuerung angezeigt, obwohl dort keine Lüfter mehr angesteckt sind. Zeigt doch schon das dort der Wurm drin ist.

View image at the forums

Antwort 1 Like

Corro Dedd

Urgestein

1,623 Kommentare 532 Likes

Hatte es gestern nicht schreiben wollen, weil ich von dem Thema zu wenig Ahnung habe, aber so etwas ähnliches hatte ich mir schon gedacht: Durch die hohen FPS kommt die Strommessung nicht mehr hinterher und der Chip fungiert als Kurzschluss, quasi open gates, und zieht statt 350W auf einmal 600W oder mehr.

Aber das erklärt noch nicht, warum überwiegend EVGA Karten betroffen sind. Wenn es doch eine von Nvidia vorgegebene Maßnahme ist, genau diesen Chip einzusetzen um den Stromfluss kurz hinter der Buchse zu messen, dann haben den doch auch Asus, MSI, Palit und Co. ebenfalls drauf. Von diesen hört man aber wenig bis nichts.

Antwort 2 Likes

M
Martin Gut

Urgestein

5,326 Kommentare 2,053 Likes

FAN 1 Speed (RPM) zeigt den Drehzahlmesswert. Der scheint bei den GPU-z-Screens von Igor offensichtlich falsch zu sein, denn so schnell kann ein Lüfter ja nicht drehen. Das sagt aber erst mal nur, dass die Messung oder Auslesung der Drehzahl des Lüfters nicht richtig funktioniert.

Über die Regelung des Lüfters und was dort warum schief läuft sagt der Messwert nichts aus. Die Messung hat nichts mit der Regelung zu tun. Man sieht weder warum die Regelung nicht richtig funktioniert noch was sie genau macht. Interessant wäre, ob die Regelung aufgrund von Temperatursensormessungen oder Stromsensoren irgend welche Sicherheitsfunktionen aktiviert. Das könnte ein Grund für das zeitweise Hochdrehen der Lüfter sein. Ein Grund für eine Beschädigung der Karte ist aber auch das nicht.

Warum es aber an verschiedenen Stellen zu einer Überlastung von Bauteilen kommt, ist für mich noch nicht geklärt.

Antwort Gefällt mir

Klicke zum Ausklappem
D
Deridex

Urgestein

1,806 Kommentare 583 Likes

Und ich wurde erst vor einer Weile gefragt, warum ich ein Problem mit den Shunt-Mods habe...

Antwort 3 Likes

Igor Wallossek

Format©

6,674 Kommentare 10,873 Likes

Es steht die Frage im Raum, inwieweit der fehlerhafte Lüfter-Controller durch das verquere Schaltungsdesign wirklich Amok läuft. Es dürfte wohl sogar richtig ausgelesen werden. Nur die API-Rückgabe ist dann gestört, weil der Chip absoluten Käse produziert und wegdriftet. Die andere Kurve wird nämlich separat erzeugt und die stimmt. Allerdings ist hier die CPU nicht mit im Spiel.

Antwort Gefällt mir

LurkingInShadows

Veteran

496 Kommentare 151 Likes

230.000 RPM wären auch mehr als sehr sportlich.... Turbos in der F1 machen 125.000, und die sind aktiv Ölgekühlt^^

Antwort Gefällt mir

Zanza

Mitglied

13 Kommentare 0 Likes

Frame-Limiter kann ich ja über Nvidia Systemsteuerung einstellen. Der wird bei mir immer nach einem Neustart wieder deaktiviert.

Antwort Gefällt mir

Alkbert

Urgestein

627 Kommentare 358 Likes

"[...] Allerdings muss man auch hier auch ergänzen, dass eine der gebrickten GeForce RTX 3090 zusätzlich noch auf einen Shunt-Mod setzte. Dass man damit alle Schutzmechanismen der GPU aushebelt, sei mal außen vorgelassen, denn solche Mods bringen niemandem etwas, es sei denn, man will den Längsten haben und Schäden riskieren.[...]"

Und damit ist dann auch die Garantie weg, für einen nicht spürbaren und allenfalls messbaren Vorteil bei Leuten, die zuviel Geld zu haben scheinen.
Bei Anno ist mir das im DX12 Benchmark auch schon aufgefallen. Da heulen die Lüfter auch bei meiner ASUS TUF ordentlich, wobei die Temperatur sehr (!) im Rahmen bleibt.

Antwort 1 Like

G
Guest

Man kann Shunt-Mod gutheißen oder auch nicht aber nicht jeder Versuch Bestleistung zu erzielen oder das absolute Maximum aus der Technik rauszukitzeln würde ich mit "den Längsten haben wollen" bezeichnen. ☝️

Aber ich krieg nur einmal im Jahr Weihnachtsgeld, deshalb nehme ich davon Abstand! Hatte schon Muffensausen beim Kühlerumbau.

Antwort 2 Likes

B
Besterino

Urgestein

5,782 Kommentare 2,609 Likes

Jo... ist bei mir ähnlich. Neben der Sorge um die Hardware allgemein und der miserablen Verfügbarkeiten im Hinblick auf einen Ersatz fehlt mir auch die Zeit, um mich da dann vernünftig einzulesen. Ich muss dann halt leider wohl weiter neue Grakas kaufen, bis dann endlich mal die Performance "out of the box" reicht, um auf 4K mit 120FPS daddeln zu können. Na gut, auf Wasser umbauen tu' ich auch...

Antwort 3 Likes

Wie jetzt?

Mitglied

37 Kommentare 31 Likes

Keine Ahnung ob das eine Macke speziell deines Systems ist oder bei Grün generell auftritt. Aber der MSI Afterburner bringt den Riva Tuner Statistic Server (kurz: RTSS) mit und der hat einen sehr komfortablen und für jede Anwendung separat setzbaren framelimiter dabei.

Antwort 1 Like

B
Besterino

Urgestein

5,782 Kommentare 2,609 Likes

So, Spiel läuft. Also die Charakter-Erstellung, der Rest muss bis zum Abschluss der Wartungsarbeiten warten. :D

Laut Nvidia-Anzeige bei max. 119FPS in Video und Char-Menü.

Edit &T Korrektur: auf 4K bin ich bei 82-89FPS bei allen Settings auf Very High. Der GPU wirds aber trotz Wasser warm mit 60° und quasi konstant 98-99% Auslastung.

Antwort 1 Like

A
Art

Mitglied

38 Kommentare 7 Likes

@Redaktion: 2x kleine Typos: "in einen Top zu werden" -> "in einen Topf werfen"

Antwort Gefällt mir

Alkbert

Urgestein

627 Kommentare 358 Likes

Das ist schon richtig. Aber Shunt mod heißt unter dem Strich: Ich betreibe die Karte ausserhalb der Spezifikation und auf eigenes Risiko.
Wenn ich (abstrahiert von der Legalitätsfrage) Methanol in meinen Tank schütte, kann ich auch nicht den Hersteller bei Defekten heranziehen und sollte darüber hinaus schon aus Gründen des Anstands (auch wenn das heute in gewissen Kreisen nicht mehr modern ist) davon absehen, die entsprechende Firma mit einem "Shitstorm" deswegen zu überziehen, was man gerade wieder bei EVGA sehen kann.

Antwort Gefällt mir

Igor Wallossek

Format©

6,674 Kommentare 10,873 Likes

Naja, also das, was bei EVGA gerade zu sehen ist, ist eine Fehlkonstruktion, die auch so zusammenklappt. Man hätte das besser kommunizieren und vor allem auch schon handeln müssen, denn ich weiß, dass sie den Grund kennen. Wo kommt wohl meine Info her... ;)

Das mit den Lüftern zieht sich schon seit einigen Monaten und hatte auch bei Turing schon diverse Probleme verursacht. Es ist nicht den Moddern anzulasten. Die Karte stirbt dann allerdings etwas eher und dann hat der Modder auch beim Sterben der Karte noch den Längsten. :D

Antwort 4 Likes

Danke für die Spende



Du fandest, der Beitrag war interessant und möchtest uns unterstützen? Klasse!

Hier erfährst Du, wie: Hier spenden.

Hier kannst Du per PayPal spenden.

About the author

Igor Wallossek

Editor-in-chief and name-giver of igor'sLAB as the content successor of Tom's Hardware Germany, whose license was returned in June 2019 in order to better meet the qualitative demands of web content and challenges of new media such as YouTube with its own channel.

Computer nerd since 1983, audio freak since 1979 and pretty much open to anything with a plug or battery for over 50 years.

Follow Igor:
YouTube Facebook Instagram Twitter

Advertising

Advertising