GPUs Graphics Latest news Practice

EVGA GeForce RTX 3080, RTX 3090 and (not only) New World – when design flaws cause graphics cards to run amok | Tests

Disclaimer: The following article is machine translated from the original German, and has not been edited or checked for errors. Thank you for understanding!

Overload at high FPS numbers on all cards

Now let’s move on to what many colleagues have unfortunately lumped together with the fan problem, even though it’s pure nonsense. Because the behavior of current graphics cards at exorbitantly high FPS numbers (e.g. in menus) and an emergency shutdown of the card (power good) or the triggering of the OCP in the PSU is anything but new. Again, of course, the values are more extreme in “New World” than usual, so it’s also more noticeable. It’s not new, though, and it’s certainly not game-dependent. Amazon’s “New World” is a closed beta and as such, of course, should be taken with a grain of salt when it comes to stability and potential bugs. Distributing a game without a limiter is negligent and downright stupid, but you always have to expect something like that in a beta as a tester. So from that point of view, you also have to distribute the pity and blame a little differently.

Which brings us to the topic at hand. I won’t repeat myself now, nor will I go through the functional scheme of Power Tune or Boost again. That would be boring and maybe even a bit confusing for non-technical people. Nevertheless, we need to talk about monitoring again. AMD and NVIDIA take a completely different approach here, albeit with similar results. Simplified: While AMD monitors the power consumption of the GPU and memory controller directly at the power gates, NVIDIA controls all external 12-volt supply lines in their entirety. With all the advantages and disadvantages.

Until Pascal, the very slow INA3221 from Ti was almost always used for this purpose, which allowed monitoring in coarser ms intervals. But with ever faster load changes due to the ever faster cards, one was already faced with big problems with Pascal as to whether the OCP (or OPP) could still trigger in time. So these chips already reached their limits more and more often and there were already some problems with too fast load changes or too high FPS numbers.

That’s why NVIDIA has reacted very quickly and since Turing has been using monitoring chips with a (theoretically) higher resolution by a factor of 1000. In the picture below we see UPI’s specially designed uS5650, which enables much shorter monitoring intervals, similar to On Semi’s NCP45491. However, only NVIDIA knows how short these really are in reality, because even in the specs and the base design kit for the board partners, such details are unfortunately not listed. So this is really secret, unfortunately.

Now, of course, one can monitor oneself to death and a too fast evaluation and calculation of the respective actual states also costs quite a lot of resources. So one can only assume that from about 1000 to 2000 FPS (i.e. already below 1 ms) inaccuracies could occur at identical render load, which finally do not include certain spikes anymore or one assumes a too low total load in the end. Shunt measurements in such short intervals are also subject to various errors, especially since the flowing currents are recorded on the primary side, i.e. before the voltage transformers, and the series coils and various capacitors are also located there. And it probably also explains why the measured power consumption can sometimes exceed the upper values for the power limit stored in the firmware (not only as a short peak).

Without going into more detail about the respective circuits, where I am also bound to various NDAs, one can definitely conclude that it must be a concern of the chip manufacturers to cut exactly that on the software side on the driver side, which does not always seem to be under control on the hardware side in such exceptional situations. This ranges from the power estimation engine in interaction with the all controlling arbitrator (firmware of the graphics cards) to the render pipeline and the respective interfaces of the drivers, because both NVIDIA and AMD already have functionally completely sufficient frame limiters.

These limiters could be set by default at 500 or 1000 FPS without affecting the latencies. If a user then picks this up at their own risk, it is solely (and subsequently in the event of shutdowns or damage) their own fault. Again, NVIDIA and AMD are equally affected, as the topic is too complex for a Sunday article. Here I will surely measure again more exactly.

Anyone who tampers with shunts and thus renders protective circuits obsolete also deserves no sympathy whatsoever. The result then looked like this for “New World”, for example. It’s your own fault.

Source: User GremaxLP – ElmorLabs Discord

Summary and conclusion

It is certainly understandable for the reader that all parties involved did not push the whole thing further due to the expensive hardware and the current shortage. Especially since such a fragile limit sampling is also primarily the task of a manufacturer’s R&D department, in this case EVGA, and the customer must not mutate into a tester. It is commendable if the manufacturer offers an exchange of the defective cards. But due to the current facts, he would probably have no other choice anyway, which means that the noble gesture would then turn into a normal recall.

I can only advise any owner of one of the affected models to contact EVGA prophylactically when the fan problem occurs and not wait until it comes to a final damage. After several conversations with technicians of other board partners, one can also come to the conclusion that this problem should be solvable with a firmware update. One can only hope that EVGA will position itself more clearly here and not blame everything on Amazon again. Because that is exactly what is wrong, even if the PR has gratefully picked it up.

And to the rest, I like to give the advice not to become all problems tigether in a pot and to question certain rush information more critically. If you then use a frame limiter analogous to your monitor capabilities, you not only save energy and avoid the nasty coil whining, but you also avoid such emergency shutdowns caused by sluggish games or too high FPS numbers caused by too low graphics challenges in older and/or extremely simple games.

 

Lade neue Kommentare

OR4LIFE

Neuling

1 Kommentare 1 Likes

Ich kann mir vorstellen das seitens EVGA die nächsten Tage ein Bios Update für die 3090 kommen wird. Da sind sie immer recht fix.
Bei meiner 3090 ftw3 werden bei GPU-Z und EVGA PresicsionX unterschiedliche Werte bei der Lüftersteuerung angezeigt, obwohl dort keine Lüfter mehr angesteckt sind. Zeigt doch schon das dort der Wurm drin ist.

View image at the forums

Antwort 1 Like

DHAmoKK

Urgestein

1,538 Kommentare 482 Likes

Hatte es gestern nicht schreiben wollen, weil ich von dem Thema zu wenig Ahnung habe, aber so etwas ähnliches hatte ich mir schon gedacht: Durch die hohen FPS kommt die Strommessung nicht mehr hinterher und der Chip fungiert als Kurzschluss, quasi open gates, und zieht statt 350W auf einmal 600W oder mehr.

Aber das erklärt noch nicht, warum überwiegend EVGA Karten betroffen sind. Wenn es doch eine von Nvidia vorgegebene Maßnahme ist, genau diesen Chip einzusetzen um den Stromfluss kurz hinter der Buchse zu messen, dann haben den doch auch Asus, MSI, Palit und Co. ebenfalls drauf. Von diesen hört man aber wenig bis nichts.

Antwort 2 Likes

M
Martin Gut

Urgestein

3,803 Kommentare 1,322 Likes

FAN 1 Speed (RPM) zeigt den Drehzahlmesswert. Der scheint bei den GPU-z-Screens von Igor offensichtlich falsch zu sein, denn so schnell kann ein Lüfter ja nicht drehen. Das sagt aber erst mal nur, dass die Messung oder Auslesung der Drehzahl des Lüfters nicht richtig funktioniert.

Über die Regelung des Lüfters und was dort warum schief läuft sagt der Messwert nichts aus. Die Messung hat nichts mit der Regelung zu tun. Man sieht weder warum die Regelung nicht richtig funktioniert noch was sie genau macht. Interessant wäre, ob die Regelung aufgrund von Temperatursensormessungen oder Stromsensoren irgend welche Sicherheitsfunktionen aktiviert. Das könnte ein Grund für das zeitweise Hochdrehen der Lüfter sein. Ein Grund für eine Beschädigung der Karte ist aber auch das nicht.

Warum es aber an verschiedenen Stellen zu einer Überlastung von Bauteilen kommt, ist für mich noch nicht geklärt.

Antwort Gefällt mir

Klicke zum Ausklappem
D
Deridex

Urgestein

1,696 Kommentare 511 Likes

Und ich wurde erst vor einer Weile gefragt, warum ich ein Problem mit den Shunt-Mods habe...

Antwort 3 Likes

Igor Wallossek

Format©

5,749 Kommentare 8,919 Likes

Es steht die Frage im Raum, inwieweit der fehlerhafte Lüfter-Controller durch das verquere Schaltungsdesign wirklich Amok läuft. Es dürfte wohl sogar richtig ausgelesen werden. Nur die API-Rückgabe ist dann gestört, weil der Chip absoluten Käse produziert und wegdriftet. Die andere Kurve wird nämlich separat erzeugt und die stimmt. Allerdings ist hier die CPU nicht mit im Spiel.

Antwort Gefällt mir

LurkingInShadows

Veteran

450 Kommentare 130 Likes

230.000 RPM wären auch mehr als sehr sportlich.... Turbos in der F1 machen 125.000, und die sind aktiv Ölgekühlt^^

Antwort Gefällt mir

Zanza

Neuling

5 Kommentare 0 Likes

Frame-Limiter kann ich ja über Nvidia Systemsteuerung einstellen. Der wird bei mir immer nach einem Neustart wieder deaktiviert.

Antwort Gefällt mir

Alkbert

Urgestein

519 Kommentare 262 Likes

"[...] Allerdings muss man auch hier auch ergänzen, dass eine der gebrickten GeForce RTX 3090 zusätzlich noch auf einen Shunt-Mod setzte. Dass man damit alle Schutzmechanismen der GPU aushebelt, sei mal außen vorgelassen, denn solche Mods bringen niemandem etwas, es sei denn, man will den Längsten haben und Schäden riskieren.[...]"

Und damit ist dann auch die Garantie weg, für einen nicht spürbaren und allenfalls messbaren Vorteil bei Leuten, die zuviel Geld zu haben scheinen.
Bei Anno ist mir das im DX12 Benchmark auch schon aufgefallen. Da heulen die Lüfter auch bei meiner ASUS TUF ordentlich, wobei die Temperatur sehr (!) im Rahmen bleibt.

Antwort 1 Like

Sinatra81

Veteran

449 Kommentare 197 Likes

Man kann Shunt-Mod gutheißen oder auch nicht aber nicht jeder Versuch Bestleistung zu erzielen oder das absolute Maximum aus der Technik rauszukitzeln würde ich mit "den Längsten haben wollen" bezeichnen. ☝️

Aber ich krieg nur einmal im Jahr Weihnachtsgeld, deshalb nehme ich davon Abstand! Hatte schon Muffensausen beim Kühlerumbau.

Antwort 2 Likes

B
Besterino

Urgestein

5,294 Kommentare 2,183 Likes

Jo... ist bei mir ähnlich. Neben der Sorge um die Hardware allgemein und der miserablen Verfügbarkeiten im Hinblick auf einen Ersatz fehlt mir auch die Zeit, um mich da dann vernünftig einzulesen. Ich muss dann halt leider wohl weiter neue Grakas kaufen, bis dann endlich mal die Performance "out of the box" reicht, um auf 4K mit 120FPS daddeln zu können. Na gut, auf Wasser umbauen tu' ich auch...

Antwort 3 Likes

Danke für die Spende



Du fandest, der Beitrag war interessant und möchtest uns unterstützen? Klasse!

Hier erfährst Du, wie: Hier spenden.

Hier kannst Du per PayPal spenden.

About the author

Igor Wallossek

Editor-in-chief and name-giver of igor'sLAB as the content successor of Tom's Hardware Germany, whose license was returned in June 2019 in order to better meet the qualitative demands of web content and challenges of new media such as YouTube with its own channel.

Computer nerd since 1983, audio freak since 1979 and pretty much open to anything with a plug or battery for over 50 years.

Follow Igor:
YouTube Facebook Instagram Twitter

Werbung

Werbung