EVGA GeForce RTX 3080, RTX 3090 and (not only) New World – when design flaws cause graphics cards to run amok | Tests

Thanks to a very large amount of reader feedback and targeted testing, it was possible to reproduce the scenario in a largely plausible and reliable manner. This is also proven by the damage picture I already reported in my first article and it also shows that you have to be very careful with even too sweeping snapshots on the Internet, even if it is of course always tempting and goes viral quickly, especially on YouTube. That’s exactly why I have to put something here first, also in the hope that at least this time it will be read.

Design-related EVGA problem instead of NVIDIA issue? EVGA GeForce RTX 3090 vs. Amazon’s New World and first insights | Exclusive

Important preliminary remark – facts and symptoms

Do you still remember my three(!) articles about the capacitor problem (“POSCAP-Gate”) of the then freshly launched GeForce RTX 3080 and the instabilities that occurred?  I had taken the trouble to provide all three articles with a special preface, pointing out that one should not generalize the analyzed contents in a sweeping and detached way and that it all has to be seen in context. But it is always such a thing with appropriate quotations and in the end many media with a wide reach, no matter whether YouTube or classic websites, only picked out what promised the biggest quota.

However, this not only distorts technical reality, but also creates supposed facts that never existed in this form. Exactly the same thing is happening right now with all the media hubbub about Amazon’s “New World” and the dying EVGA cards. I don’t want to judge whether many reports were made out of technical incomprehension and / or pure click-haggling, but I consistently miss the separation into a really existing design error (hardware) and the generally known fact that many of the current graphics cards reach their limit anyway at too high FPS numbers and thus also the area of the gripping protection circuits (software). Once again, one has NOTHING to do with the other. Apples and oranges.

Moreover, the greater the range, the more people will be found who want to have experienced what has been described superficially and who will speak out. Except that a tripped protection circuit on a Radeon card is logically something completely different than a blown controller chip on a botched board design. The protection circuit is there exactly for such a thing, only that with the fan one must question evenly. And at this point I get angry when one lumps everything together and celebrates the quota, because the hardware problem at EVGA cards does not only affect “New World”, but is of a general nature!

EVGA and the faulty fan controller

So let’s get back to EVGA and the misconstructed fan controller, that’s really the harsh way to put it. Here my thanks go especially to a reader who was able to help me with analytical expertise and effort and also risked his hardware for the reproduction. The problem in the area of the fan control is also known to EVGA for months (!), but they have so far sat it out apparently inactive. The various messages in the EVGA forum or the mails to EVGA were ignored, for whatever reason.

The statement of EVGA, that they can’t reproduce the problem now after the patch of “New World” unfortunately no more is besides also contentwise completely wrong, because one can it. And not just in the deliberate menu with the thousands of FPS, but even in the game itself. I will produce a video on this topic in the near future, which will also contain the recordings (“screen copy”), but I will use still images from these recordings for this article. The FPS rates are not limited and range between 50-70 FPS in the selected scene. Everything seems to run normally on the GeForce RTX 3080 FTW (10G-P5-3891-KR – EVGA 3080 FTW3 Ultra) for now:

But even now, the fan controller periodically runs amok for a few seconds. The higher the FPS, the more violent the fan whine and the frequency of these technical failures of the card. Under normal circumstances, however, the player will hardly notice it, because the freak-outs are too short at FPS rates below 100 FPS to drive the sluggish fans to maximum performance. But even now, it’s easy to log:

And EVGA doesn’t want to be able to reproduce that? It is exactly the conscious fan #1, that is the one above the GPU, which is driven here completely senseless. So in general it doesn’t make a difference if the frames are limited by a limiter or natural load, because it occurs at 60 as well as at 144+ FPS. What has always helped the reader so far was to lower the power limit from 100% to 50-60%, at least on “New World”. Then again, it was on.

What EVGA could have figured out even after the patch, and what is really interesting in this context, is that the card ignores any manual setting of the fan control in this situation. It does not matter if the fans are set to 50% RPM as a fixed value or if a manually created fan curve is stored. The ride into insanity always begins and the error pattern is always the same. But if there are already errors at 60 FPS, what about at 6000 FPS++? That’s exactly what you don’t even want to think about anymore.

Also the VBIOS version did not play a role here so far. As proof, the reader tested the “stock VBIOS”, the “450 Watt OC version” and the “ResizeBAR” variant on his GeForce RTX 3080 FTW. In addition, it makes no difference whether the BIOS switch is set to “Normal” or “OC”, where the semi-passive mode is replaced by a fixed minimum speed of 1000 RPM at idle. It also makes no difference to the error.


It is NOT a special “New World” problem after all

Again, we have to disagree with EVGA and many colleagues. It just suddenly became more noticeable because the FPS numbers were disproportionately high, which also led to the aforementioned hardware damage in places. However, we also have to add here that one of the bricked GeForce RTX 3090 additionally relied on a shunt mod. The fact that you’re undermining all of the GPU’s protections with it should be left aside, because mods like this don’t do anyone any good unless you want to have the longest and risk damage.

I also have a second video where you can see the same thing happening here! If you open the menu or the tooltip on the bottom right in Anno 1800, the fans start to take on a very strange life of their own. In this case, it is even clearly audible how fan #1 (because we just had) briefly starts up to 100% and immediately throttles back again. The third fan, which is called the “EVGA iCX Right Fan”, is not affected by this. The FPS were throttled to 60 in the game on purpose.

However, it also happens in this game that the fans keep howling and you have to close the game immediately before a blackout and the well-known emergency shutdown happens shortly after. In this case, the only thing that can be done is to disconnect the computer from the mains and wait a few seconds to be able to boot it again. This in turn indicates an emergency shutdown by the power supply, which proves that the card must have demanded an abnormal amount of power in this situation.


Ich kann mir vorstellen das seitens EVGA die nächsten Tage ein Bios Update für die 3090 kommen wird. Da sind sie immer recht fix.
Bei meiner 3090 ftw3 werden bei GPU-Z und EVGA PresicsionX unterschiedliche Werte bei der Lüftersteuerung angezeigt, obwohl dort keine Lüfter mehr angesteckt sind. Zeigt doch schon das dort der Wurm drin ist.

Hatte es gestern nicht schreiben wollen, weil ich von dem Thema zu wenig Ahnung habe, aber so etwas ähnliches hatte ich mir schon gedacht: Durch die hohen FPS kommt die Strommessung nicht mehr hinterher und der Chip fungiert als Kurzschluss, quasi open gates, und zieht statt 350W auf einmal 600W oder mehr.

Aber das erklärt noch nicht, warum überwiegend EVGA Karten betroffen sind. Wenn es doch eine von Nvidia vorgegebene Maßnahme ist, genau diesen Chip einzusetzen um den Stromfluss kurz hinter der Buchse zu messen, dann haben den doch auch Asus, MSI, Palit und Co. ebenfalls drauf. Von diesen hört man aber wenig bis nichts.

FAN 1 Speed (RPM) zeigt den Drehzahlmesswert. Der scheint bei den GPU-z-Screens von Igor offensichtlich falsch zu sein, denn so schnell kann ein Lüfter ja nicht drehen. Das sagt aber erst mal nur, dass die Messung oder Auslesung der Drehzahl des Lüfters nicht richtig funktioniert.

Über die Regelung des Lüfters und was dort warum schief läuft sagt der Messwert nichts aus. Die Messung hat nichts mit der Regelung zu tun. Man sieht weder warum die Regelung nicht richtig funktioniert noch was sie genau macht. Interessant wäre, ob die Regelung aufgrund von Temperatursensormessungen oder Stromsensoren irgend welche Sicherheitsfunktionen aktiviert. Das könnte ein Grund für das zeitweise Hochdrehen der Lüfter sein. Ein Grund für eine Beschädigung der Karte ist aber auch das nicht.

Warum es aber an verschiedenen Stellen zu einer Überlastung von Bauteilen kommt, ist für mich noch nicht geklärt.

Und ich wurde erst vor einer Weile gefragt, warum ich ein Problem mit den Shunt-Mods habe...

Es steht die Frage im Raum, inwieweit der fehlerhafte Lüfter-Controller durch das verquere Schaltungsdesign wirklich Amok läuft. Es dürfte wohl sogar richtig ausgelesen werden. Nur die API-Rückgabe ist dann gestört, weil der Chip absoluten Käse produziert und wegdriftet. Die andere Kurve wird nämlich separat erzeugt und die stimmt. Allerdings ist hier die CPU nicht mit im Spiel.

230.000 RPM wären auch mehr als sehr sportlich.... Turbos in der F1 machen 125.000, und die sind aktiv Ölgekühlt^^

Frame-Limiter kann ich ja über Nvidia Systemsteuerung einstellen. Der wird bei mir immer nach einem Neustart wieder deaktiviert.

Antwort Gefällt mir



"[...] Allerdings muss man auch hier auch ergänzen, dass eine der gebrickten GeForce RTX 3090 zusätzlich noch auf einen Shunt-Mod setzte. Dass man damit alle Schutzmechanismen der GPU aushebelt, sei mal außen vorgelassen, denn solche Mods bringen niemandem etwas, es sei denn, man will den Längsten haben und Schäden riskieren.[...]"

Und damit ist dann auch die Garantie weg, für einen nicht spürbaren und allenfalls messbaren Vorteil bei Leuten, die zuviel Geld zu haben scheinen.
Bei Anno ist mir das im DX12 Benchmark auch schon aufgefallen. Da heulen die Lüfter auch bei meiner ASUS TUF ordentlich, wobei die Temperatur sehr (!) im Rahmen bleibt.

Man kann Shunt-Mod gutheißen oder auch nicht aber nicht jeder Versuch Bestleistung zu erzielen oder das absolute Maximum aus der Technik rauszukitzeln würde ich mit "den Längsten haben wollen" bezeichnen. ☝️

Aber ich krieg nur einmal im Jahr Weihnachtsgeld, deshalb nehme ich davon Abstand! Hatte schon Muffensausen beim Kühlerumbau.

Jo... ist bei mir ähnlich. Neben der Sorge um die Hardware allgemein und der miserablen Verfügbarkeiten im Hinblick auf einen Ersatz fehlt mir auch die Zeit, um mich da dann vernünftig einzulesen. Ich muss dann halt leider wohl weiter neue Grakas kaufen, bis dann endlich mal die Performance "out of the box" reicht, um auf 4K mit 120FPS daddeln zu können. Na gut, auf Wasser umbauen tu' ich auch...

Antwort 3 Likes

