Grafikkarten News Praxis VGA

EVGA GeForce RTX 3080, RTX 3090 und (nicht nur) New World – wenn durch Designfehler die Grafikkarte Amok läuft | Tests

Überlast bei hohen FPS-Zahlen auf allen Karten

Kommen wir nun zu dem, was viele Kollegen leider mit dem Lüfterproblem in einen Topf geschmissen haben, obwohl es purer Nonsens ist. Denn das Verhalten der aktuellen Grafikkarten bei exorbitant hohen FPS-Zahlen (z.B. in Menüs) und eine Notabschaltung der Karte (Power Good) bzw. das Auslösen der OCP in der PSU ist alles andere als neu. Auch hier sind die Werte natürlich in „New World“ extremer als sonst, so dass es auch deutlicher auffällt. Neu ist es aber nicht und schon gar nicht spieleabhängig. Amazons „New World“ ist eine Closed Beta und als solche natürlich auch mit Vorsicht zu genießen, was die Stabilität und mögliche Fehler betrifft. Ein Spiel ohne Limiter zu verteilen ist fahrlässig und geradezu dumm, aber mit so etwas muss man bei einer Beta als Tester eigentlich auch immer rechnen. So gesehen muss man also auch das Mitleid und die Schuld etwas anders verteilen.

Womit wir beim Thema angekommen wären. Ich werde mich jetzt nicht wiederholen und auch nicht noch einmal das Funktionsschema von Power Tune oder Boost durchkauen. Das wäre langweilig und auch für Nicht-Techniker vielleicht sogar etwas verwirrend. Trotzdem müssen wir noch einmal übers Monitoring sprechen. Hier verfolgen AMD und NVIDIA nämlich einen komplett anderen Ansatz, wenn auch mit ähnlichen Ergebnissen. Stark vereinfacht: Während AMD die Leistungsaufnahme von GPU und Speichercontroller direkt an den Power-Gates überwacht, kontrolliert NVIDIA hier deutlich umfassender alle von außen kommenden 12-Volt-Versorgungsleitungen in der Gesamtheit. Mit allen Vor- und Nachteilen.

Bis Pascal setzte man dazu fast immer auf den doch sehr trägen INA3221 von Ti, der eine Überwachung in gröberen ms-Intervallen ermöglichte. Doch bei immer schnelleren Lastwechseln durch die immer schneller werdenden Karten, stand man schon bei Pascal vor großen Problemen, ob die OCP (bzw. OPP) noch rechtzeitig auslösen konnte. Diese Chips stießen also schon damals immer häufiger an ihre Grenzen und es kam auch seinerzeit schon zu vereinzelten Problemen bei zu schnellen Lastwechseln bzw. zu hohen FPS-Zahlen.

Deswegen hat NVIDIA hier sehr schnell reagiert und setzt seit Turing auf Monitoring-Chips mit einer um den Faktor 1000 (theoretisch) höheren Auflösung. Im Bild unten sehen wir den speziell dafür entwickelten uS5650 von UPI, der analog zum NCP45491 von On Semi wesentlich kürzere Monitoring-Intervalle ermöglicht. Wie kurz diese jedoch in der Realität wirklich sind, weiß allerdings nur NVIDIA, denn selbst in den Specs und dem Base-Design-Kit für die Boardpartner werden solche Details leider nicht aufgeführt. Das ist also wirklich geheim, leider.

Jetzt kann man sich natürlich auch zu Tode überwachen und eine zu schnelle Auswertung und Berechnung der jeweiligen Ist-Zustände kostet zudem auch ordentlich Ressourcen. Man kann also nur vermuten, dass hier ab ca. 1000 bis 2000 FPS  (also bereits unterhalb 1 ms) bei identischer Renderlast schon Ungenauigkeiten entstehen könnten, die letztendlich gewisse Spikes schon nicht mehr mit erfassen oder man am Ende von einer zu geringen Gesamtlast ausgeht. Shunt-Messungen sind in solch kurzen Intervallen auch mit diversen Fehlern behaftet, zumal die fließenden Ströme auf der Primärseite, also noch vor den Spannungswandlern erfasst werden und sich dort auch noch die Längsspulen und diverse Kapazitäten befinden. Und es erklärt wohl auch, warum die gemessene Leistungsaufnahme dann stellenweise die in der Firmware hinterlegte Oberwerte für das Power Limit überschreiten können (nicht nur als kurzer Peak).

Ohne jetzt näher auf die jeweiligen Schaltungen eingehen zu wollen, wo auch ich an diverse NDAs gebunden bin, kann man als Fazit aber definitiv mitnehmen, dass es ein Anliegen der Chiphersteller sein muss, treiberseitig genau das bereits auf der Softwareseite zu kappen, was man Hardware-seitig in solchen Ausnahmesituationen nicht immer sauber im Griff zu haben scheint. Das reicht von der Power Estimation Engine im Zusammenspiel mit dem alles regelnden Arbitrator (Firmware der Grafikkarten) bis hin zur Render-Pipeline und den jeweiligen Schnittstellen der Treiber, denn sowohl NVIDIA als auch AMD besitzen ja bereits funktionell völlig ausreichende Frame-Limiter.

Diese Limiter könnte man per Default im Preset locker bei 500 oder 1000 FPS greifen lassen, ohne Einfluss auf mögliche Latenzen zu nehmen. Wenn ein Anwender dies dann auf eigenes Risiko hin aufhebt, ist es allein (und in der Folge bei Abschaltungen oder Schäden) seine eigene Schuld. Auch hier sind NVIDIA und AMD in gleichem Maße betroffen, denn das Thema ist zu komplex für einen Sonntags-Artikel. Hier werde ich sicher auch noch einmal genauer nachmessen.

Wer Shunts manipuliert und damit die Schutzschaltungen obsolet macht, hat auch keinerlei Mitleid verdient. Das Ergebnis sah dann bei „New World“ z.B. so aus. Selbst schuld.

Quelle: User GremaxLP – ElmorLabs Discord

Zusammenfassung und Fazit

Dass alle Beteiligten aufgrund der teuren Hardware und des aktuellen Mangels das Ganze nicht weiter auf die Spitze getrieben haben, ist für den Leser sicher nachvollziehbar. Zumal so eine fragile Grenzwert-Abtastung auch primär die Aufgabe einer R&D-Abteilung des Herstellers, in diesem Falle EVGA, ist und der Kunde nicht zum Tester mutieren darf. Es ist löblich, wenn der Hersteller einen Austausch der defekten Karten anbietet. Nur bliebe ihm aufgrund der aktuellen Faktenlage wohl eh nichts anderes übrig, womit sich die noble Geste dann zu einem normalen Rückruf wandeln dürfte.

Ich kann jedem Besitzer einer der betroffenen Modelle nur raten, sich prophylaktisch bei EVGA zu melden, wenn das Lüfterproblem auftritt und nicht erst abzuwarten, bis es zu einem finalen Schaden kommt. Nach mehreren Gesprächen mit Technikern anderer Boardpartner kann man auch zu dem Schluss kommen, dass diese Problem mit einem Firmware-Update lösbar sein sollte. Man kann nur hoffen, dass sich EVGA hier noch einmal deutlicher positioniert und nicht alles wieder auf Amazon schiebt. Denn genau das ist nun einmal falsch, auch wenn es die PR dankend aufgegriffen hat.

Und dem Rest gebe ich gern mit auf den Weg, nicht alle Probleme in einen Topf zu werfen und bestimmte Eil-Informationen kritischer zu hinterfragen. Wer dann noch einen Frame-Limiter analog zu seinen Monitor-Fähigkeiten einsetzt, der spart nicht nur Energie und vermeidet das eklige Spulenfiepen, sondern er umgeht auch solche Notabschaltungen durch hingeschluderte Games oder zu hohe FPS-Zahlen durch zu niedrige Grafikherausforderungen bei älteren und / oder extrem simplen Spielen.

 

Kommentar

Lade neue Kommentare

OR4LIFE

Neuling

1 Kommentare 1 Likes

Ich kann mir vorstellen das seitens EVGA die nächsten Tage ein Bios Update für die 3090 kommen wird. Da sind sie immer recht fix.
Bei meiner 3090 ftw3 werden bei GPU-Z und EVGA PresicsionX unterschiedliche Werte bei der Lüftersteuerung angezeigt, obwohl dort keine Lüfter mehr angesteckt sind. Zeigt doch schon das dort der Wurm drin ist.

View image at the forums

Antwort 1 Like

Corro Dedd

Urgestein

1,812 Kommentare 672 Likes

Hatte es gestern nicht schreiben wollen, weil ich von dem Thema zu wenig Ahnung habe, aber so etwas ähnliches hatte ich mir schon gedacht: Durch die hohen FPS kommt die Strommessung nicht mehr hinterher und der Chip fungiert als Kurzschluss, quasi open gates, und zieht statt 350W auf einmal 600W oder mehr.

Aber das erklärt noch nicht, warum überwiegend EVGA Karten betroffen sind. Wenn es doch eine von Nvidia vorgegebene Maßnahme ist, genau diesen Chip einzusetzen um den Stromfluss kurz hinter der Buchse zu messen, dann haben den doch auch Asus, MSI, Palit und Co. ebenfalls drauf. Von diesen hört man aber wenig bis nichts.

Antwort 2 Likes

Martin Gut

Urgestein

7,768 Kommentare 3,569 Likes

FAN 1 Speed (RPM) zeigt den Drehzahlmesswert. Der scheint bei den GPU-z-Screens von Igor offensichtlich falsch zu sein, denn so schnell kann ein Lüfter ja nicht drehen. Das sagt aber erst mal nur, dass die Messung oder Auslesung der Drehzahl des Lüfters nicht richtig funktioniert.

Über die Regelung des Lüfters und was dort warum schief läuft sagt der Messwert nichts aus. Die Messung hat nichts mit der Regelung zu tun. Man sieht weder warum die Regelung nicht richtig funktioniert noch was sie genau macht. Interessant wäre, ob die Regelung aufgrund von Temperatursensormessungen oder Stromsensoren irgend welche Sicherheitsfunktionen aktiviert. Das könnte ein Grund für das zeitweise Hochdrehen der Lüfter sein. Ein Grund für eine Beschädigung der Karte ist aber auch das nicht.

Warum es aber an verschiedenen Stellen zu einer Überlastung von Bauteilen kommt, ist für mich noch nicht geklärt.

Antwort Gefällt mir

D
Deridex

Urgestein

2,213 Kommentare 846 Likes

Und ich wurde erst vor einer Weile gefragt, warum ich ein Problem mit den Shunt-Mods habe...

Antwort 3 Likes

Igor Wallossek

1

10,185 Kommentare 18,779 Likes

Es steht die Frage im Raum, inwieweit der fehlerhafte Lüfter-Controller durch das verquere Schaltungsdesign wirklich Amok läuft. Es dürfte wohl sogar richtig ausgelesen werden. Nur die API-Rückgabe ist dann gestört, weil der Chip absoluten Käse produziert und wegdriftet. Die andere Kurve wird nämlich separat erzeugt und die stimmt. Allerdings ist hier die CPU nicht mit im Spiel.

Antwort Gefällt mir

LurkingInShadows

Urgestein

1,348 Kommentare 550 Likes

230.000 RPM wären auch mehr als sehr sportlich.... Turbos in der F1 machen 125.000, und die sind aktiv Ölgekühlt^^

Antwort Gefällt mir

Zanza

Mitglied

41 Kommentare 7 Likes

Frame-Limiter kann ich ja über Nvidia Systemsteuerung einstellen. Der wird bei mir immer nach einem Neustart wieder deaktiviert.

Antwort Gefällt mir

Alkbert

Urgestein

931 Kommentare 706 Likes

"[...] Allerdings muss man auch hier auch ergänzen, dass eine der gebrickten GeForce RTX 3090 zusätzlich noch auf einen Shunt-Mod setzte. Dass man damit alle Schutzmechanismen der GPU aushebelt, sei mal außen vorgelassen, denn solche Mods bringen niemandem etwas, es sei denn, man will den Längsten haben und Schäden riskieren.[...]"

Und damit ist dann auch die Garantie weg, für einen nicht spürbaren und allenfalls messbaren Vorteil bei Leuten, die zuviel Geld zu haben scheinen.
Bei Anno ist mir das im DX12 Benchmark auch schon aufgefallen. Da heulen die Lüfter auch bei meiner ASUS TUF ordentlich, wobei die Temperatur sehr (!) im Rahmen bleibt.

Antwort 1 Like

G
Guest

Man kann Shunt-Mod gutheißen oder auch nicht aber nicht jeder Versuch Bestleistung zu erzielen oder das absolute Maximum aus der Technik rauszukitzeln würde ich mit "den Längsten haben wollen" bezeichnen. ☝️

Aber ich krieg nur einmal im Jahr Weihnachtsgeld, deshalb nehme ich davon Abstand! Hatte schon Muffensausen beim Kühlerumbau.

Antwort 2 Likes

B
Besterino

Urgestein

6,716 Kommentare 3,318 Likes

Jo... ist bei mir ähnlich. Neben der Sorge um die Hardware allgemein und der miserablen Verfügbarkeiten im Hinblick auf einen Ersatz fehlt mir auch die Zeit, um mich da dann vernünftig einzulesen. Ich muss dann halt leider wohl weiter neue Grakas kaufen, bis dann endlich mal die Performance "out of the box" reicht, um auf 4K mit 120FPS daddeln zu können. Na gut, auf Wasser umbauen tu' ich auch...

Antwort 3 Likes

Wie jetzt?

Mitglied

55 Kommentare 44 Likes

Keine Ahnung ob das eine Macke speziell deines Systems ist oder bei Grün generell auftritt. Aber der MSI Afterburner bringt den Riva Tuner Statistic Server (kurz: RTSS) mit und der hat einen sehr komfortablen und für jede Anwendung separat setzbaren framelimiter dabei.

Antwort 1 Like

B
Besterino

Urgestein

6,716 Kommentare 3,318 Likes

So, Spiel läuft. Also die Charakter-Erstellung, der Rest muss bis zum Abschluss der Wartungsarbeiten warten. :D

Laut Nvidia-Anzeige bei max. 119FPS in Video und Char-Menü.

Edit &T Korrektur: auf 4K bin ich bei 82-89FPS bei allen Settings auf Very High. Der GPU wirds aber trotz Wasser warm mit 60° und quasi konstant 98-99% Auslastung.

Antwort 1 Like

A
Art

Mitglied

47 Kommentare 8 Likes

@Redaktion: 2x kleine Typos: "in einen Top zu werden" -> "in einen Topf werfen"

Antwort Gefällt mir

Alkbert

Urgestein

931 Kommentare 706 Likes

Das ist schon richtig. Aber Shunt mod heißt unter dem Strich: Ich betreibe die Karte ausserhalb der Spezifikation und auf eigenes Risiko.
Wenn ich (abstrahiert von der Legalitätsfrage) Methanol in meinen Tank schütte, kann ich auch nicht den Hersteller bei Defekten heranziehen und sollte darüber hinaus schon aus Gründen des Anstands (auch wenn das heute in gewissen Kreisen nicht mehr modern ist) davon absehen, die entsprechende Firma mit einem "Shitstorm" deswegen zu überziehen, was man gerade wieder bei EVGA sehen kann.

Antwort Gefällt mir

Igor Wallossek

1

10,185 Kommentare 18,779 Likes

Naja, also das, was bei EVGA gerade zu sehen ist, ist eine Fehlkonstruktion, die auch so zusammenklappt. Man hätte das besser kommunizieren und vor allem auch schon handeln müssen, denn ich weiß, dass sie den Grund kennen. Wo kommt wohl meine Info her... ;)

Das mit den Lüftern zieht sich schon seit einigen Monaten und hatte auch bei Turing schon diverse Probleme verursacht. Es ist nicht den Moddern anzulasten. Die Karte stirbt dann allerdings etwas eher und dann hat der Modder auch beim Sterben der Karte noch den Längsten. :D

Antwort 4 Likes

V
Venox

Neuling

2 Kommentare 0 Likes

Darf man fragen welche Asus TUF du genau hast? Ich selbst habe eine 3080 TUF OC und habe bisher sowas nicht feststellen können bei Anno 1800. Habe natürlich auch nicht aktiv drauf geachtet, überwache aber sehr konstant mit Afterburner und GPU-Z. Habe aber auch schon meine Erfahrung gemacht was den fan controller angeht als ich das vbios geupdated habe. Da war Asus Tweak II für verantwortlich, oder jedenfalls seit der Installation davon waren meine Lüfter konstant bei 53% und drehten nicht mehr hoch. Nach Deinstallation war das Problem behoben.

Antwort Gefällt mir

c
cunhell

Urgestein

549 Kommentare 503 Likes

Hallo Igor,
es hat sich ein kleiner Typo eingeschlichen. Oder war da der Wunsch der Vater des Gedanken ;-)
"Das wiederum vereist auf eine Notabschaltung durchs Netzteil hin,"
Es sollte vermutlich "verweist" heissen.

Ansonsten sehr schöner Artikel.

Grüße
Cunhell

Antwort Gefällt mir

k
k0k0k0

Veteran

136 Kommentare 63 Likes

hier ebenfalls^^:
"Auch hier muss man EVGA und vielen Kollegen wiedersprechen."

Antwort Gefällt mir

P
Phoenixxl

Veteran

158 Kommentare 120 Likes

Ich im Gespräch im Freundeskreis: Ich weiß alles über PC Hardware.
Ich, nach Lektüre eines Textes von Igor, in dem er ein bisschen genauer ins Detail geht: Ich weiß nichts über PC Hardware.

Nach diesem kleinen Spaß:
Danke, Igor, für die ausführliche Erklärung. Eigentlich hatte sich das ja genau so abgezeichnet und dass es nicht nur an New World liegen konnte, war ja eigentlich schon an der Natur des Fehlers (Hardware!) absehbar.
Jays2Cents hat sich -mal wieder- nicht mit Ruhm bekleckert. Man merkt, dass er mehr oder weniger durch Zufall ein großer Youtuber wurde. Mit echtem Know How glänzt er ja nie.
Insofern bist du ein riesen Glück für die deutschsprachige Hardware-Community!

Bisher hatte ich nie einen globalen Framelimiter drin, sondern z.B. vor dem Start von Gothic 3 das Powerlimit auf 50% gesetzt. Wenn ich mich Recht erinnere, dann ist es gar nicht soooooo selten, dass ein Intro eines altes Spiels Mal eben 8000 FPS hat. Ich bin mir aber auch gar nicht sicher, in das dann nicht pre-rendered ist.
Ich werde auf jeden Fall ein globales FPS Limit einrichten.

Peinlich an der Sache fand ich User, die geschrieben haben, dass die betroffenen ohne global Limiter selbst schuld gewesen wären.

Es ist ja nun zum Glück kein häufiges Problem , dass es erstens zu solchen Lasten kommt und zweitens die Schutzschaltungen nicht richtig auslösen.

Man vertraut ja immer auf die Selbst-Sicherung der Hardware, sobald man etwas ohne WHQL Label nutzt. Zumal das Label im Endeffekt nicht mehr wert ist als 80+X.

Ich kann's jedenfalls niemandem verübeln an einer Beta teilzunehmen, Windows 11 zu installieren usw. ohne, dass er sich Sorgen um die Hard(!)-ware macht.

Antwort 3 Likes

Klicke zum Ausklappem

Danke für die Spende



Du fandest, der Beitrag war interessant und möchtest uns unterstützen? Klasse!

Hier erfährst Du, wie: Hier spenden.

Hier kannst Du per PayPal spenden.

About the author

Igor Wallossek

Chefredakteur und Namensgeber von igor'sLAB als inhaltlichem Nachfolger von Tom's Hardware Deutschland, deren Lizenz im Juni 2019 zurückgegeben wurde, um den qualitativen Ansprüchen der Webinhalte und Herausforderungen der neuen Medien wie z.B. YouTube mit einem eigenen Kanal besser gerecht werden zu können.

Computer-Nerd seit 1983, Audio-Freak seit 1979 und seit über 50 Jahren so ziemlich offen für alles, was einen Stecker oder einen Akku hat.

Folge Igor auf:
YouTube   Facebook    Instagram Twitter

Werbung

Werbung