Überlast bei hohen FPS-Zahlen auf allen Karten
Kommen wir nun zu dem, was viele Kollegen leider mit dem Lüfterproblem in einen Topf geschmissen haben, obwohl es purer Nonsens ist. Denn das Verhalten der aktuellen Grafikkarten bei exorbitant hohen FPS-Zahlen (z.B. in Menüs) und eine Notabschaltung der Karte (Power Good) bzw. das Auslösen der OCP in der PSU ist alles andere als neu. Auch hier sind die Werte natürlich in „New World“ extremer als sonst, so dass es auch deutlicher auffällt. Neu ist es aber nicht und schon gar nicht spieleabhängig. Amazons „New World“ ist eine Closed Beta und als solche natürlich auch mit Vorsicht zu genießen, was die Stabilität und mögliche Fehler betrifft. Ein Spiel ohne Limiter zu verteilen ist fahrlässig und geradezu dumm, aber mit so etwas muss man bei einer Beta als Tester eigentlich auch immer rechnen. So gesehen muss man also auch das Mitleid und die Schuld etwas anders verteilen.
Womit wir beim Thema angekommen wären. Ich werde mich jetzt nicht wiederholen und auch nicht noch einmal das Funktionsschema von Power Tune oder Boost durchkauen. Das wäre langweilig und auch für Nicht-Techniker vielleicht sogar etwas verwirrend. Trotzdem müssen wir noch einmal übers Monitoring sprechen. Hier verfolgen AMD und NVIDIA nämlich einen komplett anderen Ansatz, wenn auch mit ähnlichen Ergebnissen. Stark vereinfacht: Während AMD die Leistungsaufnahme von GPU und Speichercontroller direkt an den Power-Gates überwacht, kontrolliert NVIDIA hier deutlich umfassender alle von außen kommenden 12-Volt-Versorgungsleitungen in der Gesamtheit. Mit allen Vor- und Nachteilen.
Bis Pascal setzte man dazu fast immer auf den doch sehr trägen INA3221 von Ti, der eine Überwachung in gröberen ms-Intervallen ermöglichte. Doch bei immer schnelleren Lastwechseln durch die immer schneller werdenden Karten, stand man schon bei Pascal vor großen Problemen, ob die OCP (bzw. OPP) noch rechtzeitig auslösen konnte. Diese Chips stießen also schon damals immer häufiger an ihre Grenzen und es kam auch seinerzeit schon zu vereinzelten Problemen bei zu schnellen Lastwechseln bzw. zu hohen FPS-Zahlen.
Deswegen hat NVIDIA hier sehr schnell reagiert und setzt seit Turing auf Monitoring-Chips mit einer um den Faktor 1000 (theoretisch) höheren Auflösung. Im Bild unten sehen wir den speziell dafür entwickelten uS5650 von UPI, der analog zum NCP45491 von On Semi wesentlich kürzere Monitoring-Intervalle ermöglicht. Wie kurz diese jedoch in der Realität wirklich sind, weiß allerdings nur NVIDIA, denn selbst in den Specs und dem Base-Design-Kit für die Boardpartner werden solche Details leider nicht aufgeführt. Das ist also wirklich geheim, leider.
Jetzt kann man sich natürlich auch zu Tode überwachen und eine zu schnelle Auswertung und Berechnung der jeweiligen Ist-Zustände kostet zudem auch ordentlich Ressourcen. Man kann also nur vermuten, dass hier ab ca. 1000 bis 2000 FPS (also bereits unterhalb 1 ms) bei identischer Renderlast schon Ungenauigkeiten entstehen könnten, die letztendlich gewisse Spikes schon nicht mehr mit erfassen oder man am Ende von einer zu geringen Gesamtlast ausgeht. Shunt-Messungen sind in solch kurzen Intervallen auch mit diversen Fehlern behaftet, zumal die fließenden Ströme auf der Primärseite, also noch vor den Spannungswandlern erfasst werden und sich dort auch noch die Längsspulen und diverse Kapazitäten befinden. Und es erklärt wohl auch, warum die gemessene Leistungsaufnahme dann stellenweise die in der Firmware hinterlegte Oberwerte für das Power Limit überschreiten können (nicht nur als kurzer Peak).
Ohne jetzt näher auf die jeweiligen Schaltungen eingehen zu wollen, wo auch ich an diverse NDAs gebunden bin, kann man als Fazit aber definitiv mitnehmen, dass es ein Anliegen der Chiphersteller sein muss, treiberseitig genau das bereits auf der Softwareseite zu kappen, was man Hardware-seitig in solchen Ausnahmesituationen nicht immer sauber im Griff zu haben scheint. Das reicht von der Power Estimation Engine im Zusammenspiel mit dem alles regelnden Arbitrator (Firmware der Grafikkarten) bis hin zur Render-Pipeline und den jeweiligen Schnittstellen der Treiber, denn sowohl NVIDIA als auch AMD besitzen ja bereits funktionell völlig ausreichende Frame-Limiter.
Diese Limiter könnte man per Default im Preset locker bei 500 oder 1000 FPS greifen lassen, ohne Einfluss auf mögliche Latenzen zu nehmen. Wenn ein Anwender dies dann auf eigenes Risiko hin aufhebt, ist es allein (und in der Folge bei Abschaltungen oder Schäden) seine eigene Schuld. Auch hier sind NVIDIA und AMD in gleichem Maße betroffen, denn das Thema ist zu komplex für einen Sonntags-Artikel. Hier werde ich sicher auch noch einmal genauer nachmessen.
Wer Shunts manipuliert und damit die Schutzschaltungen obsolet macht, hat auch keinerlei Mitleid verdient. Das Ergebnis sah dann bei „New World“ z.B. so aus. Selbst schuld.
Zusammenfassung und Fazit
Dass alle Beteiligten aufgrund der teuren Hardware und des aktuellen Mangels das Ganze nicht weiter auf die Spitze getrieben haben, ist für den Leser sicher nachvollziehbar. Zumal so eine fragile Grenzwert-Abtastung auch primär die Aufgabe einer R&D-Abteilung des Herstellers, in diesem Falle EVGA, ist und der Kunde nicht zum Tester mutieren darf. Es ist löblich, wenn der Hersteller einen Austausch der defekten Karten anbietet. Nur bliebe ihm aufgrund der aktuellen Faktenlage wohl eh nichts anderes übrig, womit sich die noble Geste dann zu einem normalen Rückruf wandeln dürfte.
Ich kann jedem Besitzer einer der betroffenen Modelle nur raten, sich prophylaktisch bei EVGA zu melden, wenn das Lüfterproblem auftritt und nicht erst abzuwarten, bis es zu einem finalen Schaden kommt. Nach mehreren Gesprächen mit Technikern anderer Boardpartner kann man auch zu dem Schluss kommen, dass diese Problem mit einem Firmware-Update lösbar sein sollte. Man kann nur hoffen, dass sich EVGA hier noch einmal deutlicher positioniert und nicht alles wieder auf Amazon schiebt. Denn genau das ist nun einmal falsch, auch wenn es die PR dankend aufgegriffen hat.
Und dem Rest gebe ich gern mit auf den Weg, nicht alle Probleme in einen Topf zu werfen und bestimmte Eil-Informationen kritischer zu hinterfragen. Wer dann noch einen Frame-Limiter analog zu seinen Monitor-Fähigkeiten einsetzt, der spart nicht nur Energie und vermeidet das eklige Spulenfiepen, sondern er umgeht auch solche Notabschaltungen durch hingeschluderte Games oder zu hohe FPS-Zahlen durch zu niedrige Grafikherausforderungen bei älteren und / oder extrem simplen Spielen.
84 Antworten
Kommentar
Lade neue Kommentare
Neuling
Urgestein
Urgestein
Urgestein
1
Urgestein
Mitglied
Urgestein
Urgestein
Mitglied
Urgestein
Mitglied
Urgestein
1
Neuling
Urgestein
Veteran
Veteran
Alle Kommentare lesen unter igor´sLAB Community →