Wir hatten ja bereits vor kurzem über buildzoid und die von ihm wiederbelebte RTX 3090 GPU berichtet, die zuvor bei einem seiner Twitter Follower beim Spielen des MMOs New World den Dienst eingestellt hatte. Nun hat der Youtuber ein über 1-stündiges Video veröffentlicht, indem er mit Messergebnissen dieser Grafikkarte und diversen Datenblättern über mögliche Ursachen für das spontane Abschalten und Ableben von Nvidia Ampere GPUs in Amazons neuem MMO spekuliert.
Zunächst berichtigt er zwei Fehler aus älteren Videos. So sei nämlich das Layout der Platine der Gigabyte RTX 3090 Eagle OC doch sehr nahe am Referenz-Design von Nvidia, bei dem je nach Ausführung 9 oder 10 Power Stages für die GPU Spannungsversorgung zum Einsatz kämen. Des weiteren korrigiert er, dass diese Vcore Phasen tatsächlich von dem UP9511R PWM-Controller betrieben würden, welcher analog sei und nur 8 Phasen versorgen könne. In Folge dessen seien 2 der 10 Power Stages zusammen als eine Phase verbaut, wie es später noch im Detail erklärt wird.
Anhand des Datenblattes des PWM-Controllers von UPI Micro erklärt buildzoid zunächst die Funktionsweise der „Total Output Current Protection“, oder kurz OCP. Obwohl sich nicht alle Variablen zur Berechnung des Schwellwertes exakt ermitteln ließen, läge dieser zwischen 642 A konservativ und 1368 A realistisch. Dies sei typisch für Nvidia GPU Designs, die so ihre Lastspitzen an der TDP vorbei mogeln würden. Diese wird nämlich auf Nvidia Karten mittels „Shunt“-Widerständen gemessen, die sich vor den Kondensatoren und Induktoren der Eingangsspannung befänden und so nur einen gefilterten Durschnitt messen könnten.
Die auf der Gigabyte Karte verbauten 60 Ampere Power Stages könnten wären zwar für kurzzeitige Lastspitzen von 80 Ampere spezifiziert, die Auswirkung solcher Peaks auf die Lebensdauer der Komponenten sei aber fragwürdig. Und auch bei den für dauerhaften Betrieb spezifizierten 60 Ampere, wäre die Abwärme mit insgesamt 90 W zu groß für die verbaute Kühllösung. Effektiv würde dies aber auch bedeuten, dass die OCP effektiv nie eingreifen würde und vorher vermutlich eher die Komponenten der Spannungsversorgung in Rauch aufgehen würden.
Dass Nvidia Ampere karten sich kurzzeitig viel höhere Ströme genehmigen können und effektiv nur im Durchschnitt der Leistungsaufnahme beschränkt werden, deckt sich auch mit Igors Messungen aus dem Launch Review, mit nahezu 600 W im Peak bei 350 W TDP.
Da die OCP höchstwahrscheinlich nie eingreifen würde, geht der Youtuber im weiteren Verlauf auf das „Channel Current Limit“ Funktion ein, die eine Besonderheit bei dieser Spannungsversorgung sei. Effektiv seien die einzelnen Phasen auf eine maximale Stromstärke limitiert, bei deren Überschreitung die Phase gedrosselt wird. Während Phasen mit zwei Power Stages auf 160 Ampere limitiert seien, gäbe es einzelne Phasen sowohl mit einem 80 A Limit, als auch mit einem 130 A Limit. Wieso es hier unterschiedliche Limits für baugleiche Phasen gäbe, könne er sich nicht erklären, meint buildzoid.
Folge der Drosselung der Stromstärke sei zwangsläufig ein kurzzeitiges Abfallen der Spannungsversorgung für die GPU, was zu Instabilität oder gar Auslösung der „Under Voltage Protection“ führen würde. Letztere sei ein weiterer Schutzmechanismus, der die Spannungsversorgung bei zu niedriger Ausgangsspannung abschaltet. Die Folge dessen wäre, dass die GPU selbst abgeschaltet würde, während die restlichen Komponenten wie die Lüftersteuerung in Hysterese verfallen. Die Folge dessen wiederum wäre ein schwarzer Bildschirm und 100% Lüfterdrehzahl, was zu den diversen Erfahrungsberichten von New World Opfern passen würde. Lediglich ein komplettes Neustarten des Systems könne die ausgelöste Schutzfunktion wieder zurücksetzen.
Dass Ampere GPU aufgrund zu niedriger Spannung oder zu hoher Taktrate instabil würden, wurde ja bereits kurz nach dem Launch vermutet. Das damit verbundene „POSCAP Drama“ wurde ja hinlänglich beleuchtet und was nun die wirkliche Ursache war, ein fehlerhafter Boost Algorithmus, ungenügende Chip-Qualität, zu sparsame Kondensator-Layouts, grenzwertige VRM-Konfiguration, oder eine Kombination aus allem genannten, darüber streiten sich bis heute die Geister. Klar ist aber, dass durch Nvidias Fix mit einem nachträglichen Treiber-Update, auch die kurzzeitigen Lastspitzen von Ampere GPUs merklich gedrosselt wurden.
Auch wenn sich die definitive Ursache noch immer nicht exakt bestimmen ließe, so seien Nvidias Entscheidungen bei der Implementierung der GPU Spannungsversorgung stellenweise fragwürdig oder nicht nachvollziehbar. Auch warum das spontane Ableben in New World hauptsächlich Modelle des Herstellers Gigabyte betreffen würde, könne er ohne weiteres nicht genauer erklären. Eine mögliche Erklärung wäre aber eine unterschiedliche Implementierung des Nvidia Referenzdesigns von Hersteller zu Hersteller.
Da die von ihm reparierte RTX 3090 GPU nur eine Leihstellung sei und diese wieder funktionsfähig zum Eigentümer zurückkehren solle, könnte buildzoid keine weiteren Tests durchführen ohne erneute Schäden zu riskieren. Idealerweise würde er aber mit einer Opfer-Grafikkarte und einem Oszilloskop die Stromaufnahme messen, während New World auf der Hardware ausgeführt würde. Da dies aber zu einem potentiellen Ableben der Karte führen würde und diese ja ohnehin schon alles andere als günstig sind, fehlen ihm aktuell die Mittel für weitere Untersuchungen.
Update 26.10.2021, 12:40 Uhr:
In einem neuen kurzen Video zeigt buildzoid noch das Verhalten der Leistungsaufnahme in den Applikationen Furmark und Unigine Superposition. In ersterem, der als extrem leistungshungriger Stresstest bekannt ist, schafft es die RTX 3090 trotz automatischer Drosselung auf ca. 1200 MHz und 0,72 V GPU Spannung die 350 W TDP zu erreichen. Im Unigine Superposition mit Auflösung „8K“ werden im Monitoring-Tool GPU-Z sogar kurze Peaks auf bis zu 412 W sichtbar, wohlgemerkt bei unverändertem Standard-Powerlimit von 350 W.
Dies deute darauf hin, dass die riesigen Ampere GPUs von sich aus bereits sehr stromgierig seien, vor allem wenn es Spiele schaffen einen Großteil der CUDA-Kerne auszulasten. Ähnlich wie im Superposition Benchmark bei hohen Auflösungen könne das Verhalten in New World einfach auf eine sehr gute Optimierung durch die Spiele-Entwickler und damit hohe Auslastung der GPU hindeuten. Entsprechend wäre dann bei zukünftigen Spielen mit stetig steigenden Anforderungen und immer effizienterer Auslastung der Hardware mit ähnlichen Folgen wie bei New World zu rechnen. Amazon neues MMO wäre demnach nur ein Vorbote für das, was Nvidia Ampere Grafikkarten Besitzer bald erwarten könnte.
19 Antworten
Kommentar
Lade neue Kommentare
Urgestein
Veteran
Urgestein
Urgestein
Veteran
Urgestein
Urgestein
Veteran
Moderator
Urgestein
Veteran
Urgestein
Urgestein
Mitglied
Veteran
Urgestein
Veteran
Urgestein
Urgestein
Alle Kommentare lesen unter igor´sLAB Community →