Grundlagenartikel New World GPU-Opfer wiederbelebt! – Überlastete Vcore Power Stages auf Nvidia Ampere von Youtuber identifiziert

Redaktion

Artikel-Butler
Mitarbeiter
Mitglied seit
Aug 6, 2018
Beiträge
1.748
Bewertungspunkte
8.479
Punkte
1
Standort
Redaktion
Der Youtuber buildzoid hat auf seinem Kanal Actually Hardcore Overclocking eine defekte Grafikkarte eines Twitter-Followers untersucht, die angeblich dem neuen Amazon MMO New World zum Opfer gefallen war. Nach wenigen Stunden mit der Grafikkarte konnte der erfahrene Hardware-Guru bereits das Problem diagnostizieren und sie tatsächlich ins Leben zurückholen! Bereits während der Beta Phasen von Amazons...
Hier den ganzen Artikel lesen
 
Na das bringt doch ein wenig Licht ins Dunkel.
 
Meine 3090 Vision OC ist mir vor einigen Monaten bei einer Runde Starcraft II abgeraucht. Black Screen Absturz, keine Fehlermeldung, Karte wurde nicht mehr erkannt. Hatte von Anfang an etwas Probleme, die Netzteil Kabel reinzustecken - der rechte Stecker ging zwar rein, rastete aber nie ein. Das war ein bekannter Serienfehler, angeblich war meine Seriennummer aber nicht mehr betroffen. Neue Revision.

Zur Reparatur eingeschickt und bekam sie wieder zurück (Seriennummer kontrolliert) - repariert. Auf einmal passten die Netzteil Kabel wunderbar und rasteten problemlos ein. Wurde also ausgetauscht, obwohl angeblich neue Revision mit bereits behobenem Fehler. Hat jetzt also alles tiptop funktioniert. Dann... vor ein paar Tagen angefangen... Halo CE (Uraltgame) auf einmal lauter Black Screen Abstürze mit 100% Fanspeed. Behebbar nur durch hardreset durch Powerknopf am Gehäuse. Habe alles an Fehlersuche betrieben. Bioseinstellungen, Netzteil ausgetauscht, Kabel ausgetauscht... Powertarget runter genommen (80%) - nichts hat geholfen. Bis ich einfach mal auf die Idee gekommen bin, mir den Core Clock der Karte anzuschauen. Weil das Spiel eben alt und gammlig ist (grafisch gesehen), läuft die Karte nur auf 40% und hat lauter Reserven für Boost - und will auf knapp 2100 Mhz takten - das ist einfach zu hoch und sorgt für Abstürze. Also einfach den Takt um -106 MHz reduziert und seitdem habe ich Ruhe. Bei anspruchsvollen Games, wo nicht so hoch getaktet wird, habe ich überhaupt keine Probleme.

Von wegen, Nvidia hätte das treiberseitig gelöst. Einen Sche*ßdr*ck hat man da gelöst. Die Teile takten immernoch zu hoch und stürzen deshalb ab. Wobei das auch nichts mit Temperaturen zutun hat. Habe vor einigen Black Screen Abstürzen mit Afterburner die Temps kontrolliert und die Karte war grade mal bei 60°C Core und knapp 79° VRAM.

Und so etwas bei so urteuren Karten... man ist Alphatester...
 
Zuletzt bearbeitet :
und will auf knapp 2100 Mhz takten
Wer neben der Werbeabteilung etwas davon hat, weiss ich auch nicht. Wofür eine Karte bei 40 % Auslastung so hoch dreht oder bei Sekundenbruchteilen Last auf den vollen Boost geht, ist mir nicht klar. Ich wüsste nicht, in welcher Situation man den Unterschied zu etwas weniger Boost merken sollte. Dann, wenn man beim Arbeiten oder Gaming Leistung braucht, geht es immer um Dauerlasten über längere Zeit.
 
Wer neben der Werbeabteilung etwas davon hat, weiss ich auch nicht. Wofür eine Karte bei 40 % Auslastung so hoch dreht oder bei Sekundenbruchteilen Last auf den vollen Boost geht, ist mir nicht klar. Ich wüsste nicht, in welcher Situation man den Unterschied zu etwas weniger Boost merken sollte. Dann, wenn man beim Arbeiten oder Gaming Leistung braucht, geht es immer um Dauerlasten über längere Zeit.
Tjoa, der ganze Boostalgorithmus der RTX 3000er ist für die Tonne. Meine Karte ist im Idle Betrieb (Browser) in der Regel bei 200-435 Coreclock, alle paar jubeljahre schießt das Teil aber auch mal auf 1800 hoch. Warum, das weiß nur Nvidia. Beobachte das jetzt schon seit ich das Teil habe und das kann ich bislang immernoch nicht festmachen an irgendwas, wie Browserfenster schließen, Videos abspielen oder so. Ich nenne das mal vorsichtig zufällig, auch wenn das irgendwelche Gründe haben wird, die aber nicht sinnvoll sein werden...

Ich habe mich über die Monate auf jedenfall schon mit einigen Dingen herumplagen müssen - und das als Käufer eines urteuren Produkts. Eine Frechheit...
 
Nichts wird passieren.
Bauteil- bzw. Baugruppenvorgebende Chipsatzentwickler, Boardpartner und Spieleentwickler werden den Schwarzen Peter hin- und herschieben und die Sache so gut es geht aussitzen.

Man stelle sich vor, "jemand" würde eine Fehlkonstruktion einer oder mehrerer Baugruppen zugeben und müsste Ersatz für alle möglich-betroffenen Karten leisten.
:ROFLMAO:
 
Spiele auch New World und hab eine RTX 3090 FTW3 ULTRA + 10-jährige Garantie und bis jetzt läuft alles.
 
Finde ich auch gut das sich endlich jemand das Problem mal näher anschaut. Ich beobachte das ne Weile da ich auch das Game selber spiele.
Gibt wirklich viele Modelle mittlerweile die über Probleme berichten, aber klar die Karten werden ans Limit gebracht und viele halten das wohl nicht mehr aus.

Trotzdem finde ich es komisch, habe bei mir ein PT von 90% eingestellt. Vorher lief die GPU immer bei 110%. 99% der Zeit habe ich Schwankungen von bis zu +5% PT so das ich auf 95% komm ... aber heute waren es auch mal kurz 108%. Muss zugeben ich habe vor NW auch nie so drauf geachtet, evtl. ist das ganz normal ka. Dank Igor wissen wir ja wie stark die GPU´s spiken können, aber evtl geschieht das hier öfters oder für einen längeren Zeitraum ? Kenne mich damit leider zuwenig aus, aber kann mir vorstellen das wenn ne GPU da schwach ist oder auf 120% PT voreingestellt ist und dann so nen Spike kommt, dabei hops geht ?

Irgendwie glaube ich das hier die Spikes anders sind (schneller, höher, länger) als bei anderen Games, wäre das möglich ?
 
Interessante Erfahrungsberichte hier im Thread.
Wer neben der Werbeabteilung etwas davon hat, weiss ich auch nicht. Wofür eine Karte bei 40 % Auslastung so hoch dreht oder bei Sekundenbruchteilen Last auf den vollen Boost geht, ist mir nicht klar. Ich wüsste nicht, in welcher Situation man den Unterschied zu etwas weniger Boost merken sollte. Dann, wenn man beim Arbeiten oder Gaming Leistung braucht, geht es immer um Dauerlasten über längere Zeit.
Meine XT löst das ganz elegant, Obwohl ich 2,8GHZ eingestellt habe, boostet die Karte bei Teillast auf einen offenbar fixen Maximalwert vin 2,5Ghz
 
>100h New World seit Release, davor Closed Beta, Open Beta alles auf max @4K mit meiner 3090FTW3 Ultra ohne irgendeine Anpassung im Treiber oder BIOS, ohne aktive Zusatztool und ohne jede Probleme.

Spielspaß wie er sein soll.

Jedenfalls von der Technikseite - Warteschlangen, überfüllte Siedlungen, Lag in Instanzen sind andere Themen, für die die GPU wohl nix kann… ;)
 
Die Analyse wäre doch sicher etwas für Igorslab.:)

Komisch ist das in der Tat, warum? Die Regulation kommuniziert mit der GPU und das Modul verteilt dann die Lastzustände auf die einzelnen Phasen. Möglicherweise ein Designfehler oder ein Biosproblem. Das es auf verschiedenen Layouts zum gleichen Fehler kommt und dann der Hersteller bestimmter Komponenten das Problem sein soll, ist eher an den Haaren herbei gezogen. Man sucht den Sündenbock. In bestimmten Fällen scheint die Leistungsaufnahme im Peakbereich unter Volllastszenarien die Bauteile zu stark zu belasten und das Absenken der Spannungen reagiert zu träge, was zu einem zu lang andauernden Overshot führt, der vermutlich die Bauteile schneller altern lässt und sie in den Hardwaretod zwingt. Immer dann wenn man versucht aufgrund einer hohen Taktrate, die man anpeilt, zugleich VDroop Zustände der VCore zu minimieren um diese Taktrate hochzuhalten, besteht für die Bauteile ein gewisses Risiko, für zu hohe und zu lange "Überschwinger" über der Idlevoltage. Und das NVidia anscheinend an der Konkurrenz vorbei wollte, ist klar offensichtlich. Den Preis zahlt dann der Anwender. Zumal es die Serienstreuung auch noch gibt und das Binning ggf. auch Schuld sein könnte, weil man derzeit alles auf's Board bringt was GPU heißt (oder danach aussieht). Alias GT102 BDK Probleme inklusive...

Aber so wie wir NVidia kennen, macht es auch etwas Kleber (bei 2.5T teuren Grakas, was solls wird doch alles gekauft).;)

Schön zu wissen das man eine tickende Zeitbombe im PC verbaut hat.

Hilfe ja, VID runter, gezielt Undervolt und Leistung verlieren. Aber die Reviews sind ja gelaufen, "wir sind vorne". Da stehen einem die Nackenhaare zu Berge, wenn man glaubt das NVidia für eine 3090S das max PT auf über 450W erhöhen will.

*Und falls ich noch etwas einwerfen darf, scheint das Problem bekannt da die Partner mittlerweile "v2" bestimmter Versionen auflegen.
 
Zuletzt bearbeitet von einem Moderator :
Ich finde das alles nicht aussagekräftig. Kein Mensch kann belastbare Aussagen zur „Historie“ der Karte treffen - insbesondere wurde die zwischendurch mal rechts und links mit irgendwelchen hardcore Einstellungen gequält, monatelanges Mining betrieben, dröflzig mal „huschhusch“ der Kühler gewechselt und/oder an der Spannung gedreht bis zur Kotzgrenze und darüber hinaus.

Dann fällt irgendwann die Karte aus und man reiht sich in den „habe ganz harmlos nur XYZ gespielt“ Train ein und hofft auf kostenlose Unterstützung (und manchmal noch Aufmerksamkeit oder was weiß ich).

Klar ist eigentlich nur, die Karte ist defekt. Ja, ist Kacke und darf bei normaler Nutzung inkl. bisserl OC und auch Mining nicht passieren.

Bei jeder Aussage zu Ursache (hab nur New World gespielt) und Wirkung (Defekt) ist man aber allein (!) auf die Glaubwürdigkeit des jeweiligen Nutzers angewiesen, und wie weit es damit im Internet her ist… Prost Mahlzeit. Und dann soll EIN FALL mit all diesen Unwägbarkeiten ein Indiz für etwaige Ursachen sein? Ja ne, is klar.
 
Mining ist kein Garantiefall, also Vorsicht mit solchen Aussagen in Foren. Da findet man seinen Sündenbock nämlich ziemlich schnell.
 
Ich habe jedenfalls nirgends was von Garantie, Anspruch oder sonstwas auch nur ansatzweise juristisch Angehauchtes geschrieben. Ausschließlich Ursache, Wirkung und einmal Unterstützung - im Gegensatz zu den sonstigen 99,99% achte ich sehr wohl auf meine Wortwahl.

Und wer einen Sündenbock sucht, findet auch immer einen. Wer dafür mich nehmen will, bitte gern, lässt mich kalt.
 
GameWatt (Afterburner)TDP % (Afterburner)Watt (GPU-Z)TDP % (GPU-Z)
New World260,2108247,395,7
Mortal Online II (Beta)241,6108247,192,8
Cyberpunk 2077246,7132250,296,2
BF 2042 (Beta)242,9100242,793,4

Habe mir Heute mal vergleichsweise paar andere Spiele und deren Spikes angeschaut (0,3s Messintervall). In einem Video von JayztwoCents wird ja gezeigt das NW so starke Spikes hat. Keine Ahnung bei mir ist das wohl in jedem Spiel so, dabei ist die TDP auf 90% eingestellt was ca. 230 W entspricht. Bin selbst überrascht über die Ergebnisse, vorallem CP spiked extrem (hier waren die FPS auch am niedrigsten). Hier am Anfang mit höherer FPS ca 30 und dann mit niedriger 15. (DLSS an und aus)

1633779970920.png

Auf die Voltage habe ich nun nicht geachtet aber die ist bei mir eh limitiert.
Also entweder verstehe ich bei dem ganzen etwas falsch oder es scheint einfach nix ungewöhnliches zu sein und die Grafikkarten waren einfach Schrott ? Naja ich bin aufjedenfall gespannt was noch herauskommt. :)
 
Die Spikes sind normal, die GPU läuft dann ins PT (VCore Limit, womöglich von ihnen selbst gesetzt, die Spikes sind die Schwankungen/Trägheit in der Schaltung/Regelung).

Genau deshalb braucht es die mehr als 450W, es geht letztlich nur darum alles zu verw*rsten was früher nie auf einem Grafikbord gelandet wäre, also werfen wir die Effizienz über den Haufen mit der Begründung, mehr für alle. Langsam muss man sich fragen, ob die bei 600W Steckern noch ganz klar im Kopf sind.

NVidia selbst hat es mit Maxwell und Pascal gezeigt, es geht auch anders. Also letztlich geht es derzeit nur um maximale Ausbeute und deren Verwendung, da kann es dann bei dem gleichen Board in einer Serie zu massiven Spreizungen bei den maximalen Verbräuchen kommen (Peaks und extreme Belastungszyklen der Bauteile aufgrund der Serienstreuung in der Fertigung, gute und böse Dies die dann zu gleichen Preisen beim Anwender landen), weil eben jeglicher Schund verbaut wird und natürlich bedeutet das vor allem mehr, mehr für die Hersteller, wie NVidia vorne weg. Das Ganze jubelt zudem die Kosten maximal in die Höhe und steht dem aktuellen Trend entgegen, der Umwelt zu Liebe auch mal zu sparen. Weniger ist oft mehr.

Ist schon irgendwie komisch das man alles aufs Board haben will, wo die Fertiger in 2023 mit heftigen Überproduktionen in der Fertigung rechnen und schon massiv vor Überschüssen warnen. Aber dann vergraben wir den Rest in der Wüste.

In Bereiche Automotive hat NVidia genauso gedacht, dann verbauen wir eben einen Stecker mehr und lassen unser Pilotmodul 150W verbrauchen, sind dafür aber aus vielen Listen der Hersteller gestrichen worden. Nein danke, kein Bedarf für Mikrowellen in Auto.:)

@Besterino
Sie waren gar nicht persönlich gemeint, schrieben aber etwas von kostenloser Unterstützung. Aber man könnte es dann auf den Part, der nicht kommerziellen und abgedeckten Verwendung im Bereich Mining schieben, und damit hätte man trotz möglicher Konstruktionsfehler seinen Spündenbock gefunden, die "minen alle" und dafür können wir nichts. Damit muss man klar rechnen. Und das hier und anderswo mitgelesen wird, davon können sie zu 100% ausgehen.
 
Zuletzt bearbeitet von einem Moderator :
Dem Datenblatt des smart power stages kann es nicht der Ausgangs-Strom gewesen sein, der das einzelne Modul zerstört hat. Der OCP liegt bei min 74A (70A max peak current) mit 10A Hysterese. Also Kurzschlussfest.
Der Fehler ist bei der Karte im Video der Kurzschluss im Eingangskreis des smart power stages der die 12V Sicherung ausgelöst hatte.

Es hat den Anschein das an mehren Stellen die Sicherheitsreserven ausgereizt wurden. Wenn dann Lieferanten ihre Produkte "preis-optimieren" werden diese dann unterschritten und es geht schief.
 
Dann müssten "beide" *geschlappt* haben, noch mal genau schauen welche Phase es ist und welche Bauteile!
 
Denke ich nicht. Wenn ein Entwickler die Specs voll ausreizt oder sogar überreizt nutzt er Hersteller Reserven, die nicht spezifiziert sind. Wenn der Hersteller bei seiner Preisoptimierung der Chargen solche Reserven reduziert geht es schief. Und auf die herstellerseitigen Reserven hat der Entwickler keinen Anspruch.
Nur wenn eine der Chargen seine Leistungswerte nicht mehr erfüllt hat der Hersteller ein Problem. ONsemi ist aber bisher immer sehr zuverlässig in Erinnerung geblieben.

Ich sehe aber eher eine Kombination der Maßnahmen als Ursache. Die sehr aggressive Last- und Leistungsregelung führt die GPU und die Versorgung an die Belastungsgrenze und zwangsläufig geben die Schwachstellen dann nach.
 
Oben Unten