News Designbedingtes EVGA-Problem statt NVIDIA GAU? EVGA GeForce RTX 3090 vs. Amazons New World und erste Erkenntnisse | Exklusiv

Ray Krebs · Jul 22, 2021

Die Frage stellt sich mir auch. Warum reißt eine defekte Lüftersteuerung die ganze Grafikkarte in den Tod?

Gibt es dadurch Folgeschäden an anderes Stellen? Weil auch ohne Lüfter dürfte die GPU nicht kaputt gehen. Wenn's zu warm wird geht halt Takt und Spannung runter.

Ray Krebs · Jul 22, 2021

Igor Wallossek hat gesagt. :
Wenn die Karte aus Gründen von Komponentenschäden kein Power Good Signal mehr liefert, geht sie erst gar nicht mehr an.

Okay, dann wäre es sozusagen kein Totalausfall, aber trotzdem bedauerlich für den Kunden.

Da wird was auf EVGA zugerollt kommen.

BloodReaver · Jul 22, 2021

Ray Krebs hat gesagt. :
Okay, dann wäre es sozusagen kein Totalausfall, aber trotzdem bedauerlich für den Kunden.

Da wird was auf EVGA zugerollt kommen.

Schon wieder

ich hab die Geschichte mit der 1080 FTW mitgemacht

MopsHausen · Jul 22, 2021

BloodReaver hat gesagt. :
Schon wieder ich hab die Geschichte mit der 1080 FTW mitgemacht

Ich hab meine FTW 1080 immernoch, lief 1/2 unter Luft dann 3 Jahre unter wasser nu wieder unter Luft mit org Kühler ( hab nichtmal die pads erneuert.)
Das Ding rennt und rennt obwohl es laut Foren schon 3 mal gestorben sein müsste XD

Igor Wallossek · Jul 22, 2021

BloodReaver hat gesagt. :
Schon wieder ich hab die Geschichte mit der 1080 FTW mitgemacht

Haha, und ich erst. Seitdem hasst mich EVGA irgendwie

Neolecram · Jul 22, 2021

Igor Wallossek hat gesagt. :
Die Lüftersteuerung basiert auf einigen Sensorwerten, die von MCUs erfasst werden. Was da genau Amok lief, wird gerade erforscht. Die eigentliche Ansteuerung geht danach über einen simplen PWM-Chip, das ist ja alles kein Hexenwerk. Ich vermute mal, hier sind die MCUs ins Schlingern gekommen. Wenn die Karte aus Gründen von Komponentenschäden kein Power Good Signal mehr liefert, geht sie erst gar nicht mehr an.

Ist das der selbe SFN8F27E64, der auch auf der 1080TI-FTW3 verbaut war? Ich habe da gerade etwas durch's Datenblatt gescrollt und mir überlebt, wie man den MCU kaputt bekommen würde. Spannungstechnisch hat der ungewöhnlich viel Luft, von -0.3 - 6.0V, allerdings steht da etwas von 85Grad Umgebungstemperatur und 115 Grad absolute maximum Junction Temperature. Wie nah ist das Ding denn von der VRAM Heizung entfernt?

Ansonsten kenne ich nur 3 andere Arten, einen eingebauten MCU zu zerstören und das ist zu viel Strom an einem OUTPUT-Pin zu ziehen, das EEPROM kaputt zu schreiben oder einen Zustand in dem EEPROM zu hinterlegen, mit dem die Firmware nichts mehr anfangen kann. Oder natürlich die 12V Lüfterspannung an einem Input-Pin anzulegen, aber wer tut so etwas?

Igor Wallossek · Jul 22, 2021

Gute Frage...

Ich hatte was Ähnliches mal mit einem Realtek PWM Controller, dessen Spannungsversorgung Amok lief. Der soff zu viel und der kleine Spannungsteiler davor ist plötzlich abgesoffen. Dann lagen die vollen 12 Volt am Chip. Knall und weg. Tod mit Ansage. Passierte auch nur unter extremer Last. War eine ältere MSI-Karte.

Ich kann mir nur vorstellen, dass bei 5000 FPS zu viele Lastwechsel über die Sensoren kamen und irgendetwas zur Überhitzung geführt hat. Die VRM schließe ich mal aus, die gehen nicht so hoch. Ich vermute. dass es die MCU war. Man müsste die Schaltung sehen, um zu prüfen, wo das PWM-Signal für den Header erzeugt wird. Den Chip würde ich aber nicht als Controller IC bezeichnen.

Deridex · Jul 22, 2021

Mir sind defekte MCUs bisher in folgenden Formen begegnet:
- Überspannung. Bei entsprechenden Spitzen von der Versorgung können die z. B. Bulk Dioden überfordert werden. Dagegen können Ferrite und Blockkondensatoren helfen. Auch bei Eingängen kann Überspannung zu einem größeren Schaden führen.
- Ausgang überlastet
- thermisch gegrillt
- mechanisch über die Wärmeausdehnung gerissen. Ist allerdings schon eine Zeit her als ich das das letzte Mal gesehen habe.
- Flash zerschrieben
- Softwarefehler die den Controller dauerhaft in einen unbenutzbaren Status schicken.

Neolecram · Jul 22, 2021

Igor Wallossek hat gesagt. :
Ich kann mir nur vorstellen, dass bei 5000 FPS zu viele Lastwechsel über die Sensoren kamen und irgendetwas zur Überhitzung geführt hat. Die VRM schließe ich mal aus, die gehen nicht so hoch. Ich vermute. dass es die MCU war. Man müsste die Schaltung sehen, um zu prüfen, wo das PWM-Signal für den Header erzeugt wird. Den Chip würde ich aber nicht als Controller IC bezeichnen.

Hm. Also normalerweise ist das ja irgend eine CMOS-Schaltung und das Gate hängt dann wiederum am MCU. Was passiert denn eigentlich am Gate von so einem kaputten Mosfet, haben die dann noch einen signifikanten Widerstand? Drain->Source hat man da ja in der Regel dann freie Fahrt. Es wäre jetzt wirklich mal interessant, ob das auch ohne Lüfter, also ohne Stromfluß durch den PWM-Treiber passiert. Aber ehrlich gesagt war mir die Karte für solche Tests zu teuer.

Was mir aber auffällt: Die reagiert auf unterschiedliche Lasten recht... interessant. Mit Furmark hat man ein sehr lautes Spulenfiepen, beim Spielen oder 3DMark ist die nicht zu hören. Ebensowenig z.B. unter Tensorflow.

Neolecram · Jul 22, 2021

Deridex hat gesagt. :
- Softwarefehler die den Controller dauerhaft in einen unbenutzbaren Status schicken.

OK, aber das ist ja nach einem Power-Cycle in der Regel behoben. Außer, der Fehler ist irgendwo persistiert, also in einem externen Flash oder im EEPROM.

Deridex · Jul 22, 2021

Als Beispiel sei hier ein Fehler im Bootloader genannt.

Edit: Text durch Beispiel ersetzt.

Igor Wallossek · Jul 22, 2021

Wir werden es sicher nur hintenrum erfahren. Die PR wird da nichts Informatives dazu beitragen.

BloodReaver · Jul 22, 2021

Hehe ich hab dazumal das Angebot von EVGA genutzt und die Karte mit den zusätzlichen pads bestückt. Die Karte hab ich dann aber meinem Schwager gegeben und ich bin auch die 1080ti gewechselt. Die Karte läuft immer noch top.

Igor Wallossek · Jul 22, 2021

Den Pad Mod hatten wir mit EVGA bei mir im Lab getestet. Es gab bis heute nicht mal ein Danke

Alkbert · Jul 22, 2021

Meine letzte EVGA war eine GTS 8800 (512 MB), seitdem habe ich nie mehr was gefunden, was mich vom P/L anspricht - und denen ihren Kingpin muss ich auch nicht mitfinanzieren. Das überlasse ich reicheren Zeitgenoss*innen

BloodReaver · Jul 22, 2021

Igor Wallossek hat gesagt. :
Den Pad Mod hatten wir mit EVGA bei mir im Lab getestet. Es gab bis heute nicht mal ein Danke

Ja das is schlecht. Andonsten bin ich eigentlich nicht unzufrieden mit EVGA. Wäre es den möglich EVGA deaktiviert mit einem Firmware update das icx gedöns und wechselt auf die nvidia internen sensoren? Über das Precidion X1 tool müsste. Die temps ja trotzdem ausgelesen werden können.

Igor Wallossek · Jul 22, 2021

Nein, so einfach ist das sicher nicht. Die XC Karten ohne den Schnulli haben eine andere Platine.

Neolecram · Jul 22, 2021

Das hängt sicher auch davon ab, warum die Karte genau nicht mehr funktioniert. Es ist etwas schwer herauszufinden, wie genau die Initialisierung der Karte abläuft, NVIDIA ist das ohne NDA sehr... sparsam mit den Informationen. Wenn ich das richtig verstehe, enthält die GPU mehrere Microcontroller (GPC) und einen Master-Microcontroller (HUB). In dem VBIOS ist die Firmware für diese Microcontroller mit enthalten und die sind dann für Steuerungsaufgaben, Initialisierung und das ganze Klimbim verantwortlich, was die Karte zum funktionieren braucht. Was leider praktisch nicht herausfindbar ist, ob die GPU irgendwelche externen Bus-Interfaces hat (SPI, I2C), und wie genau die mit der Lüftersteuerung kommuniziert. Irgendwie muss das aber funktionieren, die Sensoren tauchen ja auch z.B. in GPU-Z auf. Ich könnte mir vorstellen[TM], dass der HUB versucht, diese Busse beim Initialisieren der Karte zu initialisieren und nach Geräten abzusuchen. Wenn jetzt die Lüftersteuerung an einem dieser Busse hängt, komplett platt ist und den Bus einfach auf LOW-zieht, dann hängt an dieser Stelle auch die Initialisierung von dem HUB und der ganzen Karte. Wenn das der Fehler ist, und sonst nichts lebenswichtiges an dem Bus hängt, dann kann man ggf. in die Firmware einen Timeout einbauen. Das Ergebnis wäre dann, dass die Lüfter in dem Fall immer auf Vollgas laufen, aber die Karte würde noch funktionieren.

Das ist aber alles Spekulation, ich habe keine Ahnung, wie die Karte genau funktioniert, wie sich die Architektur der GPU-Microcontroller nach Fermi verändert hat und was EVGA da genau gebastelt hat.

Igor Wallossek · Jul 22, 2021

ich bin dran

eastcoast_pete · Jul 22, 2021

Igor Wallossek hat gesagt. :
Den Pad Mod hatten wir mit EVGA bei mir im Lab getestet. Es gab bis heute nicht mal ein Danke

Nur um klar zu sein: das "Mag Ich" ist nur und exklusiv für Deinen Post; das EVGA sich nicht Mal dafür bedankt hat, daß Du ihnen damals geholfen hast, zeigt schon, welche Antwort die verdienen:

.
Ich denke, daß man bei solchen Situationen sieht, woher der Wind bei so einer Firma weht.

News Designbedingtes EVGA-Problem statt NVIDIA GAU? EVGA GeForce RTX 3090 vs. Amazons New World und erste Erkenntnisse | Exklusiv

Mitglied

Mitglied

Mitglied

Urgestein

Format©

Mitglied

Format©

Urgestein

Mitglied

Mitglied

Urgestein

Format©

Mitglied

Format©

Urgestein

Mitglied

Format©

Mitglied

Format©

Urgestein