Frage RTX 3090-Problemchen

QuerSiehsteMehr

Mitglied
Mitglied seit
Nov 22, 2020
Beiträge
19
Bewertungspunkte
3
Punkte
3
Moin zusammen,

ich hoffe hier auf eine Lösung für mein "Problem".

Ich habe seit nun etwas mehr als 3 Wochen eine Asus RTX 3090 TUF, mit der ich an sich auch "zufrieden" bin. Da ich bei Erwerb der Karte leider zwei Wochen Nachtschicht hatte, hatte ich nicht wirklich die Möglichkeit, ausgiebig für längere Zeit am Stück zu spielen. Das hab ich diese Woche nachgeholt und bin leider auf ein Problem gestoßen. Dabei handelt es sich um sporadische Abstürze und Freezes.

Das aktuell betroffene System:

Lian Li O11 Dynamic
Ryzen 7 3700X Stock
Asus Strix X470 F-Gaming mit neuster BIOS-Version
Crucial Ballistix Sport LT 3000Mhz übertaktet auf stabile CL16 3600Mhz
Corsair RM1000i
Asus RTX 3090 TUF
SSDs

Hier mal kurz der Werdegang:

Vergangenen Samstag hatte ich arbeitsbedingt endlich die Möglichkeit, etwas länger zu spielen. Die Karte lief zu diesem Zeitpunkt undervoltet auf 850mV und 1800Mhz im Performance-BIOS. Dabei sind bei diversen Spielen - darunter RDR2, GTA5 und Modern Warfare - die Spiele mit einem GFX DEV ERROR in unregelmäßigen Zeitabständen abgestürzt. Dabei schließt oder freezt das Spiel einfach. Leider auch stock - ohne jegliche Anpassungen - passiert selbiges. Die Karte lief undervoltet bei rund 60 Grad, unangetastet bei rund 73 Grad. Benchmarks liefen stock jedenfalls durch, undervoltet mit sicheren Spannungen und Takt ebenfalls.

Daraufhin habe ich das System mal komplett neu aufgesetzt mitsamt den neusten Treibern und Updates, dazu das BIOS des Mobos auf den aktuellsten Stand gebracht. Allerdings hat das nichts geholfen. Auch bringt es nichts, wenn ich am Netzteil vom Multi- in den Single-Rail-Modus wechsle. Wechseln zwischen den BIOS-Versionen der Karte bringt ebenfalls nichts. Arbeitsspeicher auf Standardwerten laufen zu lassen ebenso.

Dann habe ich mich auf die Suche nach einer Lösung des Problems begeben, wo man fast nur auf die bekannte Problematik mit den Kondensatoren trifft. Jedoch sollte ich das ausschließen können. Nun weiß ich nicht, was ich noch tun kann. Hier und da gibt es Tipps bei den genannten Spielen, aber bisher hat da nichts geholfen (Priorität, API etc.) Powerlimit manuell über Afterbruner reduzieren hat auch nichts gebracht.

Die einzige Lösung, die bisher scheinbar funktioniert - 2 Stunden RDR2 ohne Probleme -, ist der Debug-Modus über den Nvidia-Treiber. Allerdings müsste ich wohl noch etwas länger testen. Auch wird es dann dementsprechend verdammt warm im Gehäuse und Umgebung.

Hat vielleicht jemand eine bessere Lösung für dieses Problem? Spielt vielleicht jemand diese Spiele und hat selbe Probleme? Ich würde schon gerne den Stromverbrauch und die Temperatur senken, weil die Abwärme ist schon heftig ...
 
Zuletzt bearbeitet :
Passiert das ganze auch wenn du nur den GPU Takt heruntersetzt?
Sprich einfach mal safe nur über die Taktkurve (Spannungen mal belassen) mal -50 MHz oder -100 MHz GPU Takt absenkst?

Dann einfach mal lange zoggen in den Spielen, wo es am schnellsten reproduziert werden konnte.

Dann könntest du ein Fehlerhaftes BIOS abgrenzen (fehlerhafte Implementierung einer BIOS Schutzschaltung) und über den Partner ein neues BIOS anfragen.
 
Passiert das ganze auch wenn du nur den GPU Takt heruntersetzt?
Sprich einfach mal safe nur über die Taktkurve (Spannungen mal belassen) mal -50 MHz oder - 100 MHz GPU Takt absenkst?

Ja.

Spielt keine Rolle, ob ich ein Offset von -50 oder -100 einstelle - real läuft sie dann nach 2-3 Minuten mit 1755 bzw. 1700Mhz. Problem tritt dann sporadisch trotzdem auf.
 
Aufgrund deiner vorigen Auflistung und du bisher thermische Probleme durch Logging ausschließen konntest, hast du ja eigentlich alles vernünftige schon durch.

Puhh, denke da kann ich nix neues / bessere Ideen beisteuern.
Natürlich großer Mist, wenn jetzt ne RMA fällig wäre.
Hoffe natürlich, dass es anders geht! 😌
 
Übertakten ist immer etwas heikel. Auch wenn eine Komponente in einer Situation zuverlässig funktioniert, bedeutet das nicht, dass sie es bei einer Änderung an irgend eine Komponente immer noch macht. Wenn mehrere Komponenten übertaktet werden, schaffen sie oft nicht die Werte, die jede einzeln maximal erreicht. Mit Benchmarks sieht man auch nur, dass diese Situation funktioniert. Im Alltag beim Gaming hast du aber viele Lastwechsel und verschiedenste Belastungen, die ein Benchmark nicht testet.

Ich würde erst mal alle Übertaktungen (CPU, RAM, Grafikkarte) und Veränderungen zurücksetzen und dann mal eine Woche testen, ob es so stabil läuft. Dann würde ich mich langsam an das Mögliche heran tasten. Das wichtigste ist vermutlich die Grafikkarte etwas zu undervolten. Aber da darf man natürlich auch nicht zu weit gehen. Lieber immer etwas Reserven einrechnen.
 
Aufgrund deiner vorigen Auflistung und du bisher thermische Probleme durch Logging ausschließen konntest, hast du ja eigentlich alles vernünftige schon durch.

Puhh, denke da kann ich nix neues / bessere Ideen beisteuern.
Natürlich großer Mist, wenn jetzt ne RMA fällig wäre.
Hoffe natürlich, dass es anders geht! 😌

Sagen wir mal so: Mit dem Debug-Modus in der Systemsteuerung von Nvidia scheint es soweit zu laufen. Jedoch schwankt der Takt ordentlich und sorgt stellenweise für Ruckler. Deshalb wäre mir eine konstante Lösung mit 1800Mhz am Liebsten.
 
@QuerSiehsteMehr

Würde eventuell bei Asus nachhören, ob es einen triftigen Grund gibt, dass es schon mittlerweile so viele Bios für die TUF gibt:


Wer weiß, vielleicht ist der von dir beschriebene Fehler bekannt und deshalb gibt es alleine für die TUF angeblich schon so viele Bios Versionen kurz nacheinander?
 
Übertakten ist immer etwas heikel. Auch wenn eine Komponente in einer Situation zuverlässig funktioniert, bedeutet das nicht, dass sie es bei einer Änderung an irgend eine Komponente immer noch macht. Wenn mehrere Komponenten übertaktet werden, schaffen sie oft nicht die Werte, die jede einzeln maximal erreicht. Mit Benchmarks sieht man auch nur, dass diese Situation funktioniert. Im Alltag beim Gaming hast du aber viele Lastwechsel und verschiedenste Belastungen, die ein Benchmark nicht testet.

Ich würde erst mal alle Übertaktungen (CPU, RAM, Grafikkarte) und Veränderungen zurücksetzen und dann mal eine Woche testen, ob es so stabil läuft. Dann würde ich mich langsam an das Mögliche heran tasten. Das wichtigste ist vermutlich die Grafikkarte etwas zu undervolten. Aber da darf man natürlich auch nicht zu weit gehen. Lieber immer etwas Reserven einrechnen.

Das Problem tritt wie beschrieben auch mit allen Werten unangefasst auf. Quasi Karte unberührt, Arbeitsspeicher unberührt etc.

Würde eventuell bei Asus nachhören, ob es einen triftigen Grund gibt, dass es schon mittlerweile so viele Bios für die TUF gibt:


Danke für die Info. Hab ganz vergessen, dass man das BIOS ja anfassen kann. Ich schau mal, welche Version genau drauf ist.
 
Wie immer lieber vorher bei Asus nachhören.
Wer weiß, ob die wirklich alles selbst von Asus kommen oder von Usern... 😉

Sag gerne später Bescheid, was Asus so dazu gesagt hatte...
 
So,

habe mittlerweile eine Antwort von Asus bekommen. Und wie nicht anders zu erwarten: Soll ein Hardwarefehler sein, die Frage bzgl. des BIOS wurde gekonnt ausgewichen. Habe mal wegen eine RMA bei MM angefragt und nun ja ... Sollte die eingeschickt werden, könnte es sehr, sehr lange dauern, bis ich wieder eine bekomme bzw. meine Alte zurückerhalte.

Habe jedoch übers Wochenende weiter experimentiert und scheinbar ein Sweetspot gefunden, der lauffähig ist ohne Debug- und Stock. 850mV und 1800Mhz im Quiet-BIOS scheinen dauerhaft zu laufen (Mehrere Runden RDR2 und MW). Ich werde es mal beobachten und versuchen bis ins nächste Jahr zu kommen, bis die Verfügbarkeit besser ist. Habe leider keine Ersatzkarte mehr.

Lass mal userbenchmark.com laufen und poste den Link deines Ergebnisses
z.B. https://www.userbenchmark.com/UserRun/28977730

Das witzige ist ja, dass sämtliche Benchmarks stock - aktuell Quiet-BIOS - durchlaufen.
 
Zuletzt bearbeitet :
Welche BIOS Version hast nun auf dem Mainboard? Version 5809?

 
Die Karte muss mit den Standardeinstellungen auch laufen. Natürlich kannst du es so mal lassen bis über die Weihnachten. Aber eine langfristige Lösung ist das noch nicht. Es ist ja nicht anzunehmen, dass sich die Probleme mit der Zeit verbessern. Die Karte soll dann ja auch jahrelang sauber laufen.

Für das Mainboard gibt es schon wieder ein neues BIOS.

Für die Grafikkarte gibt auch schon wieder einen neuen Treiber.

Beim Userbenchmark läuft alles ausser einer SSD im ganz normalen Bereich. Die Crucial P1 3D PCIe M.2 1 TB sollte aber deutlich bessere Werte erreichen. Deine kommt bei keinem Wert über 750 MB/s. Die Werte sollten aber bei 1000 - 1500 MB/s liegen.
Da läuft etwas nicht optimal. Ich würde erst den Test nochmals laufen lassen, um zu sehen ob nur der Test einmal nicht richtig funktioniert hat. Wenn die Werte dann nicht besser sind, läuft hier etwas falsch.

Die Firmware der SSD ist aktuell. Ich würde einmal mit CrystalDiskInfo die S.M.A.R.T.-Werte auslesen.
 
Die Firmware der SSD ist aktuell. Ich würde einmal mit CrystalDiskInfo die S.M.A.R.T.-Werte auslesen.

Das mit der SSD ist wirklich komisch. Könnte gut sein, dass sie den Cache noch nicht geleert hat. Der Rechner lief nie über längere Zeit im Idle. QLC ist da ja doch etwas murks.

CrystalDiskInfo_20201216182006.png

Gibts da vielleicht Dinge, wo ich schauen könnte, woran die Geschwindigeit flöten geht? Laufen tut sie jedenfalls mit PCIe 3.0 x4. CDI ist auch unauffällig. Nur die Geschwindigkeiten sind - wie du aufgedeckt hast - ziemlich mies ggü. dem, was sie leisten sollte. Sämtliche Tests mit UserBenchmark sowie CrystalDiscMark sind identisch bei um die 800MB W/R.

Ich hab auch mal etwas über die Spiele recherchiert, die scheinbar ziemlich Probleme mit diesen schwankenden Taktraten haben - vor allem RDR2 soll da sehr empfindlich sein. Das könnte vielleicht auch der Grund sein, weshalb die Spiele im Debug-Mode laufen, wo sie ja nach Spezifkation von Nvidia laufen.
 
Welche BIOS Version hast nun auf dem Mainboard? Version 5809?


5803, also den direkten Vorgänger. Zu der Zeit beim Neuaufsetzen das aktuellste. Aber nach dem Update vom alten auf das zu der Zeit aktuellste gabs keine Änderung des Problems.
 
Laut CDI läuft die mit PCIe1.0 x4, diese Anzeige kann aber durch einen PCIe-Stromsparmodus beeinflusst sein
 
Ich glaube, gemeinsam kommen wir der Ursache näher. Die S.M.A.R.T.-Werte sind alle in Ordnung.

Die 800 MB/s entsprechen aber genau dem angezeigten Standard PCIe 1.0 x4. Angegeben sind maximal 1000 MB/s. Da mit Prüfsummen für jedes Byte 10 Bit übertragen werden, bleiben noch 800 MB/s übrig.

In welchem M.2-Slot hast du die SSD verbaut? Wenn man nur eine SSD hat, gehört die immer in den Slot 1 der näher bei der CPU ist und direkt angebunden ist. Der 2. Steckplatz wird über das Chipset versorgt und teilt sich bei diesem Board die Lanes mit den PCIe 1x-Steckplätzen. Hast du etwas in den kurzen PCIe 1x-Steckplätzen verbaut? Schraub die SSD in den 1. M.2-Steckplatz, dann sollte sie besser laufen. Die anderen SSD sind ja an SATA angeschlossen und damit unabhängig.

Im Handbuch findet man auf Seite ix welche Steckplätze sich Lanes teilen.
 
Ich glaube, gemeinsam kommen wir der Ursache näher. Die S.M.A.R.T.-Werte sind alle in Ordnung.

Die 800 MB/s entsprechen aber genau dem angezeigten Standard PCIe 1.0 x4. Angegeben sind maximal 1000 MB/s. Da mit Prüfsummen für jedes Byte 10 Bit übertragen werden, bleiben noch 800 MB/s übrig.

In welchem M.2-Slot hast du die SSD verbaut? Wenn man nur eine SSD hat, gehört die immer in den Slot 1 der näher bei der CPU ist und direkt angebunden ist. Der 2. Steckplatz wird über das Chipset versorgt und teilt sich bei diesem Board die Lanes mit den PCIe 1x-Steckplätzen. Hast du etwas in den kurzen PCIe 1x-Steckplätzen verbaut? Schraub die SSD in den 1. M.2-Steckplatz, dann sollte sie besser laufen. Die anderen SSD sind ja an SATA angeschlossen und damit unabhängig.

Im Handbuch findet man auf Seite ix welche Steckplätze sich Lanes teilen.

Ja, NVME steckt im 2_1, quasi den mit PCIe 3.0 x4.

Ich schau mal im UEFI, ob unter den Onboard-Geräten irgendwas verstellt wurde. Wie auch @Denniss geschrieben hat sind ja beide aufgezählt, Sparmodus ist in Windows sowie BIOS deaktiviert. Ist irgendwie komisch.

Danke übrigens für eure Hilfe!
 
Zuletzt bearbeitet :
Dann sehe ich such nicht, warum die SSD nicht mit 4x PCIe 3.0 läuft. Der Steckplatz müsste das problemlos können. Der hat die 4 Lanes nur für sich direkt von der CPU.
 
Oben Unten