Frage Random Crashes bei neuem Pc-Build, vermutlich im Zusammenhang mit der GPU

Yve

Veteran
Mitglied seit
Jul 29, 2022
Beiträge
113
Bewertungspunkte
54
Punkte
29
Hallo liebe Gemeinde!

Ich habe mit einem Freund und Streamer-Kollegen für Ihn ein neues System zusammen gestellt mit folgenden Specs:
Mobo: Gigabyte Z790 UD
CPU: I7-13700F
Ram: 2x 16GB Kingston Fury Beast CL40 DDR5-6000 (32GB KIT, eingesteckt in Slot A2 und B2)
GPU: Palit RTX 4070TI Gaming Pro
Netzteil: BQ Pure Power 12 M 750W (ATX 3.0 PSU, Grafikkarte direkt mit dem Kabel vom BQ angeschlossen)

Windows 10 Pro wurde komplett frisch installiert, alle Updates. Nvidia-Treiber per GeForce Experience, UEFI letztes Update auf Version F5, Intel Treiber bei Intel Tool.
Ansonsten ist auf dem Pc nur Chrome, Steam, Discord, OBS und paar Spiele installiert, und ein paar Tools wie HWinfo die aber definitiv nicht im Hintergrund laufen.

Nun zum Problem. Das System läuft eigentlich™ wie gehofft/geplant sehr gut von der Performance für den angedachten Einsatzzweck (Spielen beim gleichzeitigen Streamen). Jedoch, treten Random Crashes auf, die wir bislang noch nicht wirklich lokalisieren konnten.
Beispiele:
- Am Vortag Diablo 4 beta 7h spielen ohne irgend ein Problem, nächster Tag nach 3h crasht der Pc komplett weg das er Neustarten musste.
Wenn es normal läuft GPU bei 30-40% Auslastung, beim Crash Bildschirme gehen aus, GPU Fans gehen sofort auf 100%
- Resi 4 mit OBS Streamen, Encoder auf NVenc mit empfohlenen Nvidia Settings, mal crasht es wenn man ins Spiel geht, mal wenn man raus tabbt.
Hierbei sind zwei verschiedene Fehlermeldung signifikant:
"NVENC Error: nvenc_encode_tex: nv.nvEncMapInputResource(enc->session, &map) failed: 8 (NV_ENC_ERR_INVALID_PARAM)"
und
"NVENC Error: get_encoded_packet: nv.nvEncLockBitstream(s, &lock) failed: 4 (NV_ENC_ERR_INVALID_DEVICE)"
Umgestellt auf Software Encoder, und das Spiel konnte erstmal Problemfrei gestreamt werden, was aber keine Dauerhafte Lösung sein kann.

Leider haben wir noch keine Konstellation gefunden, einen dieses Fehler bewusst herbei zu führen. :(
Streßtest mit Cinebench z.B. läuft ohne Probleme. Wir haben auch versucht verschiedene Tipps wie "hardware accelerated gpu scheduling" zu deaktivieren, bei OBS und dem jeweiligen Spiel in Windows-Einstellungen die GPU auf Performance Mode zu setzen. Jedoch ohne Erfolg.

Die einzige Kausalität die mir noch einfällt wäre das eventuell die Discord App Probleme verursacht. Wir haben dort schon Overlay deaktiviert, aber das Problem tritt weiterhin auf. Diese wird aber benötigt, da Sprachchat meist über Discord läuft usw. Andere Vermutung wäre das mit den RTX 4xxx NVencodern noch irgendwas nicht stimmt.

Ich bin mit meinem Googlen leider am Ende. Ich habe Nichts gefunden wo jemand ähnliche Probleme hatte und eine tatsächliche Ursache ausgemacht wurde. Viele einzelne Kausalitäten, aber nichts wo man sagen könnte: ja das könnte man probieren, da könnte man mal nachschauen. Auch habe ich keine Ahnung wie man raus finden soll, was die Crashes verursacht, wenn die so sporadisch, nicht reproduzierbar auftreten. 😭

Wir wären unglaublich dankbar, wenn jemand eine fundierte Idee hätte.

LG Yve
 
Es musste ja unbedingt n F sein. Mein Rat: beim nächsten Mal entweder ne Reservekarte haben oder nen Prozessor mit iGP.
Wie knifflig ist es, ne andere Karte geliehen zu bekommen?
 
Unbedingt, musste nicht sein. Aber es galt halt das beste aus einem bestimmten Preisrahmen rauszuholen. Da war die F Version beim Tagespreis halt am günstigsten.
Er hätte noch seine alte RTX2070 da. Das Problem ist halt das die ansonsten absolut Einwandfrei läuft. Gibt halt keine Symptome(in mein Augen) die auf ein Hardware Problem mit der Graka schließen lassen. Wie geschrieben, die kann man auch mal mit Benchmark etc Stressen und die macht was Sie soll. Oder Stunden lang Game spielen. Daher vermuten(!) wir irgendwo einen Software/Treiber Bug, oder irgend was komisches im Zusammenspiel der einzelnen Hardware Komponenten.
 
Jaja, war übertrieben, trotzdem...
Mein einfaches Hirn denkt: wenn die alte Karte einwandfrei rennt und die neue Karte nicht liegt es an der neuen Karte.
Und wenn die alte die gleichen Probleme bewirkt wie die neue kann man nen Kartendefekt eher ausschliessen.
Oder?
 
Jaja, war übertrieben, trotzdem...
Mein einfaches Hirn denkt: wenn die alte Karte einwandfrei rennt und die neue Karte nicht liegt es an der neuen Karte.
Und wenn die alte die gleichen Probleme bewirkt wie die neue kann man nen Kartendefekt eher ausschliessen.
Oder?
Oder. Die RTX 4070 TI bringt ja einige Änderung mit sich. Dieser komische ATX 3.0 Stecker mit Sence. Keine Ahnung ob das eventuell etwas damit zu tun hat. Und die RTX 2070 (die er noch da hätte) basiert auf TU106 der NVenc per Chip 1x und die RTX 4070 TI auf AD104 der NVenc 2x per Chip kann + AV1 Support. Hier könnte der Fehler halt im Detail liegen. Weiß nicht ob da Nvidia irgend etwas anders macht mit dem Encoder.


Zufällige Abstürze - da denk ich als allererstes an instabilen RAM und CPU. Mit Intel hab ich aber nichts zu tun, da kann ich nicht weiter beraten.
GPU wäre für mich erst der zweite Gedanke.
Im Allgemein würde ich zustimmen. Der RAM ist Niegel Nagel Neu, vom Mainboard Hersteller als getestet/unterstützt gelistet, und in den letzten ~20 Jahren war Kingston der Hersteller wo ich persönlich nie Streß mit dem Ram hatte. Auch spuckt Windows keine typischen Bluescreen's aus, die auf Ram Fehler schließen lassen würden. Die Fehler treten halt auch immer nur dann auf, wenn irgend ein Spiel, sprich DX11/12 oder Vulcan aktiv ist.
CPU läuft im Bereich, wo die sich noch langweilt.
 
Jetzt verwirrst du mich. Das 6000Mhz RAM und genau da läuft er auch.
Also hast doch die CPU/Speichercontroller Übertaktet oder hast das mit irgend welchen krummen Multis wieder auf 5600MHz runter gestellt so das der Speichercontroller mit 5600MHz läuft und der Ram mit 6000MHz?!
 
Dann nimm die Übertragung mal raus und stelle auf XMP Profil 2 damit die CPU auch mit Standard läuft.Es sind zwar nur 400MHz Übertaktung,aber bei Fehlern immer erst mit Standard Testen.
 
Also eigentlich besser mit JEDEC laufen lassen? Aber müsste bei Timing-Fehlern mit dem Ram Windows nicht lustige Bluescreens bringen mit Memory-Error irgendwas?
Werds mal weiter reichen und beobachten lassen.
 
Nicht zwingend weil 6000MHz bzw 5600MHz sind ja nicht der reale Takt,deswegen ist der Unterschied bei den 400MHz ja auch nicht so groß, nur dadurch das der Speichercontroller Übertaktet läuft werden auch einige andere Punkte mit geändert und das kann dann zu gelegentlichen Fehlern führen wenn nicht alle Parameter richtig stehen,die Timings sollten vom Mainboard ja richtig ausgelesen und eingestellt sein.

Mit Ram 5600MHz muss es laufen , ansonsten beginnt das große Suchen.

Mit Nvidia hast natürlich auch das Problem das du ne extra Software fürs Streaming brauchst.
 
Zuletzt bearbeitet :
Sofern RAM und/oder CPU nicht auf @stock oder alles Auto laufen, ist übertaktet. Ob der RAM neu ist, oder du ihn im Flussbett gefunden hast ist egal, das tut nichts zur Sache.
Aber genau das, was Casi schreibt ist der Punkt, jedwede von Nutzer gemachten Einstellungen können irgendwo zu Instabilität führen und das kann bei Volllast aber auch im Idle oder Teillast dann passieren. Es gibt sicher genügen Intel RAM Guides, die das Mal zumindest einen Blick wert sind. Erst wenn das stabil eingestellt ist, würd ich auf die GPU schauen.
 
Hallo Yve
GPU Fans gehen sofort auf 100%
Hierbei sind zwei verschiedene Fehlermeldung signifikant:
"NVENC Error: nvenc_encode_tex: nv.nvEncMapInputResource(enc->session, &map) failed: 8 (NV_ENC_ERR_INVALID_PARAM)"
und
"NVENC Error: get_encoded_packet: nv.nvEncLockBitstream(s, &lock) failed: 4 (NV_ENC_ERR_INVALID_DEVICE)"
Umgestellt auf Software Encoder, und das Spiel konnte erstmal Problemfrei gestreamt werden, was aber keine Dauerhafte Lösung sein kann.
Auch wenn ich bei einem PC-Absturz erst an den RAM denke, sehe ich hier nichts was auf RAM-Probleme hindeutet. Das Fehlerbild und die Meldungen deuten klar auf die Grafikkarte hin. Dass die Lüfter auf 100 % aufdrehen kenne ich als Schutzschaltung wenn der Hotspot der Karte 110 Grad erreicht. Einen softwareseitigen Grund dafür kenne ich nicht. Die Fehlermeldungen könnten eventuell durch Installationsprobleme ausgelöst werden. Wenn man Windows und die Treiber aber mal frisch installiert hat, würde ich das auch ausschliessen. Ich würde eher vermuten, dass die Grafikkarte nicht ganz stabil läuft.

RAM-Probleme können sich manchmal auch auf die Grafikkarte übertragen. Wenn der RAM der Grafikkarte fehlerhaften Code liefert, läuft si natürlich auch nicht mehr richtig. Das führt aber eher zu Grafikfehlern und möglicherweise zu Neustarts des Grafikkartentreibers. Dass die Grafikkartenlüfter auf 100 % aufdrehen kann von mir aus gesehen aber nicht vom RAM oder der Installation kommen.

Einstellungen zum Encoder scheinen einen Einfluss zu haben. Das kann natürlich ein Softwareproblem sein. Aber auch da vermute ich eher dass die Grafikkarte nicht ganz stabil läuft und darum bei hoher Last mehr Probleme hat.

Ich würde einmal mit GPU-z oder HwInfo64 verfolgen wie sich die Temperaturen der Grafikkarte verhalten. Dann würde ich die Karte auch mal ausbauen, die Kontakte reinigen und wieder einbauen. Das Kabel am Netzteil und an der Karte würde ich mal frisch einstecken so dass da sicher überall guter Kontakt sicher gestellt ist.

Man könnte auch mal den Takt der Karte und das Powerlimit etwas senken oder die Spannung ein kleines bisschen anheben. Wenn es dadurch stabiler wird, liegt eindeutig ein Hardwareproblem vor.
 
  • Like
Bewertungen: Yve
Hallo Yve


Auch wenn ich bei einem PC-Absturz erst an den RAM denke, sehe ich hier nichts was auf RAM-Probleme hindeutet. Das Fehlerbild und die Meldungen deuten klar auf die Grafikkarte hin. Dass die Lüfter auf 100 % aufdrehen kenne ich als Schutzschaltung wenn der Hotspot der Karte 110 Grad erreicht. Einen softwareseitigen Grund dafür kenne ich nicht. Die Fehlermeldungen könnten eventuell durch Installationsprobleme ausgelöst werden. Wenn man Windows und die Treiber aber mal frisch installiert hat, würde ich das auch ausschliessen. Ich würde eher vermuten, dass die Grafikkarte nicht ganz stabil läuft.

RAM-Probleme können sich manchmal auch auf die Grafikkarte übertragen. Wenn der RAM der Grafikkarte fehlerhaften Code liefert, läuft si natürlich auch nicht mehr richtig. Das führt aber eher zu Grafikfehlern und möglicherweise zu Neustarts des Grafikkartentreibers. Dass die Grafikkartenlüfter auf 100 % aufdrehen kann von mir aus gesehen aber nicht vom RAM oder der Installation kommen.

Einstellungen zum Encoder scheinen einen Einfluss zu haben. Das kann natürlich ein Softwareproblem sein. Aber auch da vermute ich eher dass die Grafikkarte nicht ganz stabil läuft und darum bei hoher Last mehr Probleme hat.

Ich würde einmal mit GPU-z oder HwInfo64 verfolgen wie sich die Temperaturen der Grafikkarte verhalten. Dann würde ich die Karte auch mal ausbauen, die Kontakte reinigen und wieder einbauen. Das Kabel am Netzteil und an der Karte würde ich mal frisch einstecken so dass da sicher überall guter Kontakt sicher gestellt ist.

Man könnte auch mal den Takt der Karte und das Powerlimit etwas senken oder die Spannung ein kleines bisschen anheben. Wenn es dadurch stabiler wird, liegt eindeutig ein Hardwareproblem vor.
Der "Witz" ist ja, das die wie oben geschrieben z.B. bei Cinebench sauber läuft, wo die GPU ja richtig gefordert wird. Oder beim exakt selben Spiel (In dem Fall Diablo-4) an dem einem Tag 7h hintereinander einwandfrei läuft. Am nächsten Tag nach 3h ohne Auffälligkeiten gehen die Bildschirme aus und wieder an und Crasht weg.
HWinfo hatte er bei Resi 4 nebenbei offen, da war alles noch im Hellgrünen Bereich (Main-Menü vom Spiel), Stream gestartet mit NVenc lief paar Minuten -> Crash. Wieder gestartet, selbes Spiel, lief paar Minuten, er tabbt raus, crash.

Ich selber hab halt noch gar keine eigenen Erfahrung mit den RTX 4xxx Karten, PCIe 5, DDR5 oder dieser 12V ATX 3.0 Stecker mit Sensor-Leitung. Hatte gehofft, das da irgend ein schon bekanntes Problem im Setup ist, was mir google noch nicht ausgespuckt hat.
 
Der "Witz" ist ja, das die wie oben geschrieben z.B. bei Cinebench sauber läuft, wo die GPU ja richtig gefordert wird. Oder beim exakt selben Spiel (In dem Fall Diablo-4) an dem einem Tag 7h hintereinander einwandfrei läuft. Am nächsten Tag nach 3h ohne Auffälligkeiten gehen die Bildschirme aus und wieder an und Crasht weg.
HWinfo hatte er bei Resi 4 nebenbei offen, da war alles noch im Hellgrünen Bereich (Main-Menü vom Spiel), Stream gestartet mit NVenc lief paar Minuten -> Crash. Wieder gestartet, selbes Spiel, lief paar Minuten, er tabbt raus, crash.

Ich selber hab halt noch gar keine eigenen Erfahrung mit den RTX 4xxx Karten, PCIe 5, DDR5 oder dieser 12V ATX 3.0 Stecker mit Sensor-Leitung. Hatte gehofft, das da irgend ein schon bekanntes Problem im Setup ist, was mir google noch nicht ausgespuckt hat.
Du kommst also nicht mal eben an den Rechner ran.

CineBench ist doch ein CPU Benchmark, FurMark ist z.b. GPU.

Wurden denn mal alle zusätzlichen Programme aus gelassen und nur mal über ein paar Tage gespielt mit den bekannten Spielen die irgend wann mal Probleme machen?

Und was sind empfohlene Nvidia Settings?

Wenn ich z.b. ein Grafikkarten Profil erstelle,dann nehme ich mittlerweile dabei Auf weil die Last dann doch noch etwas anders ist als ohne Aufnahme.
 
Oben Unten