Frage Windows crasht regelmäßig unregelmäßig mit ID 161 + ID 41

Chrisspy

Mitglied
Mitglied seit
Feb 15, 2021
Beiträge
23
Bewertungspunkte
0
Punkte
1
Guten Abend zusammen,

ich bräuchte bitte mal Eure Hilfe bei einem Problem, das mich bereits seit September letzten Jahres beschäftigt:

Mein Rechner wirft für mein Empfinden sehr wahllos einen BSoD mit den Event IDs 161 (volmgr) und 41 (kernel-power), dabei ist es unerheblich ob der Rechner sich im Idle befindet, ich im Netz surfe, arbeite (z.B. Office-Anwendungen), oder spiele (aktuelle/ fordernde Titel genauso wie Klassiker bis hin zu DOSBox). Aufgrund der ID 161 werden leider auch keine Dump-Files geschrieben, da der Rechner hier ja bekanntlich die Verbindung zur Systemplatte verliert. Der im BS genannte Stillstandcode lautet grundsätzlich ‘WHEA_UNCORRECTABLE_ERROR.’

Anfangs trat der Fehler oft verhältnismäßig kurz nach dem Boot auf, durch ein paar Änderungen konnte ich ihn dann zwischenzeitlich eindämmen, so dass ich den Rechner zwischenzeitlich sogar Tage bis Wochen komplett ohne nutzen konnte - zuletzt bin ich aber bei mehreren BS pro Tag angelangt, meist mit einem Fehler verhältnismäßig zeitnah nach dem Boot (mal nach 5-10 Minuten, mal eine Stunde später) und in Abhängigkeit der Nutzungsdauer inzwischen auch noch einen zweiten zu späterem Zeitpunkt. Da ich nach Möglichkeit immer nur eine Änderung bis zum nächsten Ausfall tätige und diese für mich auch nach und nach protokolliert habe, dachte ich ich kann einfach die Schritte rückwärts zu einem stabileren Punkt zurückgehen, aber irgendwie geht der Plan aktuell nicht auf.

Mein System
(alles neue Komponenten, gekauft im August 2020/ zusammengebaut Anfang September. RAM und Netzteil sind diesen Monat erst dazu gekommen)

  • Mainboard: MSI B550-A Pro, ATX
  • CPU: AMD Ryzen 7 3700X 8x 3.60GHz (derzeit noch mit Boxed Kühler)
  • RAM: 32GB Kingston HyperX Fury Dimm-Kit (HX432C16FB3K2/32)
  • GraKa: 8GB ZOTAC Gaming GeForce RTX 2080 SUPER Triple Fan
  • 500 GB WD Black SN750 Gaming M.2 2280 (Systemplatte)
  • 2000 GB Intel 660P M.2 2280 (Datenplatte)
  • Netzteil: 750 Watt be quiet! Straight Power 11 Modular 80+ Gold
  • OS: Win10 64x
  • Tower: Sharkoon M25 Silent PCGH (1x 140-mm-Lüfter vorn + 1x 120-mm-Lüfter hinten)

Was ich bereits versucht habe (Windows):

  • System und Treiber (GraKa/ Chipsatz) sind auf dem aktuellen Stand, ebenso das BIOS (tagesaktueller Stand: 7C56vA5)
  • die GraKa betreibe ich mit dem ‘Game Ready’-Treiber von NVIDIA
  • der Chipsatz-Treiber für den Ryzen kam von der AMD-Website, nicht von MSI
  • Custom Power Plan für Ryzen 3000 Zen2-CPUs eingestellt, hierbei natürlich auch die zugehörigen BIOS-Einstellungen aus der Anleitung umgesetzt (hat nichts gebracht, ist unlängst wieder deinstalliert, aber war ein Streichholz das ich gezogen habe)
  • Windows-eigenen Power-Plan ‘Höchstleistung’, Ryzen-eigenen Power-Pläne die mit dem Chipsatztreiber kommen
  • Windows-Schnellstart deaktiviert
  • Hardware-Beschleunigung in meinem Standard-Browser (Opera) deaktiviert
  • Sämtliche OCCT-Test liefen ohne Probleme durch


Was ich bereits versucht habe (BIOS/ UEFI):

  • PBO ist deaktiviert
  • XMP-Profil 1 geladen (CL16-18-18-36 3.200 Mhz @1,35 V), ebenso unter JEDEC-Defaults mit 2.400 Mhz @ 1,2 V
  • VCore Offset auf + 0,05 V (einen höheren Wert nimmt mein Board nicht an, stellt die Eingabe automatisch auf 0,05 V zurück wenn ich es versuche)
  • POWER SUPPLY IDLE CONTROL hatte ich von AUTO auf 'Typical Current Idle' gestellt, weil es jmd. anderes im Netz bei diesem Problem geholfen hat, mir nicht
  • CPPC und CPPC Preferred Cores auf von AUTO auf DISABLED (selber Grund wie drüber), später wieder auf ENABLED, aufgrund des oben genannten Custom Power Plan für die Ryzen 3000 Zen2 CPUs
  • ProcODT/ On-Die Termination - den Wert von AUTO auf 53,3 Ohm ändern (selber Grund wie drüber)
  • CPU Load line Calibration Control von AUTO aus hochgearbeitet - sprich, mit wenig Spannung angefangen (Mode 7 von maximal 8, wobei Mode 8 kaum Spannung und Mode 1 maximale Spannung bedeuten) und dann nach jedem Absturz eine Stufe weiter


In letzteres, also die LLC, habe ich am meisten Hoffnung gelegt, da ID 161 meiner Recherche nach mit dem sog. ‘VDroop’ zu tun hat. Nur wo kommt er her und wie kann ich ihn endlich (!) zuverlässig beheben. Oder liegt der Fehler an einer gänzlich anderen Stelle und ich suche am völlig falschen Ort?

Aktuell läuft der Rechner im BIOS übrigens fast komplett auf Stock-Einstellungen; die ganzen Bulletpoints können also derzeit ignoriert werden. Die einzig aktiven Einstellungen sind, dass ich PBO weiterhin deaktiviert und die Bootreihenfolge geändert habe. Nicht einmal XMP ist derzeit aktiviert (aus Testgründen, sonst nichts).

Dadurch, dass der Fehler sich nicht zuverlässig reproduzieren lässt, bin ich völlig aufgeschmissen. Noch viel mehr dadurch, dass das Netz anscheinend voll ist mit Usern die ähnliche Probleme haben, auch hier im Forum - aber nirgendwo scheint es die eine Lösung zu geben die zuverlässig Abhilfe schafft. Außerdem würde ich mich als normalen User bezeichnen - vor diesem Problem war ich nie im BIOS meiner vorherigen Rechner (warum auch?), heute kenne ich mich dort bei diesem fast blind aus - habe daher aber auch keine Kiste mit Austausch-Hardware, so dass ich einfach ‘mal eben’ ein anderes Maiboard, eine andere Grafikkarte oder gar CPU testen könnte …

… ich bin fast so weit dass ich den Rechner wieder in seine Einzelteile zerlege und verkaufe. Das war auf jeden Fall der letzte Rechner den ich nicht als Komplettsystem gekauft habe.

Abschließend möchte ich gesagt haben dass ich weder Modder noch Overclocker bin, ich will eigentlich nur dass die Kiste stabil läuft und ich mich auf ihre Performance verlassen kann. Ob der Rechner durch irgendeinen Tweak im Cinebench noch 10 Punkte mehr rausholen kann, oder sonst was ist mir gelinde gesagt total egal 😁 Wenn es nicht ohne OC geht, OK, aber nehmt für mich keine Rücksicht darauf ob eine mögliche Lösung mit Performance-Verlust einhergeht.

Entschuldigt bitte diesen Roman zu später Stunde, aber ich hoffe einfach dass Ihr mir die Tomaten von den Augen nehmen könnt und mir bestenfalls wieder die Freude an meinem digitalen Kumpel hier ermöglicht. Solltet Ihr dazu weitere Infos, Fotos oder Screenshots benötigen lasst es mich bitte wissen, dann reiche ich diese schnellstmöglich nach - falls es etwas spezielleres ist gern auch mit Info woher ich die Daten bekomme.

Tausend Dank im Voraus für jeglichen Hinweis.
 
Egal welche Software hat es Schieberegler. Hier ist nur die Core Voltage in mV interessant. Die kannst du mal um 50 mV senken. Wenn alles läuft nochmals und so weiter. Am Anfang hat man eine Spannung von etwas über 1000 mV. Möglicherweise geht -150 mV oder -200 mV. Darunter wird es vermutlich schwierig.
Habe soeben mal ein Auge in die aktuelle Version von ZOTAC FireStorm geworfen und finde hier nur bedingt Einstellmöglichkeiten - siehe Screenshot. Grundsätzlich ist nur die rechte Seite interessant, aber Core Voltage in mV sind hier nicht verfügbar. Am Ähnlichsten wäre GPU Max Volt [%], allerdings steht der Schieber in den Defaults quasi auf AUS. Übersehe ich hier was?

Sonst fällt die Wahl doch eher auf Afterburner ...
 

Anhänge

  • firestorm.jpg
    firestorm.jpg
    188,5 KB · Aufrufe : 4
Ja, dass sieht eher mager aus. Was passiert, wenn du ganz links von Aotu auf Advanced umstellst? Ist das nur für die Lüfterregelung? Kannst du in den Einstellungen (Zahnrad rechts oben) irgend etwas in Richtung Spannungsregelung aktivieren. Bei GPU Max Volt wird ja ein Schlösschen angezeigt. Das bedeutet die Einstellung ist fixiert.
 
Ja, dass sieht eher mager aus. Was passiert, wenn du ganz links von Aotu auf Advanced umstellst? Ist das nur für die Lüfterregelung?
Ja, genau, links lässt sich nur der Lüfter einstellen.

Kannst du in den Einstellungen (Zahnrad rechts oben) irgend etwas in Richtung Spannungsregelung aktivieren.
Nein, hinter dem Zahnrad verbergen sich eher Einstellungen wie 'Firestorm beim Systemstart automatisch starten' und ein paar weitere Infos zur Karte - Boost Clock, Firmware, ... etc.

Bei GPU Max Volt wird ja ein Schlösschen angezeigt. Das bedeutet die Einstellung ist fixiert.
Richtig, das Schloss lässt sich aber mit einem Click öffnen. Danach erscheint ein Warnhinweis, dass falsche Einstellungen hier zur Instabilität und Crashes führen können. Eine Erklärung für den Regler habe ich aber nicht finden können - zumal wir ja eigentlich nach mV suchen und nicht nach Prozent.
 
Vermutlich ist es trotzdem die GPU-Spannung, auch wenn sie hier in % angegeben wird. In welchem Bereich kannst du den Regler verschieben?

Das Power Target kann mit dem Schieber ja nicht gemeint sein. Das wird in Watt angegeben und ist der Schieber "Power" weiter unten.
 
Der Regler lässt sich im Bereich 0 bis 100% verschieben, denke ich mal. Der Rechner ist inzwischen runter gefahren, aber ich schaue morgen nochmal genau nach.
 
Ich finde im Userbenchmark auch nichts auffälliges. Alle Werte sind so hoch, wie man es von den Bauteilen erwartet (ausser natürlich beim RAM ohne XMP).
 
Der Regler lässt sich im Bereich 0 bis 100% verschieben, denke ich mal. Der Rechner ist inzwischen runter gefahren, aber ich schaue morgen nochmal genau nach.
So, soeben nochmal nachgeschaut, es ist wie gedacht - der Regler geht von 0-100 %, wobei ich nicht einschätzen kann was die Einstellung dann schlussendlich bedeutet.

Heute hat mich der Rechner dann übrigens keine 2 Minuten im System 'überleben' lassen bevor es zum BSoD kam. Der Test ohne XMP ist damit beendet, jetzt schaue ich mal was das 2. XMP-Profil so kann. So langsam kotzt es mich wirklich tierisch an ...

... vor allem habe ich mir auch schon Gedanken gemacht in wie fern die Temperaturen in meinem gedämmten Gehäuse vielleicht zu stark steigen, aber direkt nach 2 Minuten? Ich meine, der Lüfter ist ja nicht aus, er arbeitet ja. Und nach dem Crash kann ich ja auch länger als 2 Minuten im System überleben. Was ist da los?
 
Wenn sich das Gehäuse stark aufwärmen würde, würdest du das an der austretenden Luft spüren. Die Luft sollte sich nicht mehr als 5 - 10 Grad erwärmen. Wenn es deutlich mehr ist spürt man das schon und sieht es dann auch an den Temperaturen von CPU und GPU. Man kann auch einfach mal das Gehäuse offen lassen und schauen ob das einen Unterschied macht.
 
Eben. Ist ja nicht so als wenn ich das noch nicht in Betracht gezogen hätte.

Nachdem der Rechner heute so schnell abgeschmiert ist hab ich danach noch eine Stunde Far Cry 5 gespielt, wobei die Lüfter durchaus hörbar angelaufen sind - wenn es an den Temperaturen liegen würde wäre der Rechner da ja definitiv nochmal ausgestiegen.
 
Würde es auch mal ohne volume 2 probieren, wenn dir die Arbeit machen willst. Vielleicht hast auch ne andere Platte zum Testen, wo kurz mal windows drauf machst?
 
Ein paar alte SATA-Platten habe ich wohl noch rum liegen und dank Acronis True Image sollte ich dabei doch auch das letzte Image meiner System-m.2 einfach auf diese Platte spielen können - ausreichend Platz wäre vorhanden.
 
Um Fehler der Installation auszuschliessen würde ich Windows lieber frisch installieren.

Ich habe hier noch was von Intel zu dem Problem gefunden. Da gibt es ein Tool um die CPU zu testen:
 
Um Fehler der Installation auszuschliessen würde ich Windows lieber frisch installieren.
Ist ein Argument, ja.

Ich habe hier noch was von Intel zu dem Problem gefunden. Da gibt es ein Tool um die CPU zu testen:
Aber das wird mir doch sicher bei einem AMD Ryzen-CPU nicht wirklich helfen, oder?
 
Kein Thema, ist auch mein erster - und je nachdem wie sich das Thema hier im Weiteren gestaltet wahrscheinlich auch mein letzter 🙄
 
wurde das problem gelöst?
 
Guten Morgen,

nein, leider nicht. Ich habe weiterhin viele Tipps und Tricks aus dem Internet ausprobiert (PCIe_0 auf Gen3 festgesetzt, Offset an NB/SoC, ...), aber es hilft alles nichts.

Mal habe ich ein bis zwei Wochen Ruhe, dann crasht der Rechner wieder täglich ohne dass ich etwas an Einstellungen/ durch Updates geändert hätte. Vollkommen willkürlich.

Bist Du ebenfalls betroffen?
 
Ich habe die ganze Geschichte nochmals durchgelesen. Ich habe den Eindruck, mit Einstellungen hast du genug gepröbelt. Noch mehr Einstellungen ausprobieren wird da kaum mehr was verändern.

Ich denke, da muss man weiter gehen und beginnen, Bauteile auszutauschen. Anders kann man nicht heraus finden, woran es liegt. Dem Fehlerbild nach, muss eine der zentralen Komponenten RAM, CPU, Mainboard instabil sein. Möglich ist weiterhin auch, dass das Netzteil durch die Grafikkarte manchmal zu stark einbricht. Ich würde mir als erstes eine neue CPU und anderen RAM bestellen und testen ob es damit läuft. Es ist natürlich schwierig, abzuschätzen, woran es liegt. In letzter Zeit habe ich hier im Forum viele mit solchen Fehlern gesehen, aber natürlich eher mit den neuen Ryzen 5000ern. Da hat erstaunlich häufig ein Ersatz der CPU das Problem gelöst.
 
RAM und Netzteil wurden bereits getauscht, müsste auch im Verlauf des Threads genannt worden sein - G.Skill auf Kingston HyperX bzw. 550W auf 750W, selbe Baureihe.

Bei allem Weiteren hört allerdings leider mein Anweder-Wissen und meine Anwender-Möglichkeiten auf: Ich habe keine Ersatz-CPU und erst Recht kein Ersatz-MB in der Ecke liegen und muss leider auch gestehen, dass ich nicht einmal wüsste welche Boards oder CPU ich in der Kombination der sonst vorhandenen Komponenten alternativ verwenden könnte 😔 Wie komme ich da weiter?

Klingt für mich stark nach Silicon-Lottery ...

Vor allem - wochenlang läuft alles, dann nicht mehr. Und wenn es crasht reicht ein Neustart, danach läuft der Rechner problemlos bis zum nächsten Shutdown. Das ergibt doch alles keinen Sinn 😕
 
Das ergibt doch alles keinen Sinn 😕
Da hast du nicht unrecht, aber leider gibt es das. Wenn RAM oder CPU nicht ganz stabil laufen, kann das ab und zu zu Fehlern führen. Das ist sehr schwer nachzuvollziehen, woran es liegt. Wenn es klar wäre, welche Komponente schuld ist, könnte man diese ja einfach einschicken. Aber es sind ja mehrere Komponenten, die zusammen funktionieren müssen.

Ein anderes Netzteil zu probieren hat sicher Sinn gemacht. 550 Watt kann bei einer RTX 2080 schon knapp sein. Mit 750 Watt sollte es aber funktionieren. Anderen RAM hast du auch schon probiert. Beim RAM ist auch häufiger die Kompatibilität das Problem als dass der RAM defekt wäre.

dass ich nicht einmal wüsste welche Boards oder CPU ich in der Kombination der sonst vorhandenen Komponenten alternativ verwenden könnte 😔
Grob gesagt geht mit jedem B550 oder X570 jeder Ryzen 3000er ohne Grafik, (4000er mit Grafik) und 5000er.

Falls es in deiner Nähe einen PC-Shop gibt, könnte man auch da nachfragen, ob sie einem die Komponenten testen könnten und Ersatzkomponenten zum wechseln da haben.
 
Oben Unten