Frage Ryzen 9 5950X crash mit Prozessor-APIC-ID14 / WHEA-Logger 18

Status
Nicht offen für weitere Antworten.

Hellsingexe

Mitglied
Mitglied seit
Nov 20, 2020
Beiträge
35
Bewertungspunkte
12
Punkte
8
AMD Ryzen 9 5950X

Fehlerbild im Windows Event-Log:
Schwerwiegender Hardwarefehler.
Prozessor-APIC-ID: 14

EventLogSystem-Win8.1Pro.PNG

-> Der Fehler tritt zufällig während des Betriebs auf und ist unabhängig von Lastsituation und Temperatur.
-> Der Fehler führt zum sofortigen Crash des Systems.

=====================================================================

Verwendestes System:
Mainboard: ASUS Crosshair VIII Hero (Wi-Fi)
CPU Kühler: Fractal Design S36 Blackout
RAM: G.Skill F4-4000C18Q-128GTRG
GPU: Inno3D iChill Black 2080 Ti
PSU: Bequiet Dark Power Pro 11 1000Watt

Getetstete Mainbaords:
ASUS Crosshair VIII Hero (Wi-Fi) Mit allen verfügbaren BIOS Versionen die Ryzen 5xxx unterstützen:
Version 2311 -> Gleicher Fehler
Version 2402 beta -> Gleicher Fehler
Version 2502 -> Gleicher Fehler
Version 2702 -> Gleicher Fehler

Gigabyte B550 AORUS ELITE (rev. 1.0) Mit allen verfügbaren BIOS Versionen die Ryzen 5xxx unterstützen:
F10 -> Gleicher Fehler
F11i -> Gleicher Fehler
F11k -> Gleicher Fehler

Getestete Varianten:
-BIOS ALLES auf DEFAULT Settings (Jeweils für alle BIOS Versionen des ASUS und Gigabyte Boards)
-Windows 10 Pro 64Bit 20H2
-Windows 10 Pro 64Bit 1909
-Windows 8.1 Pro 64 Bit
-Linux Mint 20
-Ubuntu 20.04

-Windows im Höchleistungsmodus
-Aktuelle AMD Chipsatz Treiber installiert (2.10.13.408)
-LLC auf Level 3, und 4 fixiert
-PBO deaktiviert
-SMT deaktiviert
-DF Cstates auf "Disable" (Global C-state Control)
-GPU Getauscht gegen eine GTX 970 und eine GTX 560Ti -> Gleicher Fehler
-PSU getauscht gegen ein Seasonic Focus Gold 850 Watt -> Gleicher Fehler

Getestete RAM Kits:
G.Skill F4-4000C18Q-128GTRG
4 Riegel mit 3600MHz -> Gleicher Fehler
2 Riegel mit 2666MHz -> Gleicher Fehler
1 Riegel mit 2666MHz -> Gleicher Fehler

G.Skill F4-3600C17Q-64GTZR
4 Riegel mit 3600MHz -> Gleicher Fehler
2 Riegel mit 2133MHz -> Gleicher Fehler
1 Riegel mit 2133MHz -> Gleicher Fehler
1 Riegel mit 2133MHz und 18 / 22 / 22 / 42 Timings -> Gleicher Fehler
 
Zuletzt bearbeitet :
Lösung
Update von mir:
Der neue Austausch 5950X läuft jetzt seit 24 Stunden ohne Probleme
Sowohl unter Last als auch stundenlang im Idle

Hab ihn mal 5 Stunden ohne jegliche Last vor sich hin laufen lassen

-> Update vom 19.12.
CPU läuft nach wie vor Fehlerfrei, Rechner lief testweise 24 Stunden im Idle, 24 Stunden unter Last, 24 Stunden unter Mischlasten

-> Update vom 22.12
CPU läuft weitere 72 Stunden absolut fehlerfrei, egal welche Last und welches Verhalten

Keinerlei Fehler im Eventlog, problemloser Startvorgang

RAM Profil ist das XMP der neuen G.Skill Royal:
14 / 15 / 15 / 35 bei 1,45Volt und 3600MHz DRAM / 1800MHz FCLK

BIOS Version vom Crosshair VIII:
3003 mit AMD AM4 AGESA V2 PI 1.1.0.0 Patch C

-> Würde an der Stelle mal ganz frech...
Wenn’s möglichst unkompliziert und stabil sein soll, greife ich tatsächlich zu Kingston. Die Dinger laufen mit ihren angegebenen Settings echt bisher in allen meinen boards.

Bei Performance ist’s Gskill und Preis-Leistung Crucial.

Aber das ist nur meine persönliche grundsätzliche Richtschnur.
 
G.Skill verwendet bei "Performance" halt B-Dies von Samsung... die normalen Kits haben auch Micron B-E-D Dies drunter... mitunter sogar Hynix CJR (selten)


Kingston ist auch nen Mischhersteller, da kann man eigentlich nur anhand der Takt/Timing Zusammenstellung auf die Chips die verwendet wurden schließen. Allerdings hat Kingston irgendwie schon immer nen gutes Händchen für gute XMPs, das muss ich ihnen neidlos lassen (Verwende selbst gerne die HyperX Furys - die haben meistens Micron E-Die drunter)

Leider sieht man halt nicht ob Single oder Dual Ranked, außer es sind entsprechende Angaben mit bei... Die Hyper X Fury 3200 CL16 haben z.b. Micron E-Die (16Gb Singlerank, 32 Gb Dualrank bei jeweils nem Dualkit)


Bei Crucial sind immer Microns drunter, bei den neueren Kits (Bis 16Gb / Dimm Singleranked) meistens Micron B-Die, bei den etwas älteren dann Micron E-Die (Bis 8Gb / Dimm Singleranked, ab 16Gb / Dimm DualRanked)
 
Zuletzt bearbeitet von einem Moderator :
Das ist natürlich schön für dich. In meinem läuft eine andere 5950x cpu ohne Probleme mit exakt den selben Settings. Sogar oc war stabil.
Meine ist auch hart modifiziert, ich zweifle lediglich an dass hier jede CPu die das Fehlerbild aufweist defekt ist.
 
Ja, das ist exakt wie ich das auch am besten reproduzieren kann: Alle Anwendungen beenden (wirklich alle!), und nur CB20 Single-Core starten, dann besteht eine gewisse Wahrscheinlichkeit, dass es direkt crasht. Für meine Tests habe ich dafür ein kleines Skript geschrieben, indem ich CB20 in einer unendlichen Loop aufrufe:
Code :
:loop
start .\Cinebench.exe -g_CinebenchCpu1Test=true -g_acceptDisclaimer=true
timeout /t 10 /nobreak > NUL
taskkill /f /im Cinebench.exe
timeout /t 8 /nobreak > NUL
goto loop

Da es immer Anfang passiert, schiesse ich CB20 nach ein paar Sekunden ab, warte ein paar Sekunden (damit die CPU wieder in idle geht), und starte es dann wieder neu. Damit konnte ich relativ gut den Crash reproduzieren (bei höherer Stabilität, z.B. höherem Curve Optimizer All-Core Wert, hat es allerdings dann doch 30-90 Minuten gedauert, bis das den Crash getriggert hat).


Wie gesagt, ich hatte auch zuerst gehofft, dass das das Problem löst, aber dann ist er nach ein paar Tagen wieder gecrasht. Vielleicht kannst Du ja mal mein Skript oben mit Cinebench R20 laufen lassen und sehen, ob er das 2-3 Stunden überlebt. Wenn ja, dann gibt es Hoffnung, dass das bei Dir wirklich ausreicht. Allerdings ist es völlig absurd C-States zu deaktivieren nur um zu verhindern, dass CPB zu hoch boostet.

So ich habe jetzt mal Dein Skript 2x 2h laufen lassen und keinen Crash gehabt.
Auch ansonsten bin ich seit dem dem Deaktivieren der C-States frei von jeglichen Chrashes oder WHEA-Fehlern. Damit steigt die Hoffnung. dass es bei mir gereicht haben könnte.
 
Ich glaube wirklich, es ist nun alles gut. Der Rechner läuft 1a ohne Abstürze. Sogar der RAM läuft mit XMP-Profil mit 3600MHz, 18-22-22-42, 4 Riegel = 128 GB. Das hat der 3900X nicht geschafft. Nun bin ich glücklich...
 
Hallo an alle,

auch ich bin vom im Thread besprochenen Problem betroffen. Ich erhalte ebensfalls die WHEA Einträge im Event Log von Windows mit ID18. Bei mir ist es die APIC ID10. Aufgetreten in VMware Workstation, Cinebench und bei GFore Treiber Installation; jedes Mal APIC ID 10.

Wer den Fehler gerne reproduzieren möchte, der kann z.B. Cinebench (oder was anderes mit hoher Single Core Last) ausführen und diesen Prozess im Taskmanger - > Details -> Cinebench.exe bei Affinity auf den entsprechenden Core fixieren. Bei mir bei APIC ID 10 ist das der 9te Core.

Cinebench im Single Core Bench ausführen und Zack.

Vielleicht hilft es einigen Leuten.

Viele Grüße
Thomas

Edit: Bei nochmaligem Versuch nagelt der Taskmanger auf einem anderen Core fest. Obwohl Core 9 ausgewählt, arbeitet Cinebench auf Core 4. Bleibe aber dran.

In der Zwischenzeit ist die RMA Anfrage bei Mindfactory raus.
 
Zuletzt bearbeitet :
Wie ist denn deine genaue Hardware`?
 
Hallo Gurdi,

nichts Exotisches

AMD Ryzen 9 5950X
MSI MEG X570 ACE (BIOS 7C35v1D2)
32GB G.Skill Trident Z Neo DDR4-3600 DIMM CL16 Dual Kit
 
Bleibe am Affinity Setting weiter dran. Wäre doch schön, wenn man es zu 100% reproduzieren könnte. Eventlog APIC ID --> Affinity gesetzt - Crash
 
@Hi Bretho

Also APIC 10 hatte ich auch immer beim NVIDIA Treiber ( - solang ich das manuell probiere auch weiterhin - es geht nur über Nvidia Experience - automatisch - dann aber problemlos). Mein Eventlog ist inzwischen leer, seit ich den Ram wie beschrieben einstelle.

Wie ist dein Ram eingestellt (DOCP, manuell)?

P.S. Gerade die NVIDIA Geschichte kann auch von der Graka ausgehen oder dem Netzteil ( - ich sehe das grad bei mir nicht unbedingt bei der CPU).
 
Zuletzt bearbeitet :
Der RAM läuft nach XMP. Habe den schon seit ein paar Monaten und lief im früheren Rechner mit dem Core-i7 6700K mit XMP Profil ohne Probleme.

Den Nvidia Treiber hatte ich in meiner Liste, sehe den hier aber nicht als ursächlich. Mein Hauptanwendungsfall ist VMware mit vielen virtuellen Maschinen. Es geht, meiner Vermutung nach, eher darum, dass der Reset passiert wenn APIC 10 unter Last gerät und zwar Single Core (Full Throttle). Das war in all meinen schlechten Erfahrungen aber nur "unglücklicher" Zufall. Deswegen mein Ansatz, bestimmte "fordernde" Prozesse auf APIC 10 festzunageln; leider bisher mit mäßigem Erfolg. Das Affinity Setting im Task Manager will nicht gehorchen :)
 
@bretho

Also ich nutze Oracle virtual Box und nutze auch mehrere VM´s gleichzeitig (öfters). Ich habe bis auf NVIDIA Treiber auch keine Probleme. Außer ich aktiviere das DOCP Profil.....dann gehts überall rund. Cinebench ist auch völlig unaufällig bei mir. Läuft auch wie gesagt alles default bis auf den RAM. Kerne takten stellenweise mit bis zu 5,05 Ghz. Vlt. liegt meiner auch nur an der Grenze zu diesem von euch beschriebenen Verhalten.

P.S. Ich hatte letztes Jahr übrigens mit dem Nvidia Treiber auf einem von meinen anderen Rechnern auch so ein Problem, da war es offensichtlich ein Windows Funktionsupdate. Treiber brach mittendrin ab und quittierte dies mit einem kompletten Systemfreeze. Ging erst wieder zu aktualisieren mit dem nächsten Win-Fix ( - ist ein alter i7 950 mit ner GTX 780 Ti - war damals ein Hardwarefehler der laut log auch von der CPU ausging). Ich bestreite aber nicht das hier durchaus einige tatsächlich mit der CPU Probleme haben die durch einen Tausch erst gelöst werden können bzw. ein besseres Exemplar.

Ich hoffe ich bleibe davon weiterhin verschont - wenn nicht teste ich mal den Gold Status bei der Mindfactory :-D

EDIT: Beim R23 kommt er mit Default auf Multi = 25234 Pkt und Single = 1637 Pkt. ( wenn man hier vergleicht in Ordnung bzw. liegt in der Range - https://www.notebookcheck.com/R9-5900X-vs-R9-5950X_12782_12787.247552.0.html )

Beim 3d Mark sind es immer so zwischen 17 380 und 17 510 Pkt .....schwankt je nach Laune :)
 
Zuletzt bearbeitet :
Habe folgenden Eintrag im Forum hardwareluxx.de gefunden: https://www.hardwareluxx.de/communi...ehler-inklusive-reboot-was-tun.1284123/page-8

Ich habe 64GB RAM neu eingebaut und dachte mir: Die nutze ich nie bis an die Grenzen. Deshalb habe ich in den erweiterten Systemeinstellungen / Leistungsoptionen / Erweitertet den Virtuellen Arbeitsspeicher auf dem Systemlaufwerk C: ausgeschaltet (auf anderen LWs war er nie eingeschaltet). Nach einem Reboot hatte ich in kurzer Zeit WHEA-Errors - ohne Aufzählung der Prozente - einfach BlueScreen und Reboot. Hab den Virtuellen Arbeitsspeicher sehr rasch wieder auf "Grösse wird vom System verwaltet" gestellt. Natürlich ist nun das unnötige PageFile.sys mit 10GB wieder auf C: - aber seit da habe ich keinen einzigen BlueScree mehr gehabt. Und nochmals: Sorry, wenn das schon jemand anders angemerkt hat. - Vielleicht hilft das ja jemandem.

Keine Ahnung ob es da wirklich einen Zusammenhang mit den hier wie dort beschriebenen Fehlern gibt. Aber das kann man ja problemlos ausprobieren.
 
Habe folgenden Eintrag im Forum hardwareluxx.de gefunden: https://www.hardwareluxx.de/communi...ehler-inklusive-reboot-was-tun.1284123/page-8

Ich habe 64GB RAM neu eingebaut und dachte mir: Die nutze ich nie bis an die Grenzen. Deshalb habe ich in den erweiterten Systemeinstellungen / Leistungsoptionen / Erweitertet den Virtuellen Arbeitsspeicher auf dem Systemlaufwerk C: ausgeschaltet (auf anderen LWs war er nie eingeschaltet). Nach einem Reboot hatte ich in kurzer Zeit WHEA-Errors - ohne Aufzählung der Prozente - einfach BlueScreen und Reboot. Hab den Virtuellen Arbeitsspeicher sehr rasch wieder auf "Grösse wird vom System verwaltet" gestellt. Natürlich ist nun das unnötige PageFile.sys mit 10GB wieder auf C: - aber seit da habe ich keinen einzigen BlueScree mehr gehabt. Und nochmals: Sorry, wenn das schon jemand anders angemerkt hat. - Vielleicht hilft das ja jemandem.

Keine Ahnung ob es da wirklich einen Zusammenhang mit den hier wie dort beschriebenen Fehlern gibt. Aber das kann man ja problemlos ausprobieren.
Die Pagefile bleibt grundsätzlich vom System verwaltet; allerdings schränke ich es auf die C-Partition (bei mir NVMe-basierend) ein um die Auslagerung auf der schnellsten Platte zu belassen. Ich meine, im Standard Setting sucht sich Windows die Platte aus. Darauf vertraue ich aber ungern.
 

Anhänge

  • Page File.jpg
    Page File.jpg
    60,2 KB · Aufrufe : 4
Hat eigentlich jemand hier den Speicher mit einem 5900X/5950X auf 4000 Mhz mit fclk 2000 Mhz bringen können, wie es vor Erscheinen der Ryzen 5000 öfter die Runde machte?
 
Status
Nicht offen für weitere Antworten.
Oben Unten