Frage Ryzen 9 5950X crash mit Prozessor-APIC-ID14 / WHEA-Logger 18

Status
Nicht offen für weitere Antworten.

Hellsingexe

Mitglied
Mitglied seit
Nov 20, 2020
Beiträge
35
Bewertungspunkte
12
Punkte
8
AMD Ryzen 9 5950X

Fehlerbild im Windows Event-Log:
Schwerwiegender Hardwarefehler.
Prozessor-APIC-ID: 14

EventLogSystem-Win8.1Pro.PNG

-> Der Fehler tritt zufällig während des Betriebs auf und ist unabhängig von Lastsituation und Temperatur.
-> Der Fehler führt zum sofortigen Crash des Systems.

=====================================================================

Verwendestes System:
Mainboard: ASUS Crosshair VIII Hero (Wi-Fi)
CPU Kühler: Fractal Design S36 Blackout
RAM: G.Skill F4-4000C18Q-128GTRG
GPU: Inno3D iChill Black 2080 Ti
PSU: Bequiet Dark Power Pro 11 1000Watt

Getetstete Mainbaords:
ASUS Crosshair VIII Hero (Wi-Fi) Mit allen verfügbaren BIOS Versionen die Ryzen 5xxx unterstützen:
Version 2311 -> Gleicher Fehler
Version 2402 beta -> Gleicher Fehler
Version 2502 -> Gleicher Fehler
Version 2702 -> Gleicher Fehler

Gigabyte B550 AORUS ELITE (rev. 1.0) Mit allen verfügbaren BIOS Versionen die Ryzen 5xxx unterstützen:
F10 -> Gleicher Fehler
F11i -> Gleicher Fehler
F11k -> Gleicher Fehler

Getestete Varianten:
-BIOS ALLES auf DEFAULT Settings (Jeweils für alle BIOS Versionen des ASUS und Gigabyte Boards)
-Windows 10 Pro 64Bit 20H2
-Windows 10 Pro 64Bit 1909
-Windows 8.1 Pro 64 Bit
-Linux Mint 20
-Ubuntu 20.04

-Windows im Höchleistungsmodus
-Aktuelle AMD Chipsatz Treiber installiert (2.10.13.408)
-LLC auf Level 3, und 4 fixiert
-PBO deaktiviert
-SMT deaktiviert
-DF Cstates auf "Disable" (Global C-state Control)
-GPU Getauscht gegen eine GTX 970 und eine GTX 560Ti -> Gleicher Fehler
-PSU getauscht gegen ein Seasonic Focus Gold 850 Watt -> Gleicher Fehler

Getestete RAM Kits:
G.Skill F4-4000C18Q-128GTRG
4 Riegel mit 3600MHz -> Gleicher Fehler
2 Riegel mit 2666MHz -> Gleicher Fehler
1 Riegel mit 2666MHz -> Gleicher Fehler

G.Skill F4-3600C17Q-64GTZR
4 Riegel mit 3600MHz -> Gleicher Fehler
2 Riegel mit 2133MHz -> Gleicher Fehler
1 Riegel mit 2133MHz -> Gleicher Fehler
1 Riegel mit 2133MHz und 18 / 22 / 22 / 42 Timings -> Gleicher Fehler
 
Zuletzt bearbeitet :
Lösung
Update von mir:
Der neue Austausch 5950X läuft jetzt seit 24 Stunden ohne Probleme
Sowohl unter Last als auch stundenlang im Idle

Hab ihn mal 5 Stunden ohne jegliche Last vor sich hin laufen lassen

-> Update vom 19.12.
CPU läuft nach wie vor Fehlerfrei, Rechner lief testweise 24 Stunden im Idle, 24 Stunden unter Last, 24 Stunden unter Mischlasten

-> Update vom 22.12
CPU läuft weitere 72 Stunden absolut fehlerfrei, egal welche Last und welches Verhalten

Keinerlei Fehler im Eventlog, problemloser Startvorgang

RAM Profil ist das XMP der neuen G.Skill Royal:
14 / 15 / 15 / 35 bei 1,45Volt und 3600MHz DRAM / 1800MHz FCLK

BIOS Version vom Crosshair VIII:
3003 mit AMD AM4 AGESA V2 PI 1.1.0.0 Patch C

-> Würde an der Stelle mal ganz frech...
Ich hab die PCIE-Schnittstellen fest auf Gen4 gestellt. Der Rechner läuft jetzt ca. 45 min im idle ohne Absturz. Mal sehen, ob das noch länger hält.
 
hmm welches asus board genau hast du und welche Bios version ? und ist die Fehlermeldung bei dir genau gleich wie zb in meinem Bild vom fehler hier :
Screenshot (28).png

wäre wirklich toll wenn das bei dir nun läuft, dann stellt sich mir allerdings die Frage, was ist dann anders wenn der pcie-x auf die jeweilige Gen der Graka fixitert ist, anstatt das er sich das selber mit der Graka ausmachen kann und wie hängt das ganze mit einem Fehler im Cache der Cpu zusammen ?
 
@netterman:
Ich habe ein Asus ROG Crosshair Hero VIII Wifi. Als BIOS läuft die Versionsnummer 3003. Das ist die aktuelle Version von der Asuswebsite.
Der Fehler sieht bei mir genauso aus. Hier nochmal meine Fehlermeldung zum Vergleich.

Bisher läuft der PC ohne Abstürze. Er ist sogar nach einer Weile von allein in den Ruhemodus gewechselt und konnte auch problemlos wieder aufgeweckt werden. Die jetzige CPU hatte ich aber schon widerrufen. Morgen kommt die neue CPU. Falls das Problem sich tatsächlich damit erledigt, werde ich mir die besseren CPU von beiden aussuchen und die andere geht zurück. Mal schauen. Ich hoffe zumindest, es bleibt alles so.
 

Anhänge

  • Screenshot_20201216-203637_Threema.jpg
    Screenshot_20201216-203637_Threema.jpg
    650,3 KB · Aufrufe : 15
scheint wirklich der gleich Fehler wie bei mir zu sein. Danke für die Infos. Hoffe es bleibt fehlerfrei bei dir.

@Casi030
auch dir vielen Dank für den Tipp, wenn das wirklich die Lösung des Problems sein sollte. Dann hätte ich mir die RMA der Cpu sparen können. Trotzdem gut zu wissen falls es bei der Austausch Cpu, wenn ich mal eine erhalte wieder den Fehler geben sollte.
 
Der PC lief nun durchgehend ohne Fehler, auch mit XMP/DOCP 3.200 MHz (mehr ging auch bisher nicht wegen Vollbestückung). Jetzt ist der Rechner erstmal aus. Heute Abend geht der Test weiter.

@Casi030: Danke dir für den wertvollen Tipp. Auf diese Idee wäre ich nie allein gekommen.
 
So wie ich das einschätze sind die Kernel Power 41 Fehler eher mit dem GEN 3 fix zu beheben

Die WHEA Errors unterschiedlicher ID aber eher ein CPU Fehler

Die AMD RMA kam heute bei mir an
Ein versiegelter Prozessor, neu

==========================

Der neu gekaufte 5950X läuft übrigens nach wie vor wunderbar mit XMP und leichtem OC
 
Zuletzt bearbeitet :
Kommando zurück. Rechner ist wieder abgestürzt. Whea-Fehler ID 18, Kernel Fehler ID 41, Kernel-Fehler ID 28, Kernel-Fehler ID 29. Alles also beim Alten... :(
Nun hoffe ich auf die neue CPU morgen.
 
Bei mir hat das fixieren der PCI Gen. keinerlei Auswirkungen gehabt - das hätte mich auch sehr gewundert.
Ich habe mittlerweile ein bisschen mit meinen SSD rumgespielt, und herausgefunden, dass ich in dem Slot, der an der CPU hängt, Performanceprobleme habe, und in den Slots die am Chipsatz hängen, die Performance unverändert ist.
Das deutet auch darauf hin, dass entweder die CPU was hat, oder es innerhalb der Spezifikationen so eine große Bandbreite gibt, dass weniger gute Samples noch viel Optimierung durch ein neues BIOS benötigen.

@Hellsingexe: Du hast einen instabilen 5950X zur RMA geschickt und Dir in der Zwischenzeit einen anderen 5950X gekauft, und der läuft stabil? Was ist mit der CPU die vom RMA zurückgekommen ist? Läuft die stabil?
Du wärst dann erst der zweite oder dritte Fall, bei dem ein CPU Tausch tatsächlich geholfen hat. Ich habe jedoch schon von vielen Personen gelesen, die mittlerweile bei der dritten oder sogar vierten CPU sind, die immer noch instabil läuft.
 
@ccr
Genau, der instabile 5950X wurde per RMA getauscht
Den Austausch habe ich nicht geöffnet, direkt weiterverkauft

Und der in der Zwischenzeit neu gekaufte läuft bisher wunderbar, sogar mit XMP und OC
 
Ich habe jetzt auch mal ein RMA Ticket bei AMD eröffnet. Beim Verkäufer kann ich die CPU zwar auch noch retournieren, aber die rechnen in den nächsten Wochen mit keiner neuen Lieferung, dann stehe ich also überhaupt ohne CPU da. Sollte AMD sich nicht rechtzeitig melden, werde ich die CPU zurückschicken, und hoffen, dass ich irgendwo anders eine zu einem vernünftigen Preis bekomme.


@Amtswalter: mit PBO von Auto auf Enabled umgestellt läuft die CPU in CB23 statt mit 24k mit 29k Punkten - das ist also nur eine Frage des Settings, und ein niedriger Score wohl kein sicheres Indiz für eine "schlechte" CPU
 
@ccr
5950X ist derzeit bei Mindfactory lieferbar, Preis auch okay soweit

Die CB23 Werte kann ich so bestätigen
5950X mit PBO Auto macht ca. 25k im multi
Mit allen limits aus aber so ca. 29k
 
Mit PBO enabled bringt meiner 27700 im Cinebench. Nicht gerade berauschend. Ist wohl eher eine mittelmäßiger CPU, wenn sie nicht eh ein Problem hätte.

Bei Mindfactory habe ich bisher alle meine drei CPUs bestellt. Da ist es recht unkompliziert und verhältnismäßig günstig. Ich werde morgen nach meinem Umbau berichten, wie es mir mit der dritten CPU ergangen ist.
 
@Hellsingexe:
Du wärst dann erst der zweite oder dritte Fall, bei dem ein CPU Tausch tatsächlich geholfen hat. Ich habe jedoch schon von vielen Personen gelesen, die mittlerweile bei der dritten oder sogar vierten CPU sind, die immer noch instabil läuft.
Hast du eine Ahnung, wie die an die vierte CPU gekommen sind? Wenn man beim gleichen Händler alle paar Tage eine CPU per Widerruf zurückgehen lässt und eine neue bestellt, wird der ja auch verrückt und storniert einem die Bestellungen sicher irgendwann. So stelle ich mir das zumindest vor.
 
Habe ein PC vorkonfiguriert von einem PC Hersteller bekommen.

Bekomme auch sporadisch denselben Fehler:
'
Reported by component: Processor Core
Error Source: Machine Check Exception
Error Type: Cache Hierarchy Error
Processor APIC ID: 14
'
und nur im Leerlauf. Es kommt zum plötzlichen Reboot.

Beim Stresstest mit Stromverbrauch über 550Watt (mprime+furmark) treten keine Abstürze nach sechs Stunden Laufzeit auf.
Bislang trat der Fehler stets beim Leerlauf auf und kurz nach Einloggen
Kurz vor Abschluss der Windows 10 Installation kam es auch häufig zu zahlreichen Reboots.
Das Verändern der RAM Clock Einstellungen hat nichts gebracht.


Ist das eindeutig ein CPU Fehler?
Gibt es irgendwo ein offizielles Statement von AMD?

Systeminfo:
AMD Ryzen 9 5950X, MPG X570 GAMING PRO CARBON WIFI (MS-7B93),4x32GB Kingston KHX3200C16D4, MSI RTX 3090 VENTUS 3X OC 24G
 

Anhänge

  • hwinfo.txt
    183,8 KB · Aufrufe : 4
Zuletzt bearbeitet :
Mal Energiesparlampe Höchstleistung probiert ?
 
@Hellsingexe: die liefern leider nicht nach Österreich, und über meinen Mail-Forward wird es dann noch teurer, und kommt wohl auch nicht mehr in diesem Jahr an

@fjdsjdsk: das ist natürlich ärgerlich, das System war sicher nicht billig - im Moment kannst Du wohl nicht viel machen, ausser das System zurückzugeben oder darauf zu hoffen, dass MSI die Probleme irgendwann löst (MSI ist zwar nicht der einzige Board-Hersteller, bei dem die Probleme auftreten, aber dort dürfte es gehäuft passieren).
 
Der neue Ryzen ist eingebaut. Nach Start sind im Eventlog direkt wieder die Fehler Kernel Fehler ID 41, Kernel-Fehler ID 28, Kernel-Fehler ID 29 eingetragen. Bisher noch kein Absturz, aber aufgrund der anderen Fehler hab ich wenig Hoffnung.
 
Dass ein Problem in der Kommunikation zwischen Prozessor und Arbeitsspeicher vorliegt kann nicht sein ?
Auf wieviel MHz läuft denn der Infinity Fabric / Teiler ? Auf Auto ?

Ich habe nämlich mit meinem Speicher (Vollausbau, 4x32 >Mushkin red 3600) ziemlich rumgefummelt, bis ich (stabil)
letztlich bei 3200 18/22/22/22/42 gelandet bin, was wahrlich nicht heldenhaft ist, aber für weiteres Gefummele fehlen mir die Nerven,
wenngleich ich jetzt den dezidierten Fehler wie o. A. nicht hatte.
 
Das Problem ist leider sehr weit verbreitet und hat irgendwie nichts mit den Speichergeschwindigkeiten oder den Teilern zu tun.

Man kann z.b. 2400er Ram laufen lassen, bekommt dieselben WHEA 18 Fehler wie mit 3800er Ram... macht absolut 0 Unterschied.

Ich bin jetzt bei paar Rechnern seit ner Woche da hinterher und der letzte Patch C der Agesa 1.1.0.0 hat schon bisschen was gebracht, aber ist noch nichts gelöst - manchmal kann man z.b. ramtest oder memtest stundenlang laufen lassen, manchmal verabschieden sich die Kisten nach 10, 15, 30, 60... Minuten.

Habe diverse Ramkits versucht von NoName Timetec 3600er mit Hynix CJR über diverse G.Skill Kits mit B-Die von Samsung über diverse Crucial Kits sowohl mit Micron B-Die und C-Die als auch D Dies... keine Chance.

Privat wird heute mein 3700X wieder einziehen und der 5600X geht zu nem Kumpel zum Gegentesten - die anderen CPUs wurden schon gegen ihre Vorgänger ersetzt und sind in RMA... mal gucken.
 
Hi Ihr Lieben, würde mich einreihen mit dem hier beschriebenen Problem.

Fehlerbild:
Ohne und wenig Last kann zu sofortigen Neustart des Rechners (als wenn man den Strom abschaltet kurz) führen mit neuem 5950X.
Ähnlich wie ein Drücken des Reset-Knopf gestaltet sich das. Es tritt so zwischen 2-5min auf, wenn ich nichts mache, manchmal etwas länger.

System:
Mainboard: MSI x570 Pro-A (neustes Bios drauf, "7C37vHC1(Beta version)")
RAM: G.Skill D432GB 3600-17 Trident Z K2 GSK (2x 16gb in den richtigen Slots auf dem Mainboard)
Prozessor: AMD 5950X
Grafikkarte: Nvidia GeForce RTX 3080
Netzteil: Sharkoon WPM Gold ZERO 650W
SSD: Corsair SSD 1 TB 4.2/4.9G MP600 PCIe4.0 M.2
Kühler: 7 Fans auf lautlos und ein zufälliger Kühler der passt
Betriebssytem: Windows 10

Ich kann bestätigen, dass einzig eine einzelne Komponente getauscht wurde: vom AMD 3500X auf den 5950X. Alle Komponenten sind weniger als 2 Monate alt. Ein Wechsel auf den 3500X zurück behebt das Problem sofort, es tritt nie auf. Setze ich den 5950X wieder ein, tritt es wieder auf.

Ich habe probiert:
- 5950X mal in den ECO-Modus (um Temperaturspitzen, etc. auszuschließen)
- XMP an und aus (3600er RAM lief vorher perfekt, mit 2133mhz tritt das Problem gleich auf)
- diverse hier angesprochene Änderungen habe ich einzeln getestet: C State, Spread Spektrum, etc.

Aktuell ist meine "Lösung", bis ich etwas besseres finde:
- Stock und Es läuft immer etwas (Programme, Rendering, etc.)
- oder ich lasse Prime mit 1 Thread dauerhaft laufen oder eine andere Last
- oder ich schreibe manuell Takt und Volt fest, was natürlich extrem die Performance verschlechtern kann ich verschiedenen Szenarien "Modus Manuell" im Ryzen Master

Es wirkt extrem stark so, als wenn eine plötzliche Lastspitze aus dem Energiesparstates oder das Wechseln in Energiesparmodi irgendwie damit zusammen hängen könnten.

Ich habe unter https://www.amd.com/de/support/kb/warranty-information/rma-form ein RMA eingereicht am 19.12.2020 um 19:01. (Ich habe den Prozessor gewerblich gekauft).
 
Zuletzt bearbeitet :
Status
Nicht offen für weitere Antworten.
Oben Unten