Frage Fixed! PCIe 3.0 Riser Cable hat zu dem Problem geführt. Unregelmäßige Freezes nach Hardware Upgrade. Ich bitte um Hilfe!

Fabian Haupt

Mitglied
Mitglied seit
Mrz 17, 2023
Beiträge
15
Bewertungspunkte
6
Punkte
2
Hallo zusammen, ich benötige Hilfe beim Lokalisieren eines Problems.


Mein PC wurde vor 3 Wochen mit einem neuen CPU, Mainboard und DRR5 Ram bestückt. Seit dem hab ich in sehr unregelmäßigen Abständen 2-6 Stunden einen Freeze. Dabei Friert der Rechner innerhalb 2 Sekunden (kein Bluescreen)
ein und ich muss ihn Hard Resetten (kein Bluescreen)

Ich Spiele Hauptsächlich DCS, aber die Freezes sind auch bei anderen Anwendungen und sogar schon im Idle Zustand aufgetreten.

Ramtest 86 V10.0 sagt alles i.O. (2x 4h Laufzeit)
Intel Prozessor Diagnostic tool 64 ergab auch keinen Fehler.



Chipset Driver ist auf aktuellem Stand
Bios ist auf aktuellem Stand
Grafikarten Treiber ist auf aktuellem Stand
Windows ist auf aktuellem Stand (wurde jetzt mehrmals komplett neu aufgesetzt und zwischen Windows 10 und 11 gewechselt)



Intel I9 13900k (neu)
Alphacool Eisbaer AIO 420mm
Asus z790 Strix F (neu)
64Gb DDR5 6000 (neu)
Nvidia 3080Ti Asus Strix (von 2021)
1000W Be Quiet Dark Power Pro (von 2019)

Asus PG279Q Monitor
Samasung Sync Master 27zoll


Angeschlossene USB Geräte:

Tobii Eye Tracker
Thrustmaster Warhog Hotas A10
Thustmaster Penel Pedale
Steelseries Game Dac Headset
Seelseries Apex Tastatur
Steelseries Maus

Für jede Hilfe oder Tipps zur Fehleranalyse bin ich Sehr dankbar
😊

Interessanter weise habe ich in diversen Foren aktuell 13 leute gefunden mit exakt den selben Fehlerbild. Alle haben einen 13.gen CPU und ein Z790 Mainboard.
 

Anhänge

  • WHEA-20230316-2235.zip
    19,4 KB · Aufrufe : 7
Zuletzt bearbeitet :
Hallo Fabian

Es wäre möglich das der LGA1700 das Problem ist. Ein zu fest gezogenener Kühler führt nicht nur zu Problemen mit den Temperaturen sondern auch mit dem RAM.
Meist starten die Systeme dann zwar gar nicht erst aber es kann auch zu Problemen im laufenden Betrieb kommen. Auch unabhängig von der anliegenden Last.

Hier noch was zum lesen:

Edit:
 
Zuletzt bearbeitet :
Hallo Steffdeff,

vielen Dank für die Antwort. Das Thema mit dem 1700 Sockel hab ich mir schon angesehen. Ich habe sogar so ein Teil besorgt (Bild).

Nichts desto Trotz hab ich grad den Kühler und das Bracket neu montiert und dabei besonders darauf geachtet nichts zu fest anzuziehen.

Viele Grüße

Zudem hab ich auch das neuere Bios Runtergeladen und installiert von 0813 auf 0816.

Viele Grüße
71EOUADYsWL._SX522_.jpg
 
Willkommen Fabian
Mein PC wurde vor 3 Wochen mit einem neuen CPU, Mainboard und DRR5 Ram bestückt.
Wenn es vorher problemlos lief, fällt der Verdacht vor allem auf die neuen Bauteile. Das sind auch die zentralen Bauteile die meist für solche Abstürze verantwortlich sind. Es kann gut sein, dass der RAM nicht ganz stabil läuft, aber auch die CPU und das Mainboard können daran Schuld sein und wie erwähnt der CPU-Sockel.

Das Netzteil sollte eigentlich grosszügig ausreichen. Wenn das die Spannung nicht ganz genug stabil hält, kann das auch Instabilitäten beim RAM oder der CPU auslösen. Ich würde das nicht ganz als Ursache ausschliessen, aber es würde mich eher wundern wenn das hier Schuld wäre.

Eigentlich bleibt einem nichts übrig als einzelne der Bauteile auszutauschen oder in einem anderen PC zu testen. Als erstes würde ich einmal nur mit einem RAM-Stick (ohne XMP) starten und schauen ob es dann stabiler läuft.
 
Die schlechte Reproduzierbarkeit des Fehlers, gerade bei unterschiedlichen Lastzuständen, macht die Fehlersuche ungleich schwerer.
Leider sind meine Kenntnisse mit Intel Systemen ein wenig angestaubt, aber ich bin mir sicher das hier im Forum genug Experten unterwegs sind.

LG
 
Leider sind meine Kenntnisse mit Intel Systemen ein wenig angestaubt, aber ich bin mir sicher das hier im Forum genug Experten unterwegs sind.
Ich hab Intel, hänge aber noch bei DDR3 fest. Der hier verbaute DDR 5 hat schon einige Besonderheiten und Kinderkrankheiten von denen ich deswegen wenig Ahnung habe. Da kann ich auch nur altbewährte Tipps geben. Bei den Details höre ich auch nur interessiert zu. :unsure:
 
Den RAM würde ich auf jeden Fall mal auf zwei Module reduzieren, testweise auch auf eins.
Das wäre ein erster Versuch um zu sehen ob es dann stabiler läuft.
 
Beim RAM dachte ich das 4x16GB verbaut sind.
Deine 2x32GB mit 6000MHz konnte ich in der Kompatibilitätsliste von Asus nicht finden.
Dort ist 2x32GB mit maximal 5200MHz angegeben.
Hoffe ich hab nichts übersehen.
 
Hmm die stehen da leider nicht drin...
Tatsächlich hab ich da drauf nicht geachtet. ist das wirklich ein großes Problem?

zum aktuellen Stand: ich hab mit der neuen Bios Version deutliche unterschiede im HW monitor gesehen... es werden nun deutlich weniger TMPinX Temperaturen angezeigt und meine CPU Temperatur springt nicht mehr so wild durcheinander.

Ich hab aktuell nur einen 32Gb Riegel verbaut.

Zudem hab ich nun deutlich weniger Freezes.

mein Letzter: eventuell kann da ja jemand etwas rauslesen.


Viele Grüße

---------------------------------------------------------------------------------------------------------------------------------------------------------


Microsoft (R) Windows Debugger Version 10.0.25200.1003 AMD64
Copyright (c) Microsoft Corporation. All rights reserved.


Loading Dump File [C:\Windows\LiveKernelReports\WHEA\WHEA-20230318-1540.dmp]
Mini Kernel Dump File: Only registers and stack trace are available

Symbol search path is: srv*
Executable search path is:
Windows 10 Kernel Version 19045 MP (32 procs) Free x64
Product: WinNt, suite: TerminalServer SingleUserTS
Machine Name:
Kernel base = 0xfffff801`0fc00000 PsLoadedModuleList = 0xfffff801`1082a310
Debug session time: Sat Mar 18 15:40:53.383 2023 (UTC + 1:00)
System Uptime: 0 days 0:00:04.989
Loading Kernel Symbols
..

Press ctrl-c (cdb, kd, ntsd) or ctrl-break (windbg) to abort symbol loads that take too long.
Run !sym noisy before .reload to track down problems loading symbols.

.............................................................
................................................................
................
Loading User Symbols
Mini Kernel Dump does not contain unloaded driver list
For analysis of this file, run !analyze -v
nt!LkmdTelCreateReport+0x139:
fffff801`105830a1 0f1f440000 nop dword ptr [rax+rax]
8: kd> !analyze -v
*******************************************************************************
* *
* Bugcheck Analysis *
* *
*******************************************************************************

WHEA_UNCORRECTABLE_ERROR (124)
A fatal hardware error has occurred. Parameter 1 identifies the type of error
source that reported the error. Parameter 2 holds the address of the
nt!_WHEA_ERROR_RECORD structure that describes the error condition. Try !errrec Address of the nt!_WHEA_ERROR_RECORD structure to get more details.
Arguments:
Arg1: 0000000000000007, BOOT Error
Arg2: ffff878af03f6150, Address of the nt!_WHEA_ERROR_RECORD structure.
Arg3: 0000000000000000
Arg4: 0000000000000000

Debugging Details:
------------------


KEY_VALUES_STRING: 1

Key : Analysis.CPU.mSec
Value: 1531

Key : Analysis.DebugAnalysisManager
Value: Create

Key : Analysis.Elapsed.mSec
Value: 1640

Key : Analysis.IO.Other.Mb
Value: 0

Key : Analysis.IO.Read.Mb
Value: 0

Key : Analysis.IO.Write.Mb
Value: 0

Key : Analysis.Init.CPU.mSec
Value: 264

Key : Analysis.Init.Elapsed.mSec
Value: 9772

Key : Analysis.Memory.CommitPeak.Mb
Value: 82

Key : Bugcheck.Code.DumpHeader
Value: 0x124

Key : Bugcheck.Code.Register
Value: 0xe64ef120

Key : Dump.Attributes.AsUlong
Value: 18

Key : Dump.Attributes.KernelGeneratedTriageDump
Value: 1


FILE_IN_CAB: WHEA-20230318-1540.dmp

DUMP_FILE_ATTRIBUTES: 0x18
Kernel Generated Triage Dump
Live Generated Dump

BUGCHECK_CODE: 124

BUGCHECK_P1: 7

BUGCHECK_P2: ffff878af03f6150

BUGCHECK_P3: 0

BUGCHECK_P4: 0

PROCESS_NAME: smss.exe

STACK_TEXT:
ffffe58b`e64ef0d0 fffff801`1055e33f : ffff878a`f03f6130 00000000`00000000 ffff878a`f03f6150 00000000`00000022 : nt!LkmdTelCreateReport+0x139
ffffe58b`e64ef610 fffff801`1055e236 : ffff878a`f03f6130 fffff801`00000000 000000e8`00000000 000000e8`ec4ffac0 : nt!WheapReportLiveDump+0x7b
ffffe58b`e64ef650 fffff801`103cbc81 : 00000000`00000001 ffffe58b`e64efac0 000000e8`ec4ffac0 00000000`000002c0 : nt!WheapReportDeferredLiveDumps+0x7a
ffffe58b`e64ef680 fffff801`101d7cf7 : 00000000`00000000 ffff878a`f01f31f0 00000000`00000103 00000000`00000000 : nt!WheaCrashDumpInitializationComplete+0x59
ffffe58b`e64ef6b0 fffff801`1000d8f5 : ffff878a`f07c0000 ffff878a`effd6c90 ffffe58b`e64efac0 ffff878a`00000000 : nt!NtSetSystemInformation+0x1f7
ffffe58b`e64efa40 00007ffb`786505f4 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!KiSystemServiceCopyEnd+0x25
000000e8`ec4ffa68 00000000`00000000 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : 0x00007ffb`786505f4


MODULE_NAME: GenuineIntel

IMAGE_NAME: GenuineIntel.sys

STACK_COMMAND: .cxr; .ecxr ; kb

FAILURE_BUCKET_ID: LKD_0x124_7_GenuineIntel__UNKNOWN_IMAGE_GenuineIntel.sys

OSPLATFORM_TYPE: x64

OSNAME: Windows 10

FAILURE_ID_HASH: {5ea80f6a-69bf-5d6f-8fd2-cd87deb91a03}

Followup: MachineOwner
---------
 
Der Bugcheck Code 124 sagt das dein System die Notbremse zieht aufgrund von Hardwareschwierigkeiten. Die Software dürfte damit erstmal unverdächtig sein.
Im nächsten Schritt würde ich die default Einstellungen im BIOS laden und den RAM mit 5200MHz laufen lassen.
Auch wenn dein Board deutlich höhere Taktraten unterstützt kann es sein das dein RAM Kit für die Abstürze verantwortlich ist.
Vielleicht kann das jemand anderes viel besser einschätzen, @Casi030 zum Beispiel!
 
WHEA_UNCORRECTABLE_ERROR (124)
WHEA ist die Abkürzung für Windows Hardware Error Architecture. Diese Windowskomponenten untersuchen laufend ob die zentrale Hardware stabil läuft. Wenn Probleme auftreten versucht es diese zu beheben. Wenn schwerwiegende Probleme auftauchen die nicht behoben werden können, fährt es den PC herunter.

Der WHEA 124 hat bei dir als Parameter 1 den Wert 7 registriert: BUGCHECK_P1: 7
Der Wert 7 steht hier für einen Booterror.
GenuineIntel.sys ist eine Datei die vor allem beim Booten und herunter fahren des PCs verwendet wird. Das im Namen Intel vorkommt, deutet auf Probleme mit dem Prozessor hin.

Ganz klar kann ich das hier nicht zuordnen. Auch Probleme mit dem RAM oder Mainboard können manchmal als CPU-Probleme angezeigt werden. Wenn der RAM nicht stabil läuft, hat der Speichercontroller in der CPU auch ein Problem. Das hängt alles sehr eng zusammen.

Relativ klar ist aber wie schon SteffDeff sagt, dass es sich um ein Problem der zentralen Hardware handelt. Ich würde die Ursache vor allem bei CPU, RAM und Mainboard suchen. Das BIOS, die BIOS-Einstellungen und Chipsatztreiber können auch einen Einfluss darauf haben. Seltener kann auch irgend ein anderer Treiber oder ein angeschlossenes Gerät solche Fehler verursachen. Windows und die ganzen installierten Programme kann man als Ursache aber ausschliessen.
 
Hmm die stehen da leider nicht drin...
Tatsächlich hab ich da drauf nicht geachtet. ist das wirklich ein großes Problem?

zum aktuellen Stand: ich hab mit der neuen Bios Version deutliche unterschiede im HW monitor gesehen... es werden nun deutlich weniger TMPinX Temperaturen angezeigt und meine CPU Temperatur springt nicht mehr so wild durcheinander.

Ich hab aktuell nur einen 32Gb Riegel verbaut.

Zudem hab ich nun deutlich weniger Freezes.

mein Letzter: eventuell kann da ja jemand etwas rauslesen.


Viele Grüße
WHAE ist sozusagen der Hardware WatchDog, sobald die ECC Routine im Cache Fehler Meldet oder der PCI-Express Bus wird ein Windows WHEA Error getriggert.

Der Code deutet für mich auf ein Defektes Datei System hin.

1. CMOS clear machen im Ausgeschaltetem Zustand.
2. Load Optimal Bios/UEFI Defaults.

3. Prüfen im UEFI ob der Speicher mit standard Einstellunden läuft, kein XMP, am besten alles auf Auto nur die Tuning nicht.
4. Windows Booten und in der Power Shell: "chkdsk c: /f" Eingeben, er wird danach ein Neustart verlangen, machen.

Wenn er dann fertig ist und wieder im Windows, check nochmal deine Temp Werte. ;)
 
07 "Boot Error" heißt m.E.n. nur, dass ein Hardwarefehler während des Bootens festgestellt wurde, der freeze den du hast sieht eher nach einem wirklichen Hardwarefehler aus, bei Betriebssystemfehlern kann oft noch eine Fehlermeldung auf Bluescreen ausgegeben werden. Kann vieles sein, Speicher, CPU, Mainboard.
Wie oben schon ähnlich beschrieben:
BIOS unbedingt resetten und schauen ob mit Standardeinstellungen immer noch Fehler passieren.
Wenn es so auch mit Benchmarklast gut läuft, RAM stufenweise hochsetzen im Takt oder direkt XMP einschalten und RAM austauschen lassen bei Fehlern.
Wenn es mit Standardeinstellungen auch nicht wirklich läuft, wird es schwierig, Fehlerwahrscheinlichkeit bei Neuteilen meiner Erfahrung nach 1) RAM, 2) Grafikkarten, 3) Mainboard, 4) CPU.
Ohne Grafikkarte und alle USB-Geräte ausgesteckt hast du auch schon probiert?
 
Tronado hat mehr Erfahrung als meine Wenigkeit, zumindest was Intel & Nvidia Hardware angeht.

Aber im Grunde sind wir uns einig!
Wenn die Hardware Defekt ist, liegt es nicht an der Software !
 
Achso, freeze heißt wirklich freeze, also Bildschirm statisch, nichts geht mehr? Oder plötzlich schwarzer Bildschirm?
 
Achso, freeze heißt wirklich freeze, also Bildschirm statisch, nichts geht mehr? Oder plötzlich schwarzer Bildschirm?
ja also alles bleibt genau stehen bis ich den Rechner hart resette.


Ich hab mir jetzt am Wochenende und gestern nochmal die zeit genommen und wirklich alles auseinandergebaut und wieder neu zusammen gesetzt. Dabei ist mir Tatsächlich aufgefallen das der CPU kühler deutlich zu fest auf dem Mainboard aufgeschraubt wurde. Grund war das ich für die auf den Bildern vorgegebenen M4 Muttern 2,1mm nicht hatte und einfach die Dickeren 5,5mm Rändelschrauben verbaut habe, somit war die Feder Vorspannung extrem hoch.

hatte aktuell keine Freeses mehr seit dem, aber da ist es für eine Finale Aussage noch zu früh...

Zudem hab ich in der Lüftersteuerung die Drehzahlen deutlich erhöht um das System generell kühler zu halten.


Was mir aktuell aufgefallen ist das sich meine CPU Temperatur in idle Zustand bei ca. 40° Grad einpendelt.
Unter Last (DCS World Flugsimulator) bin ich bei ca. 70C° average und seit dem ich den neuen GPU Treiber installiert habe habe ich Spikes bis 96C° und Lastspitzen bis auf 240W!

diese Spikes sind aber so kurz das sie über das CPUID HW Monitor nicht sichtbar sind. sondern nur in der "max" anzeige auftauchen.

Kann das ein Problem sein oder ist das normal?

Vielen Lieben dank für die ganzen Antworten
 
Spikes bis 96C° und Lastspitzen bis auf 240W!
Eine 3080ti hat ein Powerlimit von 350 Watt. Da ist deine noch lange nicht an der Grenze. Welche Temperatur sind die 96 Grad? GPU-Temperatur oder Hotspot? Die GPU-Temperatur darf bei der 3080ti bis 93 Grad gehen. Ab dort regelt die Karte stark ab damit sie nicht wärmer wird. Problematisch für die Karte ist das nicht, aber natürlich nicht schön weil man nicht die volle Leistung ausschöpfen kann. Der Hotspot darf bis 110 Grad gehen.
 
Oben Unten