Intel äußert sich intern zum "13th and 14th Generation K SKU Processor Instability Issue"

Redaktion

Artikel-Butler
Mitarbeiter
Mitglied seit
Aug 6, 2018
Beiträge
2.344
Bewertungspunkte
11.359
Punkte
1
Standort
Redaktion
Was bedeutet es wohl, wenn Intel ein Dokument mit dem Titel “Title Enhanced Thermal Velocity Boost (eTVB) May Miscalculate Frequency Limits” und der Unterzeile “Issue Description An incorrect frequency limit calculation may allow the processor to operate at a high frequency state at a high temperature” versieht? Genau dann wird es interessant, denn es geht ja seit Längerem um das Problem mit potentiell instabilen K-CPUs der 13. und 14. Generation und möglichen Folgeschäden. Es ist natürlich schade, dass man das nachfolgende Dokument mit einem NDA versehen und (noch) nicht als Grundlage einer öffentlichen Stellungnahme genutzt hat, aber vielleicht kommt das […] (read full article...)
 
So Sorry, an alle, ich möchte dem ganzen bla, bla und unwichtigen Gequassel hier über diese CPU´s mal eine Frage stellen und diese korrekt beantwortet wissen.

Was zur Hölle ist jetzt das Problem? Und undervolting macht keine CPU kaputt und was ist jetzt hier die genaue Lösung?
Was kann der Käufer der 13-14gen Intels tun?
Als Käufer hast du das gleiche Problem wie die Dieselskandal Betroffenen: für den Hersteller geht es um viel Geld und versucht alles kleinzureden mit Symptom-Behandlung. Ohne Sammelklage wirst du vermutlich an keinen Ersatz drankommen. Wenn man noch Widerrufen oder Reklamieren kann um sein Geld zurückzubekommen wäre das die beste Möglichkeit.
Das genaue Problem ist wohl ein Konstruktionsfehler: Minuten vor dem Crash ist ein drastischer Einbruch bei der RAM-Kommunikation zu bemerken - das deutet nicht auf ein "wird etwas heißer als erwartet" Problem hin wie bei OC üblich.

Inzwischen warnen Spieleentwickler und Game Hoster:



Möchte gern sone CPU kaufen, aber bei all dem hier, wird nur noch übel und keine Ahnung was man überhaupt noch kaufen soll.
Das hat sich seit Jahren nicht geändert: eine für deinen Fall passende AMD CPU. 7800X3D als bester Gaming-Prozessor oder 7950X3D als bester Allround-Prozessor oder für speziellere Anwendungen (insbesondere RAM- und/oder PCIe-lastig) einen Threadripper (oder Epyc wenns kein Windows sein muss).
 
Inzwischen warnen Spieleentwickler und Game Hoster:

Hier gibt es einige Dinge, die ich nicht so ganz nachvollziehen kann. Die Kombination aus 14900K + W680-Board ist selten, aber die Aussagen im zugrundeliegenden Video werfen erhebliche Fragen auf an der Richtigkeit eben solcher.

Z.B. wird sich darüber brüskiert, wie langsam doch DDR5-4200 sei. Auf dem Postscreen des Asus-Boards kann man 128 GB RAM und damit Vollbestückung erkennen. 4200 wäre weit außerhalb der Intel-Spezifikation! Die endet nämlich bei DDR5-3600. Ja richtig, DDR5-3600.

Dann ist vollkommen unbekannt, wie das Gesamtsystem gekühlt wird. Schaut man sich die benannten Asus-Boards und vor allem die Boards von Supermicro an, lebt die gesamte VRAM-Kühlung von extremem Luftstrom. Wenn die das klassisch in Desktop-Gehäuse gepackt haben (ja solche "Server-Anbieter" gibt es auch, z.B. Hostunlimited) und das Powerlimit eben nicht niedrig angesetzt wurde, geht das natürlich auch schief.

Denn im Video wird auch immer Video auf das niedrige Powerlimit verwiesen, weil W680-Board. Ohne irgendeinen Nachweis. Intel wollte sich ja bis zuletzt nicht dazu äußern, wo denn genau die Powerlimits nun liegen müssen, aber für die W680-Boards seien diese eingehalten worden? Aha.

Dazu werden ja nur die Aussagen von den Server-Betreibern wiedergegeben. Ein bisschen Stille-Post-Prinzip. Denn was hier augenscheinlich gar nicht richtig benannt wurde, ist die Tatsache, dass die Server-Betreiber gar keinen richtigen Hardware-Zugang haben und damit vermutlich auch auf die BIOS-Einstellungen. Denn hierfür müssen und dürfen lediglich beauftragte Techniker Handanlegen. Ich vermute mal, dass die Server auch nur geleast sind. Das würde auch erklären, warum es keinerlei Screenshots aus dem BIOS selbst gibt. Der Techniker sagt es dem Server-Betreiber, der Server-Betreiber wiederum Level1Techs...

Egal wie. Ich habe mir das im Video benannte Asus Pro WS W680M-Ace SE bestellt und werde heute noch einen 14900K ordern. Ich hoffe auf ein möglichst altes Board mit schön altem BIOS darauf.

Falls jemand Fragen oder Wünsche dazu hat, dann einfach melden. Schätze mal, dass ich das am Mittwoch im Stream auf Twitch abarbeiten kann.
 
Das Hauptproblem ist wohl, das die Probleme primär nach einiger Zeit auftreten (sowohl bei den Betreibern, den Entwicklern als auch bei den Spielern welche in diversen Spiele-Foren von Abstürzen berichten).
Sonst wäre das Thema auch schon viel früher hochgekocht.
 
Das Hauptproblem ist meines Erachtens eher, nichts Genaues weiß man nicht außer das einige behaupten irgendwas stimmt nicht und der Hersteller das offenbar auch nicht klar widerlegen kann bzw. auch schon versucht hat, dem entgegen zu wirken - leider bisher nicht mit Erfolg. Also spricht einiges dafür, dass WIRKLICH etwas nicht stimmt, aber was genau ist eben Stand jetzt leider völlig unklar.

Die Allgemeinheit rätselt und versucht sich mit Schwarmintelligenz an der Problemeingrenzung/-beschreibung und greift nach jedem Strohalm - scheitert aber leider auch.

ICH würde mir aktuell nen AMD kaufen. Aber nur meine Meinung.
 
Falls jemand Fragen oder Wünsche dazu hat, dann einfach melden. Schätze mal, dass ich das am Mittwoch im Stream auf Twitch abarbeiten kann.
Ja, würde mich interessieren, aber das eigentlich Problem, soll ja erst etwas später auftreten, wie bei einem Fahrzeug, nach längerer Nutzung. Und dein "Stream" keine Ahnung wo müsste man dann reinschauen?

Am besten bei YOutube hochladen und den Link dann hier posten, aber ganz ehrlich, ich bezweifle sehr stark, dass da etwas "erleuchtendes" bei rauskommt.

Nimms nicht persönlich, aber ich bin immer offen für "Experimente" ICH LIEBE Experimente ^^, deswegen schaue ich mir auch gern Romans (8bauer, Youtuber) Zeug an, aber in letzter Zeit hebt er einfach zu sehr ab und konzentriert sich zu wenig auf "brauchbares", "bezahlbares".

Er ist zu speziell geworden, als dass seine Beiträge für mich noch nützlich sind, außer für Unterhaltung.

Um was ich Igor und Roman gebeten habe, wurde auch nicht angegangen, aber eigentlich sehr wichtig, es ging in meiner E-Mail darum, dass jemand mit einer dickeren Brieftasche, sich mal mehreren AIO´s annimmt, so ab 90€ + aufwärts Segment, "als" diese "neu" herausgekommen und diese nach 1 Monat Dauerarbeit, irgendwo in einer Ecke mit nur einem NT angeschlossen, öffnet, um dann zu schauen wie viel "Ablagerungen" sich da bereits unten am Kühlblock befinden.

Die Sache ist die, ich hatte 3 AIO, jede war 100€+ Wert und bei jeder hatte sich nach 3 Monaten soviel Ablagerungen angesammelt, dass ich diese rauspulen musste und wieder auf Luftkühlung umgestiegen bin. Weil ich nicht einsehe, jedes Mal alles abzubauen.

Aufgefallen ist mir das halt nur, weil die Temp Performance, halt minimal abfielen. Erwähne das hier nur, weil es ja hier auch im Abstürze und Temp Probleme geht und dazu gehört halt auch eine optimale Kühlung, sonst wäre ich jetzt nicht so abgeschweift.

Und ich finde die Com hier definitiv besser als bei computerbase, wo ständig irgendein Mod um die Ecke kommt, sinnlos zensiert, bannt, weil dem was nicht schmeckt.
 
Ja, würde mich interessieren, aber das eigentlich Problem, soll ja erst etwas später auftreten, wie bei einem Fahrzeug, nach längerer Nutzung. Und dein "Stream" keine Ahnung wo müsste man dann reinschauen?

Gegen 15 Uhr am Mittwoch besuchst Du einfach mal Twitch und dort den Bereich Wissenschaft und Technik.

Um was ich Igor und Roman gebeten habe, wurde auch nicht angegangen, aber eigentlich sehr wichtig, es ging in meiner E-Mail darum, dass jemand mit einer dickeren Brieftasche, sich mal mehreren AIO´s annimmt, so ab 90€ + aufwärts Segment, "als" diese "neu" herausgekommen und diese nach 1 Monat Dauerarbeit, irgendwo in einer Ecke mit nur einem NT angeschlossen, öffnet, um dann zu schauen wie viel "Ablagerungen" sich da bereits unten am Kühlblock befinden.

Du, ich habe erst letzte Woche so ein Dutzend noch funktionierende Xilence-AIOs aus meinen Miet-PCs ausgebaut. Die liegen da jetzt herum, bis der Sondermüll kommt. Wenn sich dafür eine andere sinnvolle Verwendung für die Öffentlichkeit findet, gerne melden.

Ich traue den Dingern auch keinen Meter. Zurecht, denn ich laufe der Jahre sind mir nach und nach von allen möglichen Herstellern die AIOs weggestorben. Ich setze nur noch auf Luft. AIO nur noch in absoluten Ausnahmefällen.
 
@Pokerclock: könnte man nicht die Radis wiederverwenden, indem man da normale Fittings ranschraubt? Bei den Alphacool AIOs ging das unproblematisch. Oder sind die aus Alu?
 
Dazu werden ja nur die Aussagen von den Server-Betreibern wiedergegeben. Ein bisschen Stille-Post-Prinzip. Denn was hier augenscheinlich gar nicht richtig benannt wurde, ist die Tatsache, dass die Server-Betreiber gar keinen richtigen Hardware-Zugang haben und damit vermutlich auch auf die BIOS-Einstellungen. Denn hierfür müssen und dürfen lediglich beauftragte Techniker Handanlegen. Ich vermute mal, dass die Server auch nur geleast sind. Das würde auch erklären, warum es keinerlei Screenshots aus dem BIOS selbst gibt. Der Techniker sagt es dem Server-Betreiber, der Server-Betreiber wiederum Level1Techs...

Das besagte WS-Board und alle Serverboards verfügen über einen AST2600 oä. BMC-Controller inkl. IPMI Interface.
Damit ist der Zugriff aus der Ferne auf das BIOS inkl. BIOS Updates zumindest möglich.
 
Abwarten. Ich schaue mir das jetzt selbst an. Im Gegensatz zu den YT-Protagonisten besorge ich mir die Hardware einfach selbst.

Wer Lust hat mitzumachen, kommt am Mittwoch ab 15 Uhr mal bei Twitch vorbei in der Rubrik Wissenschaft & Technik.
 

Anhänge

  • PXL_20240716_125413104.jpg
    PXL_20240716_125413104.jpg
    305,4 KB · Aufrufe : 8
  • PXL_20240716_125428185.jpg
    PXL_20240716_125428185.jpg
    252,9 KB · Aufrufe : 8
Abwarten. Ich schaue mir das jetzt selbst an. Im Gegensatz zu den YT-Protagonisten besorge ich mir die Hardware einfach selbst.

Wer Lust hat mitzumachen, kommt am Mittwoch ab 15 Uhr mal bei Twitch vorbei in der Rubrik Wissenschaft & Technik.
Wird aber ein langer Stream das ein paar Monate laufen zu lassen, bis die Fehler auftreten (Intel tauscht die wohl nicht mehr so ohne weiteres um, haben von VW gelernt) :p
 
Meine Hypothese ist ja, dass da etwas anderes Schuld an den Problemen bei den angesprochenen Serverfarmen haben könnte.

Wenn ich da ab Start mit einem älteren BIOS Default 4096 Watt und >500 Ampere sehe, während die VRM-Kühlung weg glüht, brauche ich keinen Langzeittest mehr, um die Aussagen im Video als "nicht haltbar" zu entlarven.

Andersherum, kann ich die Aussagen im Video aber direkt bestätigen, wenn diese Kombination thermisch wie elektrisch keinerlei Auffälligkeiten zeigt.
 
Die Tests sind abgeschlossen und so einige Aussagen im YT-Video von Wendell kann man als offenkundig falsch entlarven. Hauptsächlich, weil versäumt wurde, die Aussagen der Serverbetreiber mit einem eigenen W680-System gegenzuchecken.

Das war ein recht aufregender Test dieses Boards.

https://www.asus.com/de/motherboard.../helpdesk_bios?model2Name=Pro-WS-W680M-ACE-SE

Produktion 12/2023. Es war das 14. Gen Release BIOS 2208 installiert. Ich habe nicht mehr gemacht als die Defaultsettings zu laden. Tja: iccMAX 500 A. PL1/PL2 253 Watt. PL1 hat sich dann wiederum verringert über eine aktivierte "Auto" Zusatzoption "Motherboard Capability" auf nur noch 175 Watt laut HWinfo.

Von 125 Watt habe ich nie etwas heute gesehen. Also, wer da auch immer alles von 125 W bei W680 ist Standard philosophiert hat, kompletter Blödsinn.

Die Tatsache, dass das Board 500 A zulässt, lässt mich jeden Kommentar anzweifeln, der Elektromigration durch falsche bzw. zu hohe Mainboardeinstellungen als mögliche Ursache für die CPU-Ausfälle negiert. Oder anders ausgedrückt - auch weil im YT-Video die notwendigen Zusatzinformationen fehlen - die (vermutlich einfach nur wiederholten) Aussagen von Wendell bzw. den Serverbetreibern kann ich so nicht ernst nehmen. Punkt. Wenn die Aussagen zu den Powerlimits schon zwischen falsch und schwammig schwanken, wer sagt mir das der ganze Rest zu den hardwarerelevanten Aussagen richtig sind?

Die VRM-Kühlung kam im offenen Aufbau hervorragend mit allem zurecht. Leider konnte genau der VRM-Sensor nicht mit den bekannten Tools ausgelesen werden. Nur im BIOS selbst. Ich denke aber, dass die VRM-Kühlung bis 253 Watt funktionieren wird bei guter und direkter (!) Belüftung. Zwischenzeitlich habe ich 1,528 Volt auf den Kernen gesehen. Na, ob das gesund ist, auf Dauer?

Wie sich später herausstellte, waren auch 280 Watt konstant drin, denn:

BIOS-Update auf die Version 3602 brachte Intel Default Settings, die Standard aktiviert waren: 307 A, PL1 253 Watt PL 2 253 Watt. Dieses Mal waren es echte 253 Watt, denn die wundersame Grenze von 175 Watt bei PL1 war plötzlich verschwunden. Noch mehr Leistung und Hitze als vorher. Cool! Also wer auf Besserung nach dem BIOS-Update hoffte, wurde hier bedauerlicherweise enttäuscht.

Ganz neu war die Option eines Asus OC Profils. Ja korrekt. Das Workstation- aka Serverboard bekam ein echtes OC-Profil. Wer das aktivierte, bekam erst einmal eine eindringliche Warnung vor verringerter Lebensdauer und Stabilität. Und was wurde eingestellt? 511,75 A PL1 175W (dieses Mal echte) PL2 253W. Richtig gutes Feature. Durch das geringe PL1 war der effektive Kerntakt langsamer als mit den Intel Default Settings (253 Watt). Toll! Doch woher kennen wir diese Settings? Richtig, das sind die Settings der älteren BIOS-Versionen. Was vorher Standard war, ist nun "Lebensdauer- und Stabilitätsverringernd". Schwarz auf weiß bzw. grau auf blau. Vom Mainboardhersteller verbrieft.

Die ganz Harten konnten auch 4095 Watt PL1/PL2 einstellen. Hat da noch wer behauptet, das geht überhaupt nicht mit den Boards? Falsch! In der Spitze 336 Watt herausgepresst, mit 40 €-Luftkühlung. Im Durchschnitt 280 Watt...

Ich stelle den Verdacht in den Raum, dass die angesprochenen Serveranbieter teilweise oder ganz von Anfang an die zerstörerischen Default-Powersettings nutzten und sich so - wie alle betroffenen Consumer auch - ihre CPUs gehimmelt haben. Bei 24/7-Betrieb kann das durchaus schnell gehen. Wendell hätte es gut getan einfach mal ein eines der betroffenen Boards zu nehmen und sich selbst ein Bild zu machen, ob die Aussagen der Serveranbieter so plausibel sein können. Er hätte das gesehen, was ich gesehen hätte und hätte mindestens noch einmal nachfragen müssen. Hat er leider nicht getan.


it's actually useful w680 was created to
go along with motherboards designed for
maximum stability neither Asus nor super
micro motherboards really support giving
tons of extra power to the CPU or doing
insane overclocking for things on a
desktop so I really don't think both
Asus and super micro have colored really
far outside the lines on this
motherboard and I really don't think
Super Micro or Asus have just lazily
copy paste the voltage settings from
their desktop motherboards to the server
class motherboard boards

Zum Vergrößern anklicken....

1zu1 aus dem YT-Transkript kopiert. Diese Aussage ist falsch und das konnte ich schlicht durch die Inbetriebnahme des im Video gezeigten Asus-Boards widerlegen. Daran sieht man sehr gut, dass er die Aussagen der Server-Betreiber nur wiedergibt, aber nichts persönlich verifiziert hat.

Was ich mir von Wendell wünsche würde, wäre ein Recap bei den Serveranbietern in Bezug auf neue Systeme, die ausschließlich mit den neuen BIOS-Versionen genutzt wurden. Wird vermutlich nicht passieren. Aber hey, ich hatte meinen Spaß.

Das Testsystem liegt noch auf dem Workbench und macht gerade RAM-Tests. Scheine Glück gehabt zu haben 4x 16 GB laufen mit DDR5-5600. Wer noch etwas getestet haben möchte, einfach melden!
 
Habe mir sowas ähnliches schon gedacht, daher habe ich mich auch von Anfang an, mit undervolting und powerlimits beschäftigt. Außerdem verstehe ich eine sache überhaupt nicht, in "Serverfarmen" kommen "eigentlich" spezielle Server Mainboard und CPU´s zum Einsatz, warum zur Hölle sollte man für eine Serverfarm "Desktop" Hardware benutzen? Würde ich das machen, würde ich jedes Bios entsprechen einstellen, auch wenn das viel Arbeit macht, aber ganz sicher nicht alles auf Standard laufen lassen. Also merci für deine Arbeit, peace!
 
weil man für diese Spieleserver einen hohen Kerntakt benötigte, das bieten die Xeons nicht. Motherboards waren W680 serverboards, speziell zum Einsatz von S1700 CPU.
 
Spieleserver sind halt einfach nicht „mission critical“ - da braucht es viele Features nicht, die sonst unverzichtbar sind (z.B. ECC RAM), sondern die müssen einfach am liebsten hohe Performance (Games lieben immer noch Singlethread-Takt, oder zumindest CPUs mit hohem Takt auf wenigen Cores als Core-Monster) bringen und gerade so noch zuverlässig (=ohne Absturz) laufen. Das spricht dann schon aus Kostensicht eben sehr für die i-CPUs statt den teureren Xeon.
 
Spieleserver sind halt einfach nicht „mission critical“ - da braucht es viele Features nicht, die sonst unverzichtbar sind (z.B. ECC RAM), sondern die müssen einfach am liebsten hohe Performance (Games lieben immer noch Singlethread-Takt, oder zumindest CPUs mit hohem Takt auf wenigen Cores als Core-Monster) bringen und gerade so noch zuverlässig (=ohne Absturz) laufen. Das spricht dann schon aus Kostensicht eben sehr für die i-CPUs statt den teureren Xeon.
DDR5 hat die Bitflip Korrektur von ECC schon drinnen ("Built-in Data Checking"). Klingt aber auch so, dass die keine e-Cores gebrauchen könnten (analog zu Virtualisierungs-Server).
 
Zuletzt bearbeitet :
Nein, das ist keine echte ECC Fehlerkorrektur, die den vollen Weg von CPU zum RAM, im RAM und zurück zur CPU abdeckt. Weit verbreiteter Irrglaube. Ja, besser als nix, aber eben nicht das, was man unter ECC eigentlich versteht.
 
Nein, das ist keine echte ECC Fehlerkorrektur, die den vollen Weg von CPU zum RAM, im RAM und zurück zur CPU abdeckt. Weit verbreiteter Irrglaube. Ja, besser als nix, aber eben nicht das, was man unter ECC eigentlich versteht.
Korrekt, ich habe es auch explizit nicht ECC genannt - Lesen hilft da.
Es werden Bitflips IM RAM erkannt (1 Bit erkannt/korrigiert), die mit Abstand häufigste Ursache von RAM-Fehlern (daher zielt auch der bekannte Rawhammer Angriff darauf ab).

 
Wo ist denn dein Problem? Ich schrieb - auch nur in einer Klammer - auf die Frage warum i- CPUs in Servern, dass man für Gameserver u.a. sowas wie ECC RAM im Sinne von „echter ECC-Funktionalität“ nicht braucht. Dann schreibst Du irgendwas von DDR5 Bitflipp ECC und ich habe nur klargestellt, dass dieses nicht das ECC ist, was man in Servern haben will, wenn man es denn mit der Datenintegrität ernst meint. Und jetzt schreibst Du, dass Dir das alles klar ist. Viel Wind um nix und bei Dir keinerlei Bezug zu irgendeiner Fragestellung, oder hab ich was übersehen?
 
Oben Unten