AMDs Scalable Voltage Interface 3 (SVI3) für Dummies und wie man überprüfen kann, ob das AM5-Mainboard SICHER ist

Igor Wallossek

Format©
Mitarbeiter
Mitglied seit
Jun 1, 2018
Beiträge
10.198
Bewertungspunkte
18.815
Punkte
114
Alter
59
Standort
Labor
Fürchterliche SoC-Spannungen überall! AMDs neuer Schrecken! Sagt YouTube. Aber um mehr über dieses Problem zu erfahren und zu verstehen, warum auf den ersten Blick alles anders scheint, als es in Wahrheit nun einmal ist, müssen wir zur Quelle zurückkehren, die nichts anderes als SVI3 ist. In diesem Artikel werde ich heute versuchen, mehr Licht in (read full article...)
 
Wenn Du mir aber Deine Telefonnummer gibst, leite ich das gerne weiter und Du darfst dann erklären, warum da kaputte Videodateien durch instabilen RAM entstanden sind. ;)

Wenn die Datenintegrität so wichtig ist (und weiter oben hast du Blackmagic Karten erwähnt) - wie schauts mit richtigem ECC RAM aus?
Oder geht die Liebe der Kunden zur Datenintegrität vs dem Preis so weit dann doch nicht?

Ich weiss allerdings auch gar nicht genau, wie es mit der Kompatibilität echter RDIMMS auf AM5 steht.
 
Man kann leider nicht im Silizium messen :D

Aber es sind einige Dinge, die einen schon stutzig machen. Am Ende können sich ja auch die Boardpartner nur auf das verlassen, was die CPU mit den VRM auskungelt. Der AGESA-Staatssekretär ist genauso verfilzt wie das wahre Leben. :D
Na Gott sei Dank kann man dort nicht messen Igor, denn so wie ich Dich einschätze, hättest Du es doch sofort gemacht 😀👍 Danach hättest Du wahrscheinlich einen neuen Freund mit Namen „Nowitschok“ gehabt 😉 Ist jetzt, seit kein Gas mehr fließt, vielleicht ein Exportschlager auf dem
Markt, wer weiß 😉 Wenn ich mir die überheblichen Marketingchefs von AMD so anschaue - Geld haben die wohl genug 😉 Hoffe Du magst ein wenig schwarzen Humor 👍😀
 
🤣😀👍
 
Man kann leider nicht im Silizium messen :D

Aber es sind einige Dinge, die einen schon stutzig machen. Am Ende können sich ja auch die Boardpartner nur auf das verlassen, was die CPU mit den VRM auskungelt. Der AGESA-Staatssekretär ist genauso verfilzt wie das wahre Leben. :D
Bei SVI3 haben wir drei Schienen, Kern, SoC und VDD, daher muss im Steuerpaket das erste Byte für drei Optionen anstelle von zwei bei SVI2 verwendet werden.
Ich hab weniger den Eindruck das die svi3 Ausgabe nicht plausibel war, da gab es ja durchaus „dramatische“ Werte. Das die geschönt oder zu niedrig waren wäre mir persönlich nicht aufgefallen bei den ganzen threads die so seit April immer wieder diskutiert wurden. Das mit der in svi3 neu hinzugekommen VDD ist der Punkt der mir eher Gedanken macht welche in den selben 3 Bytes mit Übermittelt wird wie bisher nur die beiden Schienen von SVI2 …
 
Wenn AMD es nicht will, werden wir es sicher nie erfahren. :(
 
Wenn AMD es nicht will, werden wir es sicher nie erfahren. :(
Alles andere ist halt schwer nachvollziehbar und das macht in Zusammenhang mit EXPO das ja auch die VDD vorgibt am meisten Sinn.
Eigentlich traurig, andererseits passt es ja perfekt in die Jammertal-Serie der verganenen Hardwarewochen und würde sicht nahtlos bei den ungeeignete Wärmeleitpasten und schlecht montierten Kühlern einreihen :D

Da haben sich vermutlich viele CPUs lange Zeit etwas über den 1.3V ( die ich pers schon als grenzwertig erachte) bewegt. Das wird bei der Lebensdauer noch interessant in den nächsten Monaten ... Gebraucht würd ich mir so ein Ding in der nächsten ZEit nicht kaufen denn da dürften die ein oder anderen Schaltkreise den Verschleiß in "Hundejahren" abgespult haben :)
 
Zuletzt bearbeitet :
Wenn AMD es nicht will, werden wir es sicher nie erfahren. :(
Genau das. Die waren wahrscheinlich recht froh über die Erkenntnis, es würde sich auschließlich um eine zu hohe SOC Spannung handeln. Da ist die Schuld auch bei anderen zu suchen, und das Pflaster hält erstmal.

Was wir von Tag 1 an wussten, es besteht die geringe Wahrscheinlichkeit, dass es zu einem Totalausfall kommen kann. Noch vor dem Thermal Runaway, den dann auch niemand mehr als Fehler erkennt, muss es zu einem Betriebszustand kommen, der das was dann folgt erst möglich macht. Das ist ein grundsätzliches Problem, und keines vom Mainboard.
Das im weiteren Verlauf niemand etwas gegen die Ampere hat, welche dann fleißig vom VRM geliefert werden, ist ein weiteres Problem. Mag eine Nachlässigkeit sein, niemand hat je vermutet das sowas passiert, es wurde offenbar kein ausreichendes Risikomanagement betrieben.

Aber das grundsätzliche Problem bleibt bestehen. Ob da durch weniger als 10% Spannungsreduzierung auf einer einzelnen Spannungsschiene die Wahrscheinlichkeit eines Ausfalls etwas reduziert wird, das kann schon möglich sein. Aber beheben oder gar verhindern wird es diesen kapitalen Fehlerzustand nicht.

Wenn nun ein Fehler mit SVI3 behoben wurde, der dieses Szenario von Anfang an unterbindet, wir werden es nie erfahren. Nur das ausbleiben der Bilder von verbeulten AM5-CPUs feststellen.
 
Aber das grundsätzliche Problem bleibt bestehen. Ob da durch weniger als 10% Spannungsreduzierung auf einer einzelnen Spannungsschiene die Wahrscheinlichkeit eines Ausfalls etwas reduziert wird, das kann schon möglich sein. Aber beheben oder gar verhindern wird es diesen kapitalen Fehlerzustand nicht.
Man kann das auch anders betrachten , wenn man mit 1.3V eventuell schon 30% über dem soll ist raucht es halt dann irgendwann ganz „schnell“ wenn man sich den 40% nähert. Es wurden ja in der Vergangenheit auch immer wieder 1.4 V für die vsoc als sicher propagiert nur wo das eigentlich herkommt frag ich mich schon ein wenig ..
 
Da würde ich eher die Argumentation mit den X3Ds und deren plötzlichen Tod bei schon 1,35V gelten lassen.

Wenn 1,3V möglicherweise 30% zuviel sein sollten, EXPO hin oder her, die sind ja nicht doof. Und haben ihre Benchmarks ja auch mit EXPO und ordentlich Speichertakt online stehen, also das halte ich für einen sehr denkbaren Use-Case, sowas muss man bei der Entwicklung auf dem Plan haben. Auch die Annahme, die Boardpartner würden dann einfach mal so 40% mehr Spanung auf irgendeine Schiene geben, ist eher unwahrscheinlich. Selbst wenn man argumentieren würde, die haben das schon immer so gemacht. Dann hätte es wohl eindeutigere Spezifikationen geben sollen, die dann von jedem Hersteller ignoriert worden sind? Im selben Maße? Unwahrscheinlich.

Noch ein Punkt, das Ableben einer CPU durch zu hohe Spannung ist nicht nur plötzlich, sondern auch recht unspektakulär. Nicht nur bei X3D-CPUs, wie neulich von Roman vorgeführt, vor Jahren hat buildzoid mal eine CPU vorsätzlich gekillt (14:10):

Das liegt an dem Effekt, den eine zu hohe Spannung hat. Stark vereinfacht werden einzelne Aggregationen von Ladungsträgern geschaffen, und wenn sich zwei Enden treffen, fließt ein Strom, der Kurzschluss ist da. Und dann nix mehr. Kein Thermal Runaway.
Das "Degrading" von CPUs, welche mit hohen Spannungen gequält wurden, kann man so auch erklären. Irgendwie werden auch vor dem extremen Kurzschluss dauerhafte Veränderungen im Material geschaffen. Nur kam es noch zu keinem Kurzschluss.

Ich würde mit meinem laienhaften Wissen auf ein Problem in der inneren Spannungsversorgung tippen. Das klingt dann auch eher plausibel, und ja, da können Spannungsänderungen natürlich Effekte beeinflussen. Aber nicht grundsätzlich verändern, d.h. man reduziert damit die Wahrscheinlichkeit des Auftretens. Vielleicht, das werden wir nie erfahren. Aber deswegen kann eine CPU ja trotzdem noch mit >1,45V SOC betrieben werden, ohne irgendeinen Effekt zu erleben. Schön demsonstriert von der8auer. Strom wäre ein andere Sache, das ist Elektromigration, aber bei Spannung sprechen wir von Wahrscheinlichkeiten.

Was im aktuellen Fall passiert ist das thermische Durchgehen, wie man es von Mosfets und anderen Transistoren kennt. Mit dem Effekt, dass sich die Innereien auflösen, wegen der hohen Ströme und der sehr hohen Temperaturen. Das ist nicht wenig und ein kapitaler Fehler, ich nehme an im Design.
 
Zuletzt bearbeitet :
Da würde ich eher die Argumentation mit den X3Ds und deren plötzlichen Tod bei schon 1,35V gelten lassen.

Wenn 1,3V möglicherweise 30% zuviel sein sollten, EXPO hin oder her, die sind ja nicht doof. Und haben ihre Benchmarks ja auch mit EXPO und ordentlich Speichertakt online stehen, also das halte ich für einen sehr denkbaren Use-Case, sowas muss man bei der Entwicklung auf dem Plan haben. Auch die Annahme, die Boardpartner würden dann einfach mal so 40% mehr Spanung auf irgendeine Schiene geben, ist eher unwahrscheinlich. Selbst wenn man argumentieren würde, die haben das schon immer so gemacht. Dann hätte es wohl eindeutigere Spezifikationen geben sollen, die dann von jedem Hersteller ignoriert worden sind? Im selben Maße? Unwahrscheinlich.
Aber die Boardpartner haben damit doch gar nichts zu tun. Wir sehen ja jetzt das die CPU ihre Versorgung mit SVI in der Hand hat und nicht die MB Hersteller. Also auch bei einem reinen VSOC Problem wären die außen vor, denn der Chef ist, so wie ich das verstanden habe, die CPU.
Jetzt mit der neuen Agesa versucht man wie Gigaybte so schön gesagt hat die in der CPU ausgelesen VSOC auf 1.3 zu begrenzen - aber niemand hat behauptet das man das vorher gemacht hat.

Ganz abgesehen das in dem Video die Vcore und nicht die Soc Spannung erhöht wird und nichts anderes hat meines Wissens nach der 8auer da auch mal in einem Video gemacht. Das kann sich schon von daher im Schadensfall ganz anders verhalten.

Und viel "doofer" als CPUs mit einem groben Fehler im Design ist das dann eigentlich auch nicht - da könnte man zumindest darüber streiten was jetzt der blödere Fall wäre :)

"Was im aktuellen Fall passiert ist das thermische Durchgehen, wie man es von Mosfets und anderen Transistoren kennt. Mit dem Effekt, dass sich die Innereien auflösen, wegen der hohen Ströme und der sehr hohen Temperaturen. Das ist nicht wenig und ein kapitaler Fehler, ich nehme an im Design."

das ist richtig und das macht mich auch etwas stutzig aber das kann auch etwas sein das dann nach Wochen oder Monaten durch die degrading gefördert wird. Dafür müsste man einen "langzeittest" machen.
 
Zuletzt bearbeitet :
Kurz gesagt die Leckströme sind einfach zu groß je nach CPU und brechen dann irgend wann durch.
 
jaja immer schön durchrösten. Das kommt davon, wenn man immer den neumodischten Kram haben will und nix als "bänschen" zu tun hat. Mehr als nen 2700k braucht es nicht zum spielen. Genau genommen hätte man die CPU Entwicklung einstellen sollen nach SandyBridge, weil is einfach s beschte.
 
Wobei das von mir angesprochene Degrading eben zu einem Kurzschluss führt, führen kann. Aber die CPU hält sich dann nicht plötzlich für einen gewöhnlichen Mosfet und läuft auch nicht thermisch davon. Es waren auch nicht die OC-Opfer, welche die Flut hier angespült hat. Hatten ja meist nur EXPO aktiviert, hats im idle erwischt, alles sehr ungewöhlich.
 
Wobei das von mir angesprochene Degrading eben zu einem Kurzschluss führt, führen kann. Aber die CPU hält sich dann nicht plötzlich für einen gewöhnlichen Mosfet und läuft auch nicht thermisch davon. Es waren auch nicht die OC-Opfer, welche die Flut hier angespült hat. Hatten ja meist nur EXPO aktiviert, hats im idle erwischt, alles sehr ungewöhlich.
Ja das mit dem Standby, Idle, was auch immer hatte ich auch im Hinterkopf, weil da gabs ja von Igor schon Erlebnisberichte .. aber das macht halt mit dem Begrenzen irgendwelcher Spannungen im Zusammenhang wieder Null Sinn. Wenn teile der CPU ohne Kühlung etc auf Last gehen wirds ja auch egal sein ob 1.3 oder 1.4V. Das wars dann :D
Es sei denn irgendwas im I/O Die wird durch die hohe Spannung so beleidigt das es dann wieder zu so einem Schaden führen kann, um mal ein bisschen zu spekulieren.. denn wie gesagt - es geht ja immer noch um die vsoc und nicht um den vcore.

Vielleicht gibt es hier auch mehrere Probleme die zufällig miteinander korrelieren. Ich glaube da ist noch viel dunkel am Horizont bis sich das alles aufklärt - ganz ohne Gedanken wird man diese Begrenzung jetzt aber vermutlich auch nicht gebracht haben.
 
Zuletzt bearbeitet :
Ja das mit dem Standby, Idle, was auch immer hatte ich auch im Hinterkopf, weil da gabs ja von Igor schon Erlebnisberichte .. aber das macht halt mit dem Begrenzen irgendwelcher Spannungen im Zusammenhang wieder Null Sinn. Wenn teile der CPU ohne Kühlung etc auf Last gehen wirds ja auch egal sein ob 1.3 oder 1.4V. Das wars dann :D
Vielleicht gibt es hier auch mehrere Probleme die zufällig miteinander korellieren. Ich glaube da ist noch viel dunkel am Horizont bis sich das alles aufklärt ^^
Ohne Kühlung nicht. Der Grund, warum die Temperatur initial ansteigt ist genau dieser kapitale Fehlerzustand, den ich beschreiben wollte. Irgendwas in der CPU, ein Spannungsmosfet vielleicht, entscheidet sich etwas Ungewöhnliches zu tun. Also noch bevor jemand davonläuft, passiert da etwas. Und ob man das dann noch mit LN2 oder überhaupt kühlen könnte, fraglich.

Da wird sicher einiges zusammenpassen müssen, ich tippe aber nicht auf einen physikalischen Schaden. Höchstens würde ich noch glauben, das dieser "Zustand" mehrmals auftreten kann, bevor es auch durch eine Art Verschleiss zu dem mehrmals angesprochene Thermal Runaway führt. Das kann schon sein, aber ändert eigentlich nix.
Dann sind da auch die ungewöhnlichen Spannungsspitzen im idle, von Aris mehrfach erwähnt.

Außerdem glaube ich nicht, das sich das für uns nochmal aufklärt. Vielleicht im Jahre 2042, wenn ein Ingenieur mal aus der Nähkiste plaudert. Aber ich würde nicht darauf warten. Dafür sind zuviele CPUs verkauft, und es reicht wohl die eh schon geringe Auftrittswahrscheinlichkeit zu reduzieren, und sich dann um ein paar RMAs zu kümmern. Aber Fehler zugeben, weder Apple, intel, Nvidia noch AMD werden dies je tun. Uns erwartet der übliche BS, wie immer.
Ob man das Problem also wirklich eindeutig eingegrenzt und mit einem AGESA Update beheben konnte, das können wir nur mutmaßen. Haben dann aber später zumindest Anhaltspunkte, wobei nicht jeder ein BIOS-Update gemacht haben muss. Also sind selbst zukünftige Bilder von gestorbenen CPUs nur mit glaubhaftem Kontext wertvoll.

Ich setze mein Geld auf einen Fehler in der Schaltung, ich glaube hier an Maßnahmen und nicht Lösungen, und Murphys Law. Alles was schiefgehen kann, wird auch irgendwann schief gehen. Ich denke es werden noch weitere Ryzen CPUs sterben, aber weniger als zuvor.
Ich halte das Problem nicht für besonders dramatisch, aber sicher ärgerlich für jeden, den es trifft. Würde ich von Ryzen 7000 abraten? Nö, nur Rauchmelder und Feuerlöscher empfehlen, genau wie bei einer aktuellen Nvidia Grafikkarte.
 
Ohne Kühlung nicht. Der Grund, warum die Temperatur initial ansteigt ist genau dieser kapitale Fehlerzustand, den ich beschreiben wollte. Irgendwas in der CPU, ein Spannungsmosfet vielleicht, entscheidet sich etwas Ungewöhnliches zu tun. Also noch bevor jemand davonläuft, passiert da etwas. Und ob man das dann noch mit LN2 oder überhaupt kühlen könnte, fraglich.
Ok also im Idle aber nicht im Standby. Wenn ichs jetzt richtig habe.
Das kann durchaus sein das man hier eine kritische Komponente in der CPU langsam durchbrät und sich das ganze dann halt steigert - warum auch immer.
Eventuell eine Art "Apollo 11..." vielleicht hat man hier einen Bauteil der für die Versorgung oder Thermische Sicherheit (vielleicht beides) zuständig ist der für diese Spannungen die man anvisiert hat nicht geeignet ist. Interessant wäre in diesem Kontext vielleicht zu wissen wie man das beim Epyc handhabt, aber mit Sicherheit werden die Spannungen im soc da viel geringer sein.
Dann kann die Reduktion natürlich hilfreich sein - sofern sie nicht zu spät kommt.

Ob man das Problem also wirklich eindeutig eingegrenzt und mit einem AGESA Update beheben konnte, das können wir nur mutmaßen. Haben dann aber später zumindest Anhaltspunkte, wobei nicht jeder ein BIOS-Update gemacht haben muss. Also sind selbst zukünftige Bilder von gestorbenen CPUs nur mit glaubhaftem Kontext wertvoll.
Ja schwierig.. wenn zb die Firmware das Problem tatsächlich löst müsste man natürlich im Schadensfall genau wissen ob und wie lange die CPU eventuell mit einer älteren gelaufen ist...
 
Ich verstehe die Diskussion hier nicht wirklich. Da geben einige Boardhersteller schon im UEFI einen guten Schluck Spannung zuviel auf den SOC, nach einem reboot sieht man bei den Boards im UEFI teils schon deutlich über 1,4 V_SOC Spannung (zT. SVI3!). Selbst wenn man da noch alle theoretisch höchst möglichen Spannungsabfälle inkludiert, ist die SOC Spannung schon DEUTLICH drüber.

Es gibt Boards zB ASRock die genau das nicht taten, auch mit älteren UEFI nicht. Auf einem X670E Taichi hatte ich trotz manuel angehobener V_SOC auf 1,31V (RAM 6600MT/s) maximal 1,32V in der Spitze gesehen (ohne default V_SOC LLC blieb es bei 1,31V letzlich liefen aber 1,3V und eine stufe stärkeres V_SOC LLC besser).

Ihr könnt keine OCfähigen CPUs fodern aber zB overvolting komplett unmöglich machen.
Ich sehe das Problem auch nicht dass bei overvolting die CPU zerstört werden kann - für mich eigentlich logisch und nehme ich in kauf.
Ich sehe das Problem eher darin, dass einige Boardhersteller selbst schon deutlich overvolting betreiben und dardurch schon deutlich über das "Gesunde" hinausgehen.
 
Oben Unten