Beim Test eines neuen Wasserblocks für AMD’s Threadripper-Plattform (den Artikel werden wir morgen online stellen) sind wir eher per Zufall auf einen Fehler in AMDs Firmware gestoßen, dem wir natürlich sofort auf den Grund gegangen sind. Die nunmehr gemessenen Temperaturwerte lagen im Vergleich zum Launchartikel und einem vergleichbaren Wasserblock nämlich beim OC und einer identischen Package-Power von rund 325 Watt um bis zu 25 Kelvin für Tctl (die Rechenkerne) und sogar um bis zu 35 Kelvin für Tdie (also das Package) niedriger als noch beim Launch!
Das allein wäre noch nicht einmal dramatisch, da die Werte beim Betreiben der CPU im Werkstakt und rund 180 Watt Package-Power nunmehr in etwa auch dem entsprechen, was wir bei einem guten Wasserblock, einem Chiller und einem verlöteten IHS erwarten können. Noch beim Launch sprach ja AMD vom obligatorischen Offset von 20 Kelvin als Zugabe. Deshalb waren wir anfangs sogar froh, dass unsere Werte nun erst einmal etwas realistischer aussahen.
Doch spätestens beim Übertakten und einer Package-Power von 325 Watt waren wir reichlich sprachlos. Je höher die Leistungsaufnahme stieg, umso niedriger fielen die zurückgemeldeten Temperaturen aus! Waren es bei 180 Watt noch ca. 67°C für Tctl, sank der Wert bei rund 325 Watt dann auf 51 °C, was immerhin 16 Kelvin weniger wären. Das dies natürlich absurd ist, muss man nicht weiter diskutieren, zumal man diese Werte auch bei kurzeitig auftretenden, kleinen Lastspitzen im Idle ausgegeben bekommt.
Den gleichen Effekt verzeichnen wir bei Tdie, wobei die Rückmeldung von reichlich 24°C ins Reich der Illusionen gehört. Kritisch nur, dass auch das Wattman-Tool auf diesen extrem niedrigen Wert setzt und die Mainboards genau diesen Wert auch als Basis für die temperaturgeregelte Lüftersteuerung nutzen. Dies wiederum geht dann spätestens beim Übertakten grandios schief.
Natürlich haben wir erst einmal nach der Ursache geforscht und begaben uns auf Spurensuche. Um unsere Systeme als Fehlerquelle ausschließen zu können, haben wir deshalb aufwändig gegengetestet.
Neues, sauberes Windows-Image mit alten und später auch neuen Treibern? Fehlanzeige. Wechsel zwischen drei (!) Mainboards unterschiedlicher Hersteller (Asus, Gigabyte, ASRock) und jeweils aktuellstem BIOS? Auch wieder nichts. Das Zurückflashen vom aktuellen BIOS 0503 auf das alte 0304 vom Launchtag auf dem Asus X399 ROG Zenith brachte dann plötzlich wieder die alten Temperaturwerte, allerdings auch die bekannten Stabilitätsprobleme.
Wir vermuten als Fehlerursache somit den Agesa Code 1003 Patch 4, der die errechneten Temperaturwerte nunmehr völlig fehlerhaft ausgibt. Was beim Werkstakt noch einigermaßen plausibel aussieht, ist beim OC dann schlichtweg falsch. Wir sehen hier zudem eine echte Gefahr für die Stabilität, wenn die Leistungsaufnahme steigt, aber die Rückgabewerte sinken und z.B. die Lüfterkurven, die auf diesen Rechenwerten basieren, als Folge viel zu stark reduziert werden.
Ein Gegentest mit einer deutlich schwächeren AiO und etwas OC führte nämlich zu signifikant niedrigeren Lüfterdrehzahlen, wenn man diese PWM-gesteuert vom Mainboard regeln lässt. Die Folge war ein thermischer GAU. Über einen Luftkühler muss man dann erst recht nicht mehr nachdenken.
Wir haben AMD über diese Messungen bereits informiert, warten jedoch noch auf eine Stellungnahme oder ein neues BIOS. Spätestens dann werden wir natürlich einen Nachtest machen und wieder berichten. Vorher jedoch empfehlen wir, die Lüfter bei Boards mit den aktuellen BIOS-Versionen entweder manuell zu steuern bzw. die Drehzahlen (auch am Mainboard) fest einzustellen.
Kommentieren