Grafikkarten Redaktion Testberichte VGA

Hohe Speichertemperaturen bei vielen RDNA4-Karten und was genau dahintersteckt – Ursachenforschung und Hintergründe

Da auch ich mich über die hohen Speichertemperaturen auf vielen (aber nicht allen) bisher getesteten RDNA4-Karten gewundert habe und diverse Nachfragen von Lesern im Postfach lagen, war dies der Auslöser dafür, mich doch noch einmal eingehender mit dem Problem zu beschäftigen. Der Grund war so trivial wie verwunderlich, aber es ist auch ein guter Grund, sich einmal etwas näher mit den Grundlagen und den in der Firmware hinterlegten Daten zu beschäftigen. Es wird also für die meisten sicher auch eine interessante Lektüre, denn Vieles dürfte so noch gar nicht allgemein bekannt sein. Und es soll auch ein wenig beruhigen, denn Panik muss wirklich niemand schieben.

Womit fangen wir am besten an? Die thermische Verwaltung von modernen Grafikkarten ist ein zentraler Aspekt der Systemstabilität, Leistungsentfaltung und Langlebigkeit. AMDs RDNA4-Architektur bringt im Vergleich zu den Vorgängergenerationen einige Optimierungen im Bereich des thermischen Monitorings und der internen Temperaturlimits mit sich. Dieser heutige Artikel betrachtet insbesondere die sogenannten Tjunction-Temperaturen – also die maximal zulässigen Hotspot-Werte und das, was AMD für die Lüftersteuerung als Vorgabe vorsieht. Und wer die ganzen Reviews der Kollegen durchgelesen hat, der wird auch bemerkt haben, dass Karten von XFX eher lauter und die von Sapphire eher leiser waren. Genau deshalb basiert dieser Artikel auf zwei exemplarischen Modellen der Partnerhersteller XFX und Sapphire, die in Bezug auf Speichertemperaturen und Lüftergeräusch sehr unterschiedlich waren. Mein Dank geht hier explizit auch an Hellm, der mal wieder tiefer in die Firmware angetaucht ist. Also: auf geht’s!

Übersicht der Temperaturgrenzwerte aus dem BIOS und Interpretation

Die BIOS-Einträge der Karten „XFX Mercury RX 9070XT“ und „Sapphire RX 9070XT Nitro+“ zeigen identische Konfigurationen hinsichtlich der Temperaturgrenzwerte. Diese Werte legen fest, bei welchen thermischen Bedingungen verschiedene Komponenten einer GPU ihre Betriebsparameter anpassen, Leistung reduzieren oder notfalls abgeschaltet werden, um Schäden zu verhindern. Soweit, so restriktiv und notwendig. Die Werte sind wie folgt codiert:

uint16_t    TemperatureLimit[12]; // In Grad Celsius
6E 00 = 110°C TEMP_EDGE
6E 00 = 110°C TEMP_HOTSPOT
6C 00 = 108°C TEMP_MEM
69 00 = 105°C TEMP_VR_GFX
69 00 = 105°C TEMP_VR_SOC
69 00 = 105°C TEMP_VR_MEM0
69 00 = 105°C TEMP_VR_MEM1

Zusätzlich finden sich dedizierte Temperaturgrenzen für bestimmte Speichertypen:

6C 00 = 108°C   TemperatureLimit_Hynix
69 00 = 105°C   TemperatureLimit_Micron
73 00 = 115°C   TemperatureFwCtfLimit_Hynix
71 00 = 113°C   TemperatureFwCtfLimit_Micron

Die beiden wichtigsten Werte für die GPU-spezifische Temperaturüberwachung sind „TEMP_EDGE“ und „TEMP_HOTSPOT“. Während TEMP_EDGE die klassische Gehäusetemperatur (Case Temperature) beschreibt – also den Sensorwert nahe der GPU-Oberfläche – erfasst der HOTSPOT die höchste lokal auftretende Temperatur auf dem Die (Tjunction). Dieser Wert ist entscheidend für die thermische Schutzlogik. Die maximal zulässige Hotspot-Temperatur beträgt hier 110 °C, was dem typischen Grenzwert moderner AMD-GPUs entspricht. Diese Obergrenze ist nicht als empfohlene Dauertemperatur zu interpretieren, sondern markiert den Punkt, ab dem das Power- und Taktratenmanagement in aggressivere Schutzmechanismen übergeht.

Die Temperaturen für den Speicherbereich (TEMP_MEM) sind mit 108 °C ebenfalls hoch angesetzt, was in diesem Fall auch auf die Verwendung von Hynix-Modulen hinweist. Ich kann an dieser Stelle auch verraten, dass dieser Wert von HwInfo64 genutzt wird, um das prozentuale Verhältnis zum Temperatur-Grenzwert anzuzeigen. Teilt man den für die Grenzschicht des Speichers angezeigte Temperaturwert durch den angezeigten Grenzwert und multipliziert man das mit 100 Prozent, dann weiß man (gerundet) auch, ob man bei 105 °C Module von Micron oder bei 108 °C welche von SK Hynix auf der Karte hat. Die differenzierten Limits für die Spannungswandlerbereiche (VR_GFX, VR_SOC, VR_MEMx) liegen mit 105 °C gleich bzw. geringfügig niedriger, was der thermischen Empfindlichkeit dieser Komponenten Rechnung trägt.

FwCtfLimit: Einordnung und Bedeutung

Besonders hervorzuheben sind die Einträge „TemperatureFwCtfLimit_Hynix“ und „TemperatureFwCtfLimit_Micron“ mit 115 °C bzw. 113 °C. Diese Parameter sind zwar nicht näher dokumentiert, allerdings lassen sich durchaus plausible Rückschlüsse ziehen. Es handelt sich mit hoher Wahrscheinlichkeit um firmwareinterne thermische Schwellenwerte („Firmware Critical Temperature Fail Limit“), bei deren Überschreitung eine besonders drastische Maßnahme ausgelöst wird, etwa ein harter Leistungseinbruch oder eine sofortige Taktabsenkung. Der höhere Wert im Vergleich zum allgemeinen „TemperatureLimit“ (z. B. 108 °C für Hynix) deutet darauf hin, dass dies ein kritischer Sicherheitswert ist, der über der regulären thermischen Betriebsgrenze liegt. Solche Grenzwerte sind nicht als Zieltemperatur zu verstehen, sondern als „Notaus“-Punkte im thermischen Managementpfad. Sie dienen dem Schutz vor unkontrollierten thermischen Eskalationen, etwa bei Lüfterausfall oder bei extremer Umgebungstemperatur in geschlossenen Gehäusen.

Die Tjunction-Temperaturen in RDNA4-basierten AMD-Grafikkarten spiegeln eine ausgeklügelte thermische Kontrollarchitektur wider, die nicht nur die GPU selbst, sondern auch Speicher und Spannungswandler mit differenzierten Grenzwerten überwacht. Die in den BIOS-Daten gefundenen Schwellen ermöglichen also durchaus auch einen tieferen Einblick in die Sicherheitsarchitektur der Karten. Insbesondere die höheren FwCtf-Limits markieren eine Art „absolute Obergrenze“, die nicht überschritten werden darf, ohne dass unmittelbare Schutzmechanismen greifen. Diese Herangehensweise zeigt, dass AMD bei RDNA4 nicht nur die Energieeffizienz und Rechenleistung, sondern auch die thermische Robustheit im Detail adressiert hat.

 

Kommentar

Lade neue Kommentare

c
carrera

Veteran

231 Kommentare 150 Likes

@Igor Wallossek - tatsächlich sehr wertvoller Artikel - danke

Antwort 4 Likes

Karsten Rabeneck-Ketme

Moderator

55 Kommentare 27 Likes

Sehr interessant. Danke

Antwort Gefällt mir

RX480

Urgestein

2,044 Kommentare 997 Likes

Hochinteressant!
Bitte dran bleiben, weil flashen ohne Programmer ideal wäre, ... evtl. auch für viele Andere.

btw.
Schade das es keine Thermographie dazu gibt. Beim Mercury-review waren die äußeren Vramtemps deutlich kleiner als 84°C.
(könnte sein, das AMD ne höhere innere Vramjunction ausliest, = worst Einzelwert an Stelle X bei Modul Z, wie man Das von der 3080 kennt?)

Antwort 3 Likes

Klicke zum Ausklappem
W
Walter

Mitglied

19 Kommentare 8 Likes

Sehr spannend!

Schade, dass es offenbar keine 9070XT gibt, die von Haus aus leise und kühl bleibt.

Antwort 1 Like

P
Pheenox

Veteran

116 Kommentare 72 Likes

Igor, vielen Dank für diesen sehr wertvollen Test und Bericht. Es zeigt einmal mehr, wie gut sich Boardpartner verhalten und mit konstruktiver Kritik umgehen können. Bedeutet dann auch für: Auch meine nächste Karte wird eine Sapphire Nitro+. Ich unterstütze so ein Verhalten Kunden und Hardwareprofis gegenüber.

Antwort 3 Likes

F
Falcon

Veteran

153 Kommentare 165 Likes

Hab ne XT RedDevil hier.
Die ist eine der leisesten, kühlsten Karten die ich je in den Fingern hatte.

Klar geht die VRAM Temp auf 90°C im Gamingbetrieb, aber das ist weit weg von den 108°C die in der Spec stehen.

Antwort 2 Likes

Igor Wallossek

1

11,998 Kommentare 23,637 Likes

Dass es keine Thermografie von der Nitro gibt, liegt an deren Kühlerdesign. Die Platine muss mit der Backplate verschraubt sein, wenn man den Druck beibehalten möchte, den man braucht. Dann aber "sehe" ich nichts.

Antwort 4 Likes

P
Pokerclock

Urgestein

730 Kommentare 692 Likes

In ein bis zwei Jahren werden diese Werte sehr interessant, wenn Karten und Kühlung älter werden. Und man wird dann auch mal wirklich sehen wie lange PTM eigentlich hält...

Antwort 1 Like

Igor Wallossek

1

11,998 Kommentare 23,637 Likes

Dazu hatte ich bereits mehrere Artikel. Wenn die Platine auf der Rückseite nicht durch was anderes aufgeheizt ist, dann sind es rund 20K Differenz zum Substrat. Den Artikel gibt es auch auf Deutsch.

Antwort 6 Likes

Klicke zum Ausklappem
Y
Yumiko

Urgestein

1,004 Kommentare 450 Likes

Einfach auf Silent-Bios stellen.

Antwort Gefällt mir

W
Walter

Mitglied

19 Kommentare 8 Likes

Dann sind die Karten zwar leise, aber sehr warm.

Antwort Gefällt mir

b
bitracer

Urgestein

615 Kommentare 286 Likes

Das ist schon ein sehr schöner, weil wichtiger Aufklärungsartikel. Jedoch: Die Diskussion über Temperaturen und "Geräusch" hilft nur dann, wenn ich beides in Zusammenhang setze. Was leider (bewußt?) fehlt, das sind die tatsächlich erzielten Umdrehungszahlen bei einem gemessenen Geräuschpegel und die dazugehörige erreichte Temperatur.
"noise-normalized-testing" nennt das ein Kollege. Ich als Kunde will schließlich wissen: wer baut den besten Kühler, nicht: wer kann (stupide) die Lüfter lauter drehen lassen?

Und es kann doch nicht angehen, daß es die Hersteller selbst von den Luxusausgaben nicht "gebacken" bekommen, die Kühler so zu wählen und/oder nachzubessern, daß gesunde Temperaturen sowie Geräuschemissionen für alle relevanten Verbraucher auf dem Board in Einklang gebracht werden?

Dann besser bei max 250Watt bleiben/einkaufen, dann hat man noch etwas mehr "Luft", wenn einem Lebensdauer (vor allem im Angesicht der Preisspiralen der letzten Jahre) wichtig ist.

Antwort 2 Likes

RaptorTP

Veteran

445 Kommentare 208 Likes

Leider ziemlich lächerlich.
Lüfterdrehzahl anheben.

Einfach Fan Control nutzen um am besten gleich Desrhoud und richtige Lüfter drauf.

Genau aus diesem Grund ging die 9070 zurück.

Antwort Gefällt mir

Alter.Zocker

Veteran

395 Kommentare 289 Likes

Interessant aber auch bissl Erschreckend, v.a. der EIndruck der sich mir in dem Zusammenhang aber auch schon in anderen Fällen gerade aufdrängt: Die HErsteller überlassen das Testen und Optimieren ihre Produkte "unabhängigen" Testlabs mit großer Reichweite (Igor z.B.) und reagieren erst dann mit entspr. Anpassungen. Erstlieferungen der Produkte kommen im eher nur rudimentär ausgetesteten Zustand auf den MArkt und solange niemand mit großer Reichweite den Finger auf die wunden Punkte legt, wird nix gemacht...

Antwort 1 Like

RX480

Urgestein

2,044 Kommentare 997 Likes

Naja, lass mal die Kirche im Dorf.

die 3080er und 7900er sind auch nicht kaputt gegangen

btw.
Das man evtl. mit besserer Vramtemp. ein mue mehr OCen kann ist ne ganz andere Sache, ... und
soundso nicht garantiert, da kann der Hersteller sich auch für weniger Lautstärke entscheiden.

Antwort 1 Like

ansleylara047

Mitglied

16 Kommentare 12 Likes

Warum schmiert man im Fazit dem Hersteller Honig um den Mund?
Das ist einfach ein Bananenprodukt was mit dem Rotstift auf den Cent genau kalkuliert wurde. Nicht mehr als nötig und fertig. Wenn da ein Hersteller nachbessert zeigt das einzig das die Verkaufszahlen nicht passen. Jetzt investiert man noch mal 1Cent mehr in die Karten um sich dadurch einen Vorteil oder eher Gleichstand gegenüber der Konkurrenz zu schaffen. Die Banane reift also wie immer Stück für Stück beim Kunden. Hauptsache erst mal den Markt mit billigem Schund fluten, im Regelfall kommen die Hersteller ja durch da praktisch alle nicht mehr liefern als sie müssen. Von den Spezifikationen ist alles im grünen Bereich, was will man mehr als Hersteller. Die nächste unreife Banane wird folgen, zu 100%, der Rotstift der Hersteller schreibt leider ewig ;-)
So als Info noch ... warmer (nicht heißer) Speicher ist schneller als kalter! Als extrem BSp. die 0 Kelvin, da passiert dann eben gar nichts mehr.
Man sollte sich mal vom Wahn des Zwangshaften alles muss kühl bleiben verabschieden. Etliche Chips zucken unbeeindruckt mit den Schultern auch bei 100 Grad. Man drückt auch nicht wirklich die Innentemperatur durch äußere Maßnahmen, man sorgt einzig dafür das die Temeprarur schneller weg kommt. Die Temp-Spitzen auf "Atomeben" bleiben aber weiter bestehen. Das ganze kaschiert man eigentlich nur die eine im Vergleich ewig verzögerte Abfrage von Schätzsensoren. Als ich mein Geld noch bei Infineon verdient hatte, hatten wir etliche versuchsaufbauten. Für so manches hätte man bessere Ergebnisse erzielt mit aktiver Erwärmung! Du kannst nämlich leichter und viel schneller aktiv punktgenau direkt erwärmen als kühlen. Wenns drauf ankommt is tdas A und O einer Schaltung eine absolut konstante Temperatur über alle Lastzustände. Das schaffst du aber nicht im geringsten mit externer indirekter Luft oder Wasserkühlung. Kühlen ist immer träger als erwärmen, da kannste auch den PC in der Kühltruhe versenken, die Nachregelung braucht viel zu lange. Ideale wäre das aufwärmen per Infrarotlicht, das dringt direkt in den Chip ein und wirkt! Theorie, Praxis, Dauwissen und Wissenschaft kann man eben nicht in einen Topf packen. Der Kunde will es Kühl also soll der Kunde es auch Kühl bekommen ;-)

Antwort 3 Likes

Klicke zum Ausklappem
b
bitracer

Urgestein

615 Kommentare 286 Likes

kannst Du aus Deiner Erfahrung auch einen Temperaturbereich eingrenzen (grob), den man anvisieren sollte?
liest sich interessant. Jetzt haben wir nur noch den Zielkonflikt:
Thermische Ausdehnungs-Spannungen sind wohl der Tod eines Chips auf dem PCB. Also im Sinne von: Der Chip überlebt zwar, löst sich dann aber eher mal vom PCB ab: Karte "tod".

Das ist eigentlich das, worum es sich hier dreht: man weiß als einfacher, dummer Kunde halt nicht, was man hier priorisieren sollte (außer vielleicht der eigenen Geldbörse).

Antwort 1 Like

M
Master-W-Steve

Mitglied

84 Kommentare 30 Likes

Kann ich bestätigen. Habe ebenfalls die 9070 XT Red Devil und die ist bei mir weder beim Gaming noch bei Furmark mit 100% Last und zusätzlich noch Prime95 (um die Gehäusetemperatur anzukurbeln) zu hören.

Antwort 3 Likes

olligo

Veteran

354 Kommentare 129 Likes

Sehr interessanter Artikel Igor!

Antwort 1 Like

Danke für die Spende



Du fandest, der Beitrag war interessant und möchtest uns unterstützen? Klasse!

Hier erfährst Du, wie: Hier spenden.

Hier kannst Du per PayPal spenden.

About the author

Igor Wallossek

Chefredakteur und Namensgeber von igor'sLAB als inhaltlichem Nachfolger von Tom's Hardware Deutschland, deren Lizenz im Juni 2019 zurückgegeben wurde, um den qualitativen Ansprüchen der Webinhalte und Herausforderungen der neuen Medien wie z.B. YouTube mit einem eigenen Kanal besser gerecht werden zu können.

Computer-Nerd seit 1983, Audio-Freak seit 1979 und seit über 50 Jahren so ziemlich offen für alles, was einen Stecker oder einen Akku hat.

Folge Igor auf:
YouTube   Facebook    Instagram Twitter

Werbung

Werbung