Basics Practice Reviews

NVIDIA GeForce RTX 5080 and possible hotspot problems on the board – causes and workaround

It is important to emphasize that this report is not intended to be sensationalist, but should be seen as a suggestion for manufacturers to pay more attention to the thermal load of circuit boards. Individual board partners are not mentioned by name, as this problem occurs in a similar form on almost all entry-level boards from all manufacturers. Although the extent of the hotspot can be mitigated by a well-tuned active cooling system, it cannot be completely eliminated. The aim is therefore to show how design adjustments can improve thermal efficiency and reduce the load on components in the long term.

This article discusses a thermal hotspot caused by the compact arrangement of ten voltage converters for NVVDDs. These voltage converters are positioned very close together on the board, which means that the conductor paths with the generated voltage have to be routed to the GPU in a very confined space. Particularly affected are boards that are strongly based on the reference design and do not have an eleventh phase for NVVDD. In such cases, suboptimal cooling of the voltage converters (VRM) and the lack of passive cooling on the back of the board can lead to undesirable thermal stress. The focus of this article is on explaining the technical background to this problem and highlighting possible optimization approaches. Especially for the “cheaper” cards (assuming the price of the RTX 5080) up to the cards that the manufacturers are required by NVIDIA to offer at the maximum RRP.

Starting point of the investigation

Let’s now take a look at a board that closely follows the reference design and is equipped with a total of 17 phases: 10 phases for NVVDD, 4 phases for MSVDD and 3 phases for FBVDD. A large part of the maximum power limit of 400 watts is accounted for by the 10 phases for NVVDD. To illustrate this, I show a projection of the measured hotspot including the topology. This is later supplemented by superposition images of the thermography of the back of the board to substantiate the measured data. This introduction is important in order to better understand the thermal behavior and the underlying causes.

NVVDD is the power supply for the GPU cores themselves and is therefore the main power consumer. MSVDD supplies the GPU’s memory chips, while FBVDD is responsible for supplying the frame buffers (video memory). As NVVDD has the largest share of power consumption, this area is particularly susceptible to thermal problems. Closely spaced tracks in the board can lead to increased temperatures, especially when high currents are flowing. The electrical resistance of the tracks generates heat when current flows through them. In compact designs where there is little space for sufficient distribution of currents, this heat can concentrate at certain points and lead to hotspots. These hotspots not only impair the efficiency of the voltage converters, but can also have a negative impact on the service life of the components in the long term. Optimized distribution of the conductor paths and improved cooling are therefore crucial to minimize such thermal problems.

A brief foreword on the cooling of voltage converters and the affected surfaces

Efficient cooling of voltage converters (VRM) and coils is a key aspect of modern PCB design, especially for high-performance graphics cards, especially when you try to squeeze everything into a very small space, as is the case with NVIDIA. I don’t like this trend at all and it’s a shame that the board partners are submitting so dogmatically. VRMs are responsible for converting the voltage from the power source into the values required by the GPU or CPU. This voltage conversion naturally also generates heat due to its losses, which, if not dissipated effectively, in turn impairs the efficiency of the components (and generates even more heat) and can shorten the service life of the components (even in the immediate spatial environment). Coils, which act as part of the VRM circuit, are also affected by thermal stress as they also generate significant amounts of heat at high currents.

A commonly used means of cooling these components are thermal pads, which transfer the heat from the VRMs and coils to the heat sinks. However, it is not only the choice of the right heat conducting pad that is decisive here, but first and foremost the gap dimensions. Thermal pads with a thickness of 3 mm are often used, but can be counterproductive due to their increased thermal resistance. The thermal resistance of a heat conducting material depends not only on the thermal conductivity of the material itself, but also on the thickness of the pad. Thicker pads lead to a longer distance that the heat has to travel to dissipate, which significantly reduces the efficiency of heat transfer.

Another factor I just mentioned is the design of the cooling itself. Manufacturers often use large gaps between the components and the heat sinks, partly to make production more cost-effective. In addition to a generous tolerance limit, these larger gaps also allow manufacturers to flexibly switch to other models of capacitors or coils if necessary without having to fundamentally change the design. Although this can reduce manufacturing costs and increase flexibility, it leads to suboptimal thermal conditions. And then there is the choice of inappropriate pads. Let’s take a look at the exemplary measurement of a 3 mm pad:

Soft thermal pads only achieve their optimum performance when they are compressed to at least two thirds of their original thickness. In the example above, it is even less than 60 percent! The reason for this lies in the physical structure of these pads, which consist of a soft, compressible material that adapts to the surface irregularities of the components and heat sinks. Compression reduces the contact resistance between the surfaces by minimizing air pockets and irregularities. This compression promotes better heat conduction as the material becomes denser and direct contact between the surfaces is improved.

However, thermal pads are often used that are not suitable for lower contact pressures. These pads do not develop their full conductivity if the pressure is insufficient, which leads to a significantly increased thermal resistance. Many measurements have shown that the thermal resistance rises sharply if the pressure is too low, which significantly impairs the cooling performance. This is particularly problematic when manufacturers use pads that have a high nominal thermal conductivity but are not suitable for the actual mechanical conditions. The selection of the right pad must therefore take into account not only the material properties but also the contact pressure conditions in order to ensure effective heat transfer. However, this is precisely where manufacturers are called upon not to allow themselves to be chewed off by the OEM of such materials, but to make a targeted and merciless selection of what makes sense.

A hotspot that is actually superfluous

Even if a 3 mm thick thermal pad has a high nominal thermal conductivity (see measurement above), the resulting thermal resistance can significantly limit the cooling performance. In many cases, significantly thinner pads or thermal pastes, which fill a smaller gap between the component and the heat sink, would be a more effective solution. Insufficient heat dissipation can lead to overheating, reduced performance (thermal throttling) and ultimately to premature component failure. It is therefore important for manufacturers and end users alike to optimize the cooling of VRMs and coils not only in terms of material quality, but also the physical properties of the cooling solutions used. If this is not done, this is exactly what happens:

Now of course 80 °C is not the end of the world, hence my deliberate relativization in the introduction to today’s article, but: I measured this in a fully air-conditioned room (21 °C) in an open setup and NOT in a closed housing. This is exactly what I briefly checked using a glued-on K resistor in a smaller case in the form of the Thermaltake Tower 300. Apart from the fact that hanging graphics cards in such a case already have to struggle with the environment and themselves, around 100 °C is clearly too much in the long term and not a positive factor for achieving the desired life expectancy of the components. This is simply not acceptable!

The next example of a recently tested GeForce RTX 5080 from the more expensive shelf, whose VRMs are of course perfectly cooled, but where the pad has simply been positioned where it has been stuck for years without any real testing, shows that many manufacturers don’t seem to have a proper thermal plan for where it gets hot. Obviously nobody questioned this, even if it seems out of place in the truest sense of the word with the current card (because then it could have been omitted straight away):

Interim conclusion

In many cases, thermal hotspots can be further equalized and mitigated if the affected areas are also passively cooled via the back of the board. By attaching heat conduction pads to the rear, the heat can be distributed more evenly and also dissipated more efficiently via the backplate. This method therefore uses the additional surface area on the back of the board to improve heat dissipation and reduce the temperature load on the VRMs and coils. Backside cooling can make a decisive contribution to thermal stability, particularly in compact designs where the front of the board is already heavily utilized. This is exactly what will be discussed again today and will be part of my investigations. After turning the page!

120 Antworten

Kommentar

Lade neue Kommentare

Feen-Schubser

Veteran

197 Kommentare 104 Likes

Das gute HT10000 da wäre sogar Angus neidisch.
Aber ist nur geraten. 🫣

Ich habe eine 5080 bekommen.
MSI GeForce RTX™ 5080 16G VENTUS 3X OC PLUS
Da ist der Kühler schon nicht so dick und jetzt das.

Da ist man fast geneigt sie zurück zuschicken (ist ungeöffnet) und auf die 5070 oder so zu warten.

Dankeschön für den Artikel.

Antwort Gefällt mir

Igor Wallossek

1

11,881 Kommentare 23,302 Likes

Hunan Feihongda LTP81, ist aber auch gut :)

Antwort 2 Likes

Hans Yolo

Veteran

141 Kommentare 44 Likes

Gut nach dem Bericht vom 8auer, hatten die Partner gar keine Möglichkeit das Ding mit richtigen Treibern und effektive Abwärme richtig zu testen….

Die verlassen sich wihl darauf dass Nvidia schon weiss was die tun, darum heisst es Referenzdesign, da müsste ja die Anweisung kommen, dass man die sicherstellen sollte dass die Backplate richtig angebunden ist, oder es ist denen einfCh egal 😅

Antwort 2 Likes

Widukind

Urgestein

614 Kommentare 282 Likes

Verstehe nicht, dass diese Probleme nicht schon in den hauseigenen Tests auffallen.

Und warum werden da eigentlich kein Kupferheatpipes verbaut -löst jetzt nicht das Problem, wo gar keine Kühlkontakt war, aber ist auch unnötig.

Antwort Gefällt mir

Igor Wallossek

1

11,881 Kommentare 23,302 Likes

Naja. das ist so auch nicht ganz korrekt.

Die Boardpartner bekommen bereits zusammen mit den ersten Engineering Samples einen Rumpftreiber, mit dem z.B. Furmark und ein spezieller 3DMark laufen. Testen können die also schon ewig. Außerdem gibts zum Referenzdesign bereits in der Planungsphase einen Thermal Design Guide, in dem jedes Bauteil samt zu erwartender Verlustleistung aufgelistet ist. Dazu kommt sogar eine Aufstellung der Verluste in den Leiterplatten samt Abwärme. Bitte nicht immer alles glauben, was auf YT gesagt wird. :)

Ich habe bereits mehrere Male über NVIDIAs internes Greenlight Program zur Qualitätssicherung (und Gängelung) geschrieben. Da wird NICHTS dem Zufalll überlassen. Eigentlich... :D

Allerdings muss man auch klar sehen, dass die R&D macher Grafikkartenhersteller nicht wirklich zweckmäßig ausgerüstet sind. Ich habe seinerzeit meinem guten Bekannten (Gigabyte R&D und Chef der RMA) die Thermografie erklärt, nähergebracht und gezeigt wie man das richtig nutzt (bis hin zum Lack für die Tropikalisierung). Die haben sich dann was von Zeiss gekauft, was auf meinem Standard war, weil meine Kamera auf der Embargo-Liste steht. Im R&D von PC-Partner (u.a. Zotac) war das hingegen noch wie im Mitelalter. Angeklebte Widerstände und maximal ein FLIR-Handheld für 1500 Euro und dazu noch komplett falsch bedient. Aber sie hatten dort wenigstens schon Hotboxen für thermal tests. :D

Antwort 7 Likes

Klicke zum Ausklappem
F
Falcon

Veteran

149 Kommentare 161 Likes

War positiv überrascht als ich bei den Jungs von Techpowerup das Review zur Gigabyte RTX 5080 Gaming OC gelesen habe.
Die Verwenden auf der Karte auch Putty.

View image at the forums

Meines Wissens nach hat bisher nur EVGA Putty auf den Karten ab Werk eingesetzt.

@Igor Wallossek

Würde Thermal Putty auf der Vorderseite, direkt auf den VRM´s die Temperatur nochmal deutlich verbessern?

Antwort Gefällt mir

Igor Wallossek

1

11,881 Kommentare 23,302 Likes

Zufälle gibts.... siehe Post oben ;)

Putty ist nicht gleich Putty. Intel nimmt z.B. eine Art Semi-Putty, also leicht gepresstes, etwas trockeneres Material. Da ist haltbarer und ölt nicht aus. Die Karte von Gigabyte würde ich gern noch einmal als Retail-Karte sehen. Mir haben sie immer handmontierte Golden Samples aus der PVT-Phase geschickt. Solche Tests mache ich nicht mehr, nachdem ich das mal mitbekommen habe. :D

Honeywell hat auch Putty in Pad-Form, das keine Fäden zieht. Kostet halt ein paar Cent mehr :D

Antwort 4 Likes

B
Berny

Mitglied

38 Kommentare 16 Likes

Wurden die elektrischen Leitungen eventuell benachbart geführt um die elektromagnetische Verträglichkeit zu verbessern? Bzw. die elektromagnetische Störung lokal zu begrenzen?

Antwort Gefällt mir

d
daddler

Neuling

8 Kommentare 2 Likes

Am Vergleichsfoto scheint es so, als wäre die Temperatur "Connector" um 6 Grad gestiegen... ??? Von moderaten 44 Grad auf reichlich 50 Grad. WIe kann das sein? Oder wurde tatsächlich nicht die Temp am Connector gemessen sondern an der Backplate, die ja nun quasi als Kühlkörper dient?

Antwort Gefällt mir

M
MGFirewater

Veteran

210 Kommentare 86 Likes

@Igor Wallossek auch wenn du keine hersteller/modelle nennen willst, was ich verstehe. kannst du den spies nicht umdrehen und sagen welche modelle 11 spannungwandler haben.

Antwort Gefällt mir

Igor Wallossek

1

11,881 Kommentare 23,302 Likes

Backplate. Unterm Connector ist auch Putty, alte Gewohnheit. Vergessen zu erwähnen. 🤦

Antwort Gefällt mir

Igor Wallossek

1

11,881 Kommentare 23,302 Likes
M
MGFirewater

Veteran

210 Kommentare 86 Likes

ich wollte mir die msi inspire holen, die ist noch gar nicht im handel gewesen,
die uvp liegt laut cb mit 1399€ über den 1169€, in den Spezifikationen wird aber leider gar nicht auf das thema spannungsversorgung eingegangen

ergänzung: ich frage mich z.B., ob der usvp aufpreis von 200€ für die ventus PLUS vs ventus (ohne) plus, wirklich einen Unterschied bei der Spannungsversorgung bedeutet, oder ob nur der kühler verfeinert ist.

ergänzung 2: laut reddit hat die plus 6 heatpipes, die non plus nur 4. Das tdp-limit des kühler soll 400w betragen.

Antwort Gefällt mir

Klicke zum Ausklappem
Igor Wallossek

1

11,881 Kommentare 23,302 Likes

Die Karten mit 10 Wandlern gehen auch, wenn der Kühler taugt. 🙂

Antwort 1 Like

R
RazielNoir

Urgestein

572 Kommentare 270 Likes

@Igor Wallossek

Einen wichtigen Punkt, der auch eine Rolle spielt, hast du vergessen zu erwähnen:

- Würde die CPU nicht diese Menge an Energie benötigen, sind alle nachgelagerten Problemstellungen weniger stark relevant.

Es darf durchaus mal wieder Richtung AMD, Intel & Co. das Bewusstsein dafür geweckt werden, das nicht nur die Energieeffizienz, sondern auch die Energiegesamtbedarfsmenge reduziert werden darf! Und gerade bei Intels neuen Ultra CPU's finde ich es einen wichtigen Schritt in die richtige Richtung, wenn eine annähernd gleiche Leistung zu jeweiligen Vormodell erreicht wird, bei weniger Gesamtenergieaufnahme. Das ist auch Fortschritt, nur eben nicht Leistungsmäßig.

Um mal wieder einen Autovergleich zu bemühen:
- Mein ZX von 1990 hat mit 163 PS aus 2.0L Hubraum mehr Benzin benötigt als mein aktueller Ford Focus Turnier BJ. 2014 mit 150PS bei annähernd gleichen Fahrleistungen (Beschleunigung 0-100/60-100), bei mehr Fahrzeuggewicht, besserer Ausstattung und Sicherheit. Brauch ich mehr Leistung? Nein. Will ich mehr Leistung? Ja, aber da schlägt die Emotion die Vernunft.

Wir finden Mining wegen der sinnlosen Ernergieverschwendung doof, kaufen aber fleissig PC-Technik, die mittlerweile ein vielfaches an Energie braucht, als noch vor ein paar Jahren....

Antwort 1 Like

Klicke zum Ausklappem
big-maec

Urgestein

1,001 Kommentare 596 Likes

NVIDIAs Minimierungswahn wird die Kompromisslösung zu immer höheren Geschwindigkeiten auf den Leiterbahnen sein und lange Leiterbahnen verursachen wieder andere Probleme.

Antwort Gefällt mir

d
daddler

Neuling

8 Kommentare 2 Likes

OMG...
Die Anforderung an ein Fahrzeug ist aber noch immer die gleiche wie 1990: Von A nach B kommen.
Das schaffst du heute in derselben Zeit mit dem 11 Jahre alten Focus, wie vor 35 Jahren mit dem ZX. Nur mit weniger Treibstoff.
Ich bin überzeugt, dass die 1990 komplexesten Rechenaufgaben für PCs die heutigen CPUs mit einem Bruchteil der Energie in ebenfalls einem Bruchteil der Zeit erledigen können. Also da hat sich bestimmt mehr getan als auf dem Motor-Sektor.
Was deinen Vergleich unfair macht ist nämlich die Tatsache, dass sich die Anforderungen an heutige Rechner vervielfacht haben, während die simple Aufgabe eines PKWs seit Erfindung sich nur marginal verändert hat.
Auf einem Rechner von 1990 bekommst du ein aktuelles Windows System gar nicht erst zum Laufen.

Antwort Gefällt mir

e
eastcoast_pete

Urgestein

2,331 Kommentare 1,512 Likes

Wie gut oder schlecht ist denn die Wärmeabfuhr über das Substrat der Platine bei den heutigen Karten? Durch geeignete Beimengungen kann ja zB Epoxidharz zum einigermaßen brauchbaren Wärmeleiter werden, ohne daß es elektrisch leitend wird oder auch die mechanische Festigkeit beeinträchtigt wird. Wird das beim Design dieser GPUs einbezogen, oder hat sich da nicht viel getan? Bei bis über 500 Wh in diesen Karten wär die Elektronik doch für jedes extra Joule dankbar, daß rückseitig entsorgt werden kann.

Antwort Gefällt mir

FfFCMAD

Urgestein

875 Kommentare 316 Likes

Und selbst wenn man es zum Laufen bekommt, wären die CPUs mit den zigtausend Layern von APIs und Speicherschutz überfordert und das Wort "Race condition" bekäme ein Paradebeispiel.

Antwort Gefällt mir

Danke für die Spende



Du fandest, der Beitrag war interessant und möchtest uns unterstützen? Klasse!

Hier erfährst Du, wie: Hier spenden.

Hier kannst Du per PayPal spenden.

About the author

Igor Wallossek

Editor-in-chief and name-giver of igor'sLAB as the content successor of Tom's Hardware Germany, whose license was returned in June 2019 in order to better meet the qualitative demands of web content and challenges of new media such as YouTube with its own channel.

Computer nerd since 1983, audio freak since 1979 and pretty much open to anything with a plug or battery for over 50 years.

Follow Igor:
YouTube Facebook Instagram Twitter

Werbung

Werbung