Grafikkarten Grundlagenartikel Hardware Testberichte

Wenn der Redakteur zum Entwickler wird – ein Hotspot muss kein Kühlproblem sein | igorsLAB

Es gibt immer wieder Dinge, die fallen einem geradezu vom Himmel in den Schoß und zeitgleich dem Absender auch ein wenig auf die Füße. Grundregel Nummer Eins ist dabei aber immer, dass man als aufmerksamer Beobachter und Tester stets kooperativ bleibt und nicht gleichgültig einfach sein Pensum abarbeitet. Besser machen statt meckern ist hier der beste Weg und genau den habe ich heute auch gewählt...

Es gibt immer wieder Dinge, die fallen einem geradezu vom Himmel in den Schoß und zeitgleich dem Absender auch ein wenig auf die Füße. Grundregel Nummer Eins ist dabei aber immer, dass man als aufmerksamer Beobachter und Tester stets kooperativ bleibt und nicht gleichgültig einfach sein Pensum abarbeitet und sich über den nächsten, vermeintlichen Fehler freut, den man dann genüsslich der Öffentlichkeit ausbreiten kann.

Klar, man ist dann jedes Mal ein toller Hecht, nur liegen die Ursachen so mancher Problematik eben doch viel tiefer, als es beim bloßen Auswerten irgendwelcher Messergebnisse zunächst scheinen mag. Gewisse technische Grundkenntnisse vorausgesetzt, ergeben sich da manchmal sogar interessante neue Erkenntnisse, denn die ganze Grafikkarten-Problematik ist komplexer, als man es glauben mag.

Auch wenn mich viele wegen meiner angeblichen Nähe zur Industrie gern und oft kritisieren mögen, exklusive Lohnliste und kooperatives Miteinander sind immer zwei Paar Schuhe. Ersteres bringt sicher etwas mehr Geld in die Kasse, letzteres Freunde, Informationen und ein bevorzugtes Sampling. Deshalb will ich heute auch einmal an einem ganz aktuellen Beispiel zeigen, was alles schiefgehen kann, ohne dass man nun jemanden im asiatischen Firmen-Kerker zur Strafe ohne mittägliche Lunch-Box verhungern lassen müsste.

 

Ausgangslage: Heißer Fleck, Ursache erst einmal unklar

Werfen wir schnell mal einen Blick auf den Stein des Anstoßes. Die fast 107°C im geschlossenen Gehäuse (Furmark) sind nun wirklich nichts, was man gern hätte, auch wenn es „nur“ eine 8-Layer-Platine ist. Oberhalb von 95°C ist auch FC4 als Platinenmaterial nicht unendlich und leidensfrei belastbar, zumindest nicht auf Dauer. Der Flammpunkt spielt da erst einmal gar keine Rolle. Der oberflächliche Betrachter würde jetzt einfach meinen, die Kühlung der Spannungswandler wäre schlichtweg unterdimensioniert:

Gegenfrage: Wenn man 5 Phasen mit insgesamt 10 asymmetrischen Dual-MOSFETS  als Reihe vertikal untereinander anordnet, dann könnte man ja wohl eigentlich erwarten, dass die Wärmeentwicklung etwas gleichmäßiger und auch auf der Fläche besser verteilt erfolgen sollte. Sicher, die aktuellen Implementierungen lasten einzelne Phasen je nach Gesamtlast unterschiedlich aus bzw. lassen sogar einige Phasen im Leerlauf, wenn Niedriglasten anliegen, aber selbst dann darf sich so ein Bild eigentlich nicht ergeben. Jedenfalls nicht so extrem.

 

Kontrolle des Stromflusses und Ursachenforschung

Jetzt will ich mich natürlich nicht genüsslich in technischen Details festfressen, die die meisten wohl eh langweilen würden, aber ein wenig abtauchen müssen wir zum besseren Verständnis dann wohl doch. Aber keine Angst, es bleibt verständlich genug. Kommen wir deshalb jetzt direkt zu den Spannungswandlern. Egal, wie viele Phasen erst einmal angesteuert und vielleicht auch intelligent ausbalanciert werden müssen, einen Wert braucht so ein PWM-Controller als Rückmeldung von jedem einzelnen Regelkreis (jeder Phase): den aktuellen Stromfluss (current).

Ein Schlagwort hatte ich mit Balancing schon angeteasert, das zweite kommt jetzt: DCR (Direct Current Resistance). Am Ende weist jedes Bauelement diesbezüglich ja ganz bestimmte Charakteristika auf. Um es aber einmal abzukürzen. DCR ist die Basis, um Temperaturen und Ströme zu kalkulieren. Doch wie erfährt der Controller nun genau, welche Ströme in welchem Regelkreis fließen? Das Monitoring kann unterschiedlich sein, denn es gibt – wen wundert es – verschiedene Methoden dafür.

In meinem Artikel „Nvidia GeForce RTX 2080 Ti – Interne Details zur Spannungsversorgung, abweichenden Komponenten und wo die Spikes geblieben sind“ hatte ich ja Nvidias Referenz-Design für die Spannungsversorgung gelobt, zu Recht übrigens. Dort liest man auch was von den Smart Power Stages (SPS) und IMON (Strom), allerdings hatte ich mir damals bestimmte Details dann doch geschenkt. Die reiche ich jetzt mal nach, denn IMON ist ja genau das, was die sogenannte MOSFET DCR (DrMOS) liefert!

Das Bild oben zeigt das typische Layout mit den intelligenten SPS, die für jeden einzelnen Regelkreis mit IMON den Wert für die Stromstärke (current) liefern, den man für das perfekte Balancing, also das Gleichgewicht zwischen den Phasen, so dringend braucht. Wie die SPS diesen Wert ermitteln? Es werden die Drain-Ströme der MOSFETS in Echtzeit gemessen und diese Werte sind zudem auch extrem genau (im Beispiel oben 5 μA/A Signal).

Diese sehr kostenintensive Lösung ersetzt die deutlich günstigere Inductor DCR, also eine Strommessung über den induktiven Widerstand der jeweiligen Filterspulen im Ausgangsbereich. So eine Lösung verwendet Nvidia zum Beispiel für preiswerte Karten (Symbolbild unten), wo es etwas gemächlicher beim Stromfluss zugeht. Die Genauigkeit dieser Lösung ist allerdings deutlich geringer und wird zusätzlich noch durch Schwankungen der Baulelemente-Güte sehr stark beeinflusst. Zu große Toleranzen können also schnell auch einmal die komplette Balance kippen!

 

Die Balance stimmt wieder

Die Qualität der Spulen ist immer so eine Geschichte für sich und es erklärt auch, warum der Hersteller das Problem selbst nicht gleich erkennen konnte. Es bleibt zu vermuten, dass die Spulen auf den Boards in der EVT-Phase (Engineering Validation and Testing), der DVT-Phase (Design Validation and Testing) bzw. der PVT-Phase (Production Validation and Testing) geringere Toleranzen aufwiesen bzw. dass man zwar die gleiche Induktivität laut Datenblatt verbaut hat, die Werte aber in der Realität trotzdem abwichen. Theorie und Trockendesign, Kleinserie und Praxis der Massenfertigung sind also oft genug wirklich sehr grundverschiedene Geschwister.

Das, was die Redaktionen sehr oft unter Zeitdruck der Chiphersteller (Nvidia und AMD) von den Boardpartnern als schnell mit der heißen Nadel gestrickte Eigendesigns geliefert bekommen, ist in den seltensten Fälle echte Massenproduktion bzw. nur ganz selten auch Retailware. Es sind auch keine „Golden Samples“, wie man gern und oft vermutet, sondern einfach nur in Kleinserie gefertigte Karten bzw. Produkte aus der MVT-Phase (Manufacturing Verification Testing). Zwischen diesen Grafikkarten und dem, was dann später mal in den Laden kommt, liegen oft genug Welten.

Doch genau dieser Schritt kann auch eine echte Chance sein, das Produkt noch einmal zu verbessern! Denn viele Augen sehen nun einmal mehr als nur ein Produktingenieur oder ein kleines Team, die alle unter Zeitdruck etwas unbedingt bis zum Tag X fertigstellen müssen. Ich habe selbst Einiges nachgemessen und mit dem Hersteller überlegt, wie man das Problem lösen kann. Hier wird nun bei der eigentlichen Massenproduktion ein neues BIOS zum Einsatz kommen, welches unter Anderem das Balancing nach einem zielgerichteten Feintuning besser umsetzen kann.

Das schaffte an der besagten Stelle schon einmal um 5 Grad niedrigere Temperaturen ohne weitere Änderungen. Denn wenn man mal logisch denkt: die beste Kühlung ist die, die man erst gar nicht braucht! Nur bin ich auch damit noch nicht wirklich zufrieden. Die nächste Seite wird uns nämlich noch zeigen, was Nvidias neue Lüftersteuerung möglich macht, wenn man die kleinen grauen Zellen nur ein klein wenig mitbemüht. Denn ich kann es schon mal spoilern: es hat sich noch viel getan! Also bitte umblättern…

 

 

Danke für die Spende



Du fandest, der Beitrag war interessant und möchtest uns unterstützen? Klasse!

Hier erfährst Du, wie: Hier spenden.

Hier kannst Du per PayPal spenden.

About the author

Igor Wallossek

Chefredakteur und Namensgeber von igor'sLAB als inhaltlichem Nachfolger von Tom's Hardware Deutschland, deren Lizenz im Juni 2019 zurückgegeben wurde, um den qualitativen Ansprüchen der Webinhalte und Herausforderungen der neuen Medien wie z.B. YouTube mit einem eigenen Kanal besser gerecht werden zu können.

Computer-Nerd seit 1983, Audio-Freak seit 1979 und seit über 50 Jahren so ziemlich offen für alles, was einen Stecker oder einen Akku hat.

Folge Igor auf:
YouTube   Facebook    Instagram Twitter

Werbung

Werbung