Fast auf den Tag genau vor einem Jahr habe ich einen Artikel zu NVIDIAs Telemetrie veröffentlicht, der anhand meiner statistischen Auswertungen ein klein wenig untergegangen zu sein scheint. Da ich diesen Inhalt, auch im Hinblick auf die kommenden Blackwell-Karten, für wirklich interessant erachte, habe ich ihn als Sonntagslektüre für Euch einfach noch einmal nach vorn geholt. Es ist zwar noch kein echter Retro-Artikel, aber ich finde den Inhalt wirklich wichtig für das bessere Verständnis von Jensens Pixelbeschleunigern. Denn es gilt in dieser Form noch immer.
Originalartikel vom 30.12.2023
Ich hatte einen sehr ähnlichen Artikel bereits schon einmal vor knapp einem Jahr geschrieben, als es um das Binning der GeForce RTX 4070 und dem Unterschied zwischen MSRP- und OC-Karten ging. Allerdings ist der Theorie-Teil auf der zweiten Seite etwas untergegangen, sehr zu Unrecht wie ich finde. Denn der Launch der Super-Karten steht bald ins Haus und es wird ja immer wieder die Frage gestellt, wie es NVIDIA schafft, deutlich effizienter mit der zugeführten Energie umzugehen. Natürlich kann und will ich hier keine Whitepaper veröffentlichen oder den Leser mit technischem Firlefanz gleich komplett erschlagen, aber wenn man alles etwas auf das Normalmaß herunterbricht, liest es sich meines Erachtens sogar recht spannend.
Das Binning als Vorabselektion und die Rolle von “Speedo”
Bei der Gelegenheit muss ich Euch natürlich auch die wichtigsten Begriffe gleich mit erklären. Zunächst bleiben wir aber erst einmal recht allgemein. Das sogenannte Binning bezieht sich bei den GPUs auf das Einsortieren der GPUs einer Modellreihe in verschiedene Qualitätsklassen (“Buckets”) innerhalb eines gewissen Von-Bis-Bereiches. Wir kennen z.B. bin 0 (schlechter) und bin 1 (besser). Die einzelnen GPUs aus so einem “Bucket” können also auch noch einmal jeweils untereinander und voneinander abweichen, aber nur im Rahmen der vorgegebenen Toleranzen (sogenanntes “GPU-Lotto” beim Kunden). Was vorher als teildefekt erkannt wurde, landet eine Gewichtsklasse tiefer bei einer abgespeckten GPU mit dem gleichen Ausgangs-Chips und wird ebenfalls wieder in Buckets sortiert. Der unbrauchbare Rest ist dann allerdings Abfall.
Wenn man eine Grafikkarte erwirbt, dann können es Produkte mit unterschiedlich beworbenen Taktraten sein, aber sie besitzen alle das gleiche Design und denselben Herstellungsprozess. Die GPUs werden jedoch aufgrund der Prozessvariation (Qualitätsschwankungen) voneinander getrennt. Sie haben jedoch alle etwas gemeinsam: eine maximale Leistungsspezifikation, die als TGP (auch bekannt als Total GPU Power) bezeichnet wird. Womit ich auch auch das “Virtuelle Binning” schon einmal anspoilern kann, auf das ich gleich noch eingehen werde.
Nach den Buckets kommt der nächsthöhere Schritt. Hier stellt man im Allgemeinen anhand der ersten Vorauswahl verschiedene weitere (verfeinerte) “Buckets” mit annähernd identischen Taktraten zusammen. Die AIC und der Endkunde legen bekanntermaßen stets den größten Wert auf das Verhältnis von Performance zu benötigter Energie, so dass NVIDIA den Abnehmern deshalb exakt solche “Buckets” anbietet, die jeweils nur Chips umfassen, die bei ähnlicher TGP auch die gleiche Performance bieten. Das kann sparsamer oder durstiger sein, aber innerhalb des Buckets sind alle GPUs zumindest mehr oder weniger gleich schnell. Da unterscheiden sich die “Buckets” nur durch die unterschiedliche Leistungsaufnahme.
Diese “Buckets” können dann, je nach Qualitätsstufe, bei sehr unterschiedlichen Spannungen betrieben werden. Die Leistungsspezifikation ist das Maximum einer virtuellen Performance so eines “Buckets”. Die tatsächliche Implementierung besteht in der Endkonsequenz dann einzig und allein darin, langsamere Chips mit höherer Spannung und schnellere Chips mit niedrigerer Spannung zu betreiben, damit die beste Leistung für ein gegebenes Leistungsumfeld erzielt werden kann. Die Taktrate des Chips (langsam vs. schnell) wird durch eine Variable namens “Speedo” gesteuert, die während des sogenannten ATE-Flusses als Teil der FT (Final Test) Phase in die GPU eingebrannt wird.
Genau jetzt muss ich aber wohl noch Einiges erklären. ATE steht für “Automated Test Equipment” (Automatisierte Testausrüstung). Es handelt sich dabei um Systeme, die elektronische Bauteile oder Leiterplatten automatisch auf Funktionsfähigkeit und Qualität prüfen (Erhöhung der Produktionseffizienz zu erhöhen und Reduzierung der Fehlerquote). Die “Final Test Phase” ist die letzte Testphase in einem Produktions- oder Entwicklungsprozess, wo alle zuvor identifizierten Fehler behoben und das Produkt auf seine Funktionsfähigkeit, Leistung und Qualität geprüft wird.
“Speedo” ist ein Begriff, der in der Halbleiterindustrie für Schaltungen verwendet wird, die die Prozess-, Spannungs- und Temperaturvariationen (PVT) in integrierten Schaltkreisen überwachen. Solche speziellen Speedo-Schaltungen ermöglichen es den GPUs, ihren Leistung und Energieverbrauch dynamisch anzupassen, indem sie die Reaktion der Chips auf Veränderungen in Prozess, Spannung und Temperatur berücksichtigen. Diese Anpassungen können beispielsweise durch das Ändern der Taktfrequenz und der Versorgungsspannung erreicht werden. Dazu komme ich gleich noch auf der nächsten Seite.
Es ist wichtig zu beachten, dass der Begriff “Speedo” nicht standardisiert ist und in verschiedenen Unternehmen unterschiedliche Bedeutungen haben kann. Jedoch lässt sich eine allgemeine Erklärung geben, wie dieser Begriff in der Regel verwendet wird:
- Messung von Leistung und Qualität:
Speedo-Systeme werden verwendet, um die Leistungsfähigkeit und Qualität von Halbleiterbauelementen zu messen. Dies umfasst in der Regel die Bewertung der Geschwindigkeit, mit der ein Chip funktionieren kann, und die Bestimmung der maximalen Leistungsfähigkeit. - Prozessvariationen:
In der Halbleiterherstellung gibt es natürliche Variationen im Herstellungsprozess. Diese Variationen können die Leistung der einzelnen Chips beeinflussen. Ein Speedo-System hilft dabei, diese Variationen zu identifizieren und zu quantifizieren. - Binning-Prozess:
Nachdem die Chips hergestellt und getestet wurden, werden sie häufig durch einen Prozess namens “Binning” klassifiziert. Hierbei werden Chips je nach ihrer Leistungsfähigkeit und anderen Parametern in verschiedene Kategorien eingeteilt. Speedo-Messungen sind ein wesentlicher Bestandteil dieses Prozesses, da sie bestimmen, wie gut ein Chip funktioniert und in welche Leistungskategorie er fällt. - Optimierung und Designfeedback:
Speedo-Daten können auch zur Optimierung des Herstellungsprozesses und zur Verbesserung zukünftiger Chipdesigns verwendet werden. Indem man versteht, wie unterschiedliche Designentscheidungen die Chipperformance beeinflussen, können Ingenieure bessere Designs für zukünftige Generationen entwickeln. - Temperatur- und Spannungsabhängigkeit:
Zusätzlich zur Leistungsmessung berücksichtigen Speedo-Systeme oft auch, wie die Leistung eines Chips von Faktoren wie Temperatur und Versorgungsspannung abhängt. Dies ist wichtig für die Bestimmung der Betriebsbedingungen und der Zuverlässigkeit des Chips.
Speedo-Systeme sind deshalb ein wichtiger und sogar unverzichtbarer Bestandteil der Halbleiterindustrie, da sie eine detaillierte und präzise Bewertung der Leistungsfähigkeit von Halbleiterbauelementen ermöglichen, was für die Qualitätssicherung und Produktkategorisierung unerlässlich ist. Wie wichtig, das sehen wir gleich nach dem Umblättern.
50 Antworten
Kommentar
Lade neue Kommentare
Mitglied
1
Urgestein
Mitglied
Mitglied
Urgestein
1
Mitglied
Veteran
1
Urgestein
Urgestein
Urgestein
Urgestein
Alle Kommentare lesen unter igor´sLAB Community →