Grafikkarten • Grundlagenartikel • Testberichte • VGA

Das “Geheimnis” hinter NVIDIAs ausgefeilter Telemetrie: die Rolle von Buckets, Speedo und Continuous Virtual Binning (CVB)

30. Dezember 2023 06:00

Ich hatte einen sehr ähnlichen Artikel bereits schon einmal vor knapp einem Jahr geschrieben, als es um das Binning der GeForce RTX 4070 und dem Unterschied zwischen MSRP- und OC-Karten ging. Allerdings ist der Theorie-Teil auf der zweiten Seite etwas untergegangen, sehr zu Unrecht wie ich finde. Denn der Launch der Super-Karten steht bald ins Haus und es wird ja immer wieder die Frage gestellt, wie es NVIDIA schafft, deutlich effizienter mit der zugeführten Energie umzugehen. Natürlich kann und will ich hier keine Whitepaper veröffentlichen oder den Leser mit technischem Firlefanz gleich komplett erschlagen, aber wenn man alles etwas auf das Normalmaß herunterbricht, liest es sich meines Erachtens sogar recht spannend.

Das Binning als Vorabselektion und die Rolle von “Speedo”

Bei der Gelegenheit muss ich Euch natürlich auch die wichtigsten Begriffe gleich mit erklären. Zunächst bleiben wir aber erst einmal recht allgemein. Das sogenannte Binning bezieht sich bei den GPUs auf das Einsortieren der GPUs einer Modellreihe in verschiedene Qualitätsklassen (“Buckets”) innerhalb eines gewissen Von-Bis-Bereiches. Wir kennen z.B. bin 0 (schlechter) und bin 1 (besser). Die einzelnen GPUs aus so einem “Bucket” können also auch noch einmal jeweils untereinander und voneinander abweichen, aber nur im Rahmen der vorgegebenen Toleranzen (sogenanntes “GPU-Lotto” beim Kunden). Was vorher als teildefekt erkannt wurde, landet eine Gewichtsklasse tiefer bei einer abgespeckten GPU mit dem gleichen Ausgangs-Chips und wird ebenfalls wieder in Buckets sortiert. Der unbrauchbare Rest ist dann allerdings Abfall.

Wenn man eine Grafikkarte erwirbt, dann können es Produkte mit unterschiedlich beworbenen Taktraten sein, aber sie besitzen alle das gleiche Design und denselben Herstellungsprozess. Die GPUs werden jedoch aufgrund der Prozessvariation (Qualitätsschwankungen) voneinander getrennt. Sie haben jedoch alle etwas gemeinsam: eine maximale Leistungsspezifikation, die als TGP (auch bekannt als Total GPU Power) bezeichnet wird. Womit ich auch auch das “Virtuelle Binning” schon einmal anspoilern kann, auf das ich gleich noch eingehen werde.

Nach den Buckets kommt der nächsthöhere Schritt. Hier stellt man im Allgemeinen anhand der ersten Vorauswahl verschiedene weitere (verfeinerte) “Buckets” mit annähernd identischen Taktraten zusammen. Die AIC und der Endkunde legen bekanntermaßen stets den größten Wert auf das Verhältnis von Performance zu benötigter Energie, so dass NVIDIA den Abnehmern deshalb exakt solche “Buckets” anbietet, die jeweils nur Chips umfassen, die bei ähnlicher TGP auch die gleiche Performance bieten. Das kann sparsamer oder durstiger sein, aber innerhalb des Buckets sind alle GPUs zumindest mehr oder weniger gleich schnell. Da unterscheiden sich die “Buckets” nur durch die unterschiedliche Leistungsaufnahme.

Diese “Buckets” können dann, je nach Qualitätsstufe, bei sehr unterschiedlichen Spannungen betrieben werden. Die Leistungsspezifikation ist das Maximum einer virtuellen Performance so eines “Buckets”. Die tatsächliche Implementierung besteht in der Endkonsequenz dann einzig und allein darin, langsamere Chips mit höherer Spannung und schnellere Chips mit niedrigerer Spannung zu betreiben, damit die beste Leistung für ein gegebenes Leistungsumfeld erzielt werden kann. Die Taktrate des Chips (langsam vs. schnell) wird durch eine Variable namens “Speedo” gesteuert, die während des sogenannten ATE-Flusses als Teil der FT (Final Test) Phase in die GPU eingebrannt wird.

Genau jetzt muss ich aber wohl noch Einiges erklären. ATE steht für “Automated Test Equipment” (Automatisierte Testausrüstung). Es handelt sich dabei um Systeme, die elektronische Bauteile oder Leiterplatten automatisch auf Funktionsfähigkeit und Qualität prüfen (Erhöhung der Produktionseffizienz zu erhöhen und Reduzierung der Fehlerquote). Die “Final Test Phase” ist die letzte Testphase in einem Produktions- oder Entwicklungsprozess, wo alle zuvor identifizierten Fehler behoben und das Produkt auf seine Funktionsfähigkeit, Leistung und Qualität geprüft wird.

“Speedo” ist ein Begriff, der in der Halbleiterindustrie für Schaltungen verwendet wird, die die Prozess-, Spannungs- und Temperaturvariationen (PVT) in integrierten Schaltkreisen überwachen. Solche speziellen Speedo-Schaltungen ermöglichen es den GPUs, ihren Leistung und Energieverbrauch dynamisch anzupassen, indem sie die Reaktion der Chips auf Veränderungen in Prozess, Spannung und Temperatur berücksichtigen. Diese Anpassungen können beispielsweise durch das Ändern der Taktfrequenz und der Versorgungsspannung erreicht werden. Dazu komme ich gleich noch auf der nächsten Seite.

Es ist wichtig zu beachten, dass der Begriff “Speedo” nicht standardisiert ist und in verschiedenen Unternehmen unterschiedliche Bedeutungen haben kann. Jedoch lässt sich eine allgemeine Erklärung geben, wie dieser Begriff in der Regel verwendet wird:

Messung von Leistung und Qualität:
Speedo-Systeme werden verwendet, um die Leistungsfähigkeit und Qualität von Halbleiterbauelementen zu messen. Dies umfasst in der Regel die Bewertung der Geschwindigkeit, mit der ein Chip funktionieren kann, und die Bestimmung der maximalen Leistungsfähigkeit.
Prozessvariationen:
In der Halbleiterherstellung gibt es natürliche Variationen im Herstellungsprozess. Diese Variationen können die Leistung der einzelnen Chips beeinflussen. Ein Speedo-System hilft dabei, diese Variationen zu identifizieren und zu quantifizieren.
Binning-Prozess:
Nachdem die Chips hergestellt und getestet wurden, werden sie häufig durch einen Prozess namens “Binning” klassifiziert. Hierbei werden Chips je nach ihrer Leistungsfähigkeit und anderen Parametern in verschiedene Kategorien eingeteilt. Speedo-Messungen sind ein wesentlicher Bestandteil dieses Prozesses, da sie bestimmen, wie gut ein Chip funktioniert und in welche Leistungskategorie er fällt.
Optimierung und Designfeedback:
Speedo-Daten können auch zur Optimierung des Herstellungsprozesses und zur Verbesserung zukünftiger Chipdesigns verwendet werden. Indem man versteht, wie unterschiedliche Designentscheidungen die Chipperformance beeinflussen, können Ingenieure bessere Designs für zukünftige Generationen entwickeln.
Temperatur- und Spannungsabhängigkeit:
Zusätzlich zur Leistungsmessung berücksichtigen Speedo-Systeme oft auch, wie die Leistung eines Chips von Faktoren wie Temperatur und Versorgungsspannung abhängt. Dies ist wichtig für die Bestimmung der Betriebsbedingungen und der Zuverlässigkeit des Chips.

Speedo-Systeme sind deshalb ein wichtiger und sogar unverzichtbarer Bestandteil der Halbleiterindustrie, da sie eine detaillierte und präzise Bewertung der Leistungsfähigkeit von Halbleiterbauelementen ermöglichen, was für die Qualitätssicherung und Produktkategorisierung unerlässlich ist. Wie wichtig, das sehen wir gleich nach dem Umblättern.

Pages:

22 Antworten

Zeige alle Kommentare an

Kommentar

Lade neue Kommentare

Legalev

Mitglied

53 Kommentare 51 Likes

#1 Dec 30, 2023

Sehr interessanter Artikel.
Liest sich sehr Aufwendig, dass alles zu Testen.

Wie lange dauert den so ein Vorgang in etwa bis entschieden ist, welche Kategorie die GPU gerecht wird bitte?

Antwort 2 Likes

Igor Wallossek

10,541 Kommentare 19,780 Likes

#2 Dec 30, 2023

Ds geht recht fix. :)

Antwort Gefällt mir

Martin Gut

Urgestein

7,975 Kommentare 3,722 Likes

#3 Dec 30, 2023

Interessant. Mich erstaunt etwas, dass bei so genau getesteten Chips von den Herstellern immer noch eine Reserve von 0.08 bis 0.10 Volt einprogrammiert ist, die man dann mit Untervolten weg schnippseln kann. Wenn die Spannung von Anfang an ein bisschen tiefer eingestellt wäre, wären die Karten doch deutlich sparsamer. Da will man vermutlich einfach keine Risiken eingehen dass mal ein Chip nicht stabil läuft. Da gibt lieber etwas mehr Spannung und nimmt den höheren Verbrauch in Kauf.

Antwort 2 Likes

stch

Mitglied

27 Kommentare 8 Likes

#4 Dec 30, 2023

In der Massenproduktion reden wir typischerweise über Taktzeiten im Bereich von einigen Sekunden.

Antwort Gefällt mir

stch

Mitglied

27 Kommentare 8 Likes

#5 Dec 30, 2023

Ökonomisch nachvollziehbar. Feldrückläufer sind sauteuer, Mehrverbrauch beim Kunden bzw. etwas weniger Leistung kostet den Hersteller nichts.

Antwort Gefällt mir

grimm

Urgestein

3,203 Kommentare 2,134 Likes

#6 Dec 30, 2023

Speedo ist ja nicht so meins - einen guten Rutsch euch allen!

View image at the forums

Antwort 1 Like

Igor Wallossek

10,541 Kommentare 19,780 Likes

#7 Dec 30, 2023

Maturing und Elektromigration. Was heute noch geht, kann übermorgen schon instabil sein. Da plant man lieber Reserven für 2 Jahre mit ein. :D

Antwort Gefällt mir

Guest

#8 Dec 30, 2023

Super Lesestoff!
( ich hab das Whitepaper von Nvidia gelesen.. ggg... Transkriptionslexicon und tech uni Leipzig und MIT old 2019-22.. mit dabei.. molto caffee)1300 Seiten..
Neuer Arbeits-Leicht-Rechner im Testbetrieb.
Die new ada A 4500.. ( 2900 Euro für 192er Schnittstelle is halt.schon halbheftig.dafür bekommt man den vollen Ram der 4090ger bei fix 180-200 Watt..)
Was Nvidia einfach kann, wenn sie wollen, ist das Leistungs Paket mit Energieverbrauch zu verknüpfen.
Und immer der gezielte Kontext der zu erwartenden Anwendung. da gehen die relativ konservativ vor, wenn man Quellcodices liest, oder die Ki macht, da
geht das über ganze Generationen hoch. Und den Vorteil haben die. Und die Alchemy der neuen Lithographen, die man behütet. Da sollen nur relativ
wenige Menschen alles wissen, und dann hat man noch die singuläre Denk-techrichtung von Nvidia, die sich net so weit spreaden wie AMD.
In Formel 1 würde man sagen, der Vatikan ( Ferrari) hat genug Spielgeld, Red Bull noch mehr und MC Laren wird 2024 Weltenmeister, weil sie voll in gehen.
Könnte AMD machen, wenn sie wüssten was sie lassen. Dazu kommt der Hype um KI.. die uns nette neue Waffen, Bomber, Digitalen warfare, Robotik und
so weiter bringt, New BANK POWER.. das Geld wird so schnell und komplex wie nie. Medizin ( nur für die die GELD haben) ( der ELYSIUM Effekt unserer
Gesellschaft zeichnet sich ab. Autokrate Geld Demokratien..) Und ein bisserl Viel ÜBERWACHUNG.. und der neue DIGITALE STÄNDESTAAT.**
In dem Bereich verkauft NVIDIA derzeit 39% strigend seiner HX-100 200 und 300+..

Da bleibt für Hollywood nur noch 15% und GAMEN unter 8%.. Das der Blick ins Jahr nach 24 um 2030.
** das sozial roolo ashole 3.0 wird ausgerollt.. da gibt es keine Menschen mehr. Nur noch digitale Leichen mit Heiligenschein.
Gut..
das MSI bootet ( 400 Euro für das AM5--weil ich als ASUS mensch ASUS mis traue.Heizen wir ein?.) der 16 Core wacht auf.. Ram. Pyn ist da.. yes.. ( rein Linux first..
die Eingeweide liegen Rum.. GEKÜHLT mit oufpassen GROSSER VENTILLATOR ( 3 Noktua hängen dran..) es ist alles schwarz. lol.. und WAKÜ.. lang steht Rom net mehr.. ( Kraken) ( schwarz) ( beQ Big Rock lauert..)(

kreativ schwarz oder st Gotthard dunkelweiss :) peace :)

GUTES GUTES RÜBER KOMMEN IN EIN GESUNDES NEUES JAHR ! und nur das gute Zeug in Maßen trinken. :)

Antwort Gefällt mir

Klicke zum Ausklappem

Guest

#9 Dec 30, 2023

Antwort Gefällt mir

Guest

#10 Dec 30, 2023

OpenAI und Axel Springer kooperieren.. !

zum Ersten mal gehen Dünnschiss und Klopapier einen gemeinsamen Weg.
angeblich gibt es 20 Millionen Abonnenten..
Ich werd das nie verstehen. 20 Millionen Hirntote lesen ihren eigen Stuhl..
es kann nur beseer werden 2024 :)

Antwort 1 Like

Daves085

Neuling

9 Kommentare 14 Likes

#11 Dec 30, 2023

Gibt es eigentlich ein Grundlagenartikel wie MikroChips überhaupt unterschiedlich gut sein können?
Wie kann ich mir das vorstellen als Technik Laie? Schaltung ist doch Schaltung? Ich verstehe dass es in den Chips mal defekte Bereiche geben kann , die deaktiviert werden, aber warum führt dass dann dazu dass ich den Chips mit höheren Voltzahlen betreiben muss?

Antwort 1 Like

Pfannenwender

Veteran

302 Kommentare 196 Likes

#12 Dec 30, 2023

Soweit zu dem, was ich verstanden habe. :unsure:

Dir auch nen Guten. 👍

Antwort 1 Like

Igor Wallossek

10,541 Kommentare 19,780 Likes

#13 Dec 30, 2023

Waferqualität, Lithografie... Da reichen schon klitzekleinste Abweichungen und Unschärfen. Außerdem nehmen nach außen hin die guten Chips ab, der Edelstoff kommt fast immer direkt aus der Mitte :)

Antwort Gefällt mir

Guest

#14 Dec 30, 2023

Und deswegen heißt die rtx 4090 D.. DIESEL ? soory..
( diese diplomatische Verrenkung hat was von Habsburger und Wallenstein und so weiter.. chschinna)

Frage : hat SCHWERKRAFT einen Einfluss auf den Lithographen? ich würde das ja in der Raumstation bauen.
Dazu ein Extra Zuschlag von Nvidia..oder?

Antwort Gefällt mir

Guest

#15 Dec 30, 2023

offtopic info :
AM5 INFO : 16 core + pyn a 4500 2 m2 2 ssd

Board : MSI MPG X670E Carbon WIFI ( 430 euro..26.11.23)

gut:

-Kein Spulen fiepen mit dedizierter GraKa und ohne is auch nix ( also Audisection leise)
-6 SATA-Ports ohne Lane Sharing mit den 4 M2-Ports.. bisserl verbaut
-PCI-E Gen 5 Unterstützung

schlecht :

-Bootverhalten & Neustarts dauern nach Einstellungen ewig. Teils Soft-Resets erforderlich. Für häufige Bios-EinstellungenOC nicht geeignet. Mach ich eher eh nicht.
Das Board wird mit DDR 6000 betrieben und hier gibt es leider noch das typische Problem mit den Bootzeiten, sobald man Expo nutzt und Max Speed von den Rams fordert
-MSI Center & Apps hängen sich häufig auf oder starten nicht. ( schauen was man nicht br)
- Beleuchtungsklimbim is ma wurscht ( abgezwickt)

- Bootzeiten, Bios, Neustart : das dauert nach dem ersten kalten Einstellen viel länger.
-kann die 5 Minuten erreichen ( sobald OS treiber etz gehen wir auf unter 45 sec..)
- bei Soft-Reset startet das Board aber ohne Probleme und bootet in Windows. supa!
-MSI-Center Software ist mir eh sch egal..nur was nötig. und weiter

CPU : Ryzen 9 7950x CPU

zu dem ist net viel zu sagen. ich find den lauwarm ( wenn man vom gen2- Threadripper kommt)

Kühlung : erstmals macht der Inschdallatuer WAKÜ. die KRAKE. Das Gedärm hat im Cosair500
Platz... Bis jetzt sind Temps ( Cpu ist auf Test temp gestellt- 30% unter Vmax) mittel.
45 bis 68..72 Grad ( cb 2023 hier schon bei 30.000+)

Ram : übliche 2 x Corsair DDR5 6000er Riegel. 64gbt..vorerst.
Keine Kollision mit letzer Agesa.. ( ich hab da nette Sammlung)

- PCI: der 1 Slot ist echt etwas bescheuert unterm CPU Feld und tiefer..wegen des der M2-slots

- M2: da ich lieber lauwarm habe sind die Samsung 990P die Grenze ( interesssante temps
beim Starten der Corrona Render Engine ..)

- Nivea Pyn A 4500. Ereignislos normal. Der Stecker hat nix zum tun.
- Das neue SEASONIC 1000 er reicht ( es konnte seit Nov aus stinken..)
- 8 Noctua 14er grau drehen mit 480 bis 800.. Das reicht.
_ die Pyn wird nach der Probezeit zersägt und der fitzelPropeller wird ausgebaut und verbrannt.
Noctua. lol ( i lern in dem Alter net mehr um)

--- Des ganze im Cosair 500 drin. 2 weiter normal ssd 4 tbt Datas.. Platzt rdeicht noch.
------------------------------------------------

2h22 speciale ( einige Migrationen aus dem W11 sind im 10er implantiert.. dazu gehört
das aus operieren aller unnötigen Teile. Ein Script.weil wenn die UNREAL-5-4-1 zum ersten mal
drauf gesp wird windooof 2 Stunden Zeit hat alles zu versauen--dazu gibt es einen sog
Scratch- Windosen-10-Container wo datt alles landet = nachher sichten und löschen..etz)
----------------------------------------------
Jetzt nach 2 Stunden is der fertig.
bootet nromal schnell. keine blue Sc. keine Verkutzer.
Ur5
maya
c4d2023
zbrush
3dCoat ( ich empfehle das bad sister of z-brush)
Arnold
Redhift
Corrona ( Bier)
1200 PLugins
audiokrempel

10 bit Monitor Nachbesserung ( nein gerader 4k LG oder BenQ )

mach mal 3ds max mit gebogen Samsung.. zum speiben gehen..::)
----------------------------------------
1 Stund sinnlos Test C4d r2023 Corrona CPU + GPU = 2 gbt datei.
Auslastung CPU 94 % +- GPU 86%-90% ( ich hab gerne etwas Spatzi = wir fackeln später ab)

TEMPS PPO ist immer noch auf sachte. Untervolten kannst beim 16er vergessen = Throtteling wh.
Raum : 19 Grad. normale Luftfeuchte. ( Gösserbier Bock in der Flasche..kalt)
Prügelt die 180 Watt an. also Normal. Temps net über 78 Grad. ( also Wakü richtig herum?)
GPU geht mit dem Minipropeller voll und wird hier sehr heiß ( Corrona mag das)
2te M2 kann sau heiss werden.. bis data in load ende--dann normal.
RESUME : stabil. im Temps Fenster.
---------------------------------geht.

Und nun der zweite : I9 13900 K.. 250 watt und ..) Adobe Bomber.. Asus brett Biege Kit..etz

Lg Peace :) und nun nur noch faul und relax

Antwort Gefällt mir

Klicke zum Ausklappem

LurkingInShadows

Urgestein

1,387 Kommentare 584 Likes

#16 Dec 30, 2023

Wie Igor schon schrieb, es gibt IMMER leichte Abweichungen. Wenn dann an einer Stelle zB der Leitungsdurchmesser nicht ganz passt muss man das ausgleichen, nacharbeiten geht ja nicht bei 5 nm.

Antwort Gefällt mir

eastcoast_pete

Urgestein

1,721 Kommentare 1,057 Likes

#17 Dec 30, 2023

Der höhere Verbrauch wird allerdings auch vom Kunden bezahlt, während eine schlechter gebinnte GPU, die es mit 100 mV weniger nicht mehr packt, hier Nvidia (oder, bei Navi, AMD) Geld kosten würde.

Antwort Gefällt mir

eastcoast_pete

Urgestein

1,721 Kommentare 1,057 Likes

#18 Dec 30, 2023

@Igor Wallossek : Danke, sehr interessant!
Und jetzt etwas, das uU auch mein Unwissen zeigt: Allgemein bin ich im Moment auch von den "KI" Fähigkeiten gerade im Bereich Power Management noch enttäuscht. Eine Steuerung, die die individuellen Eigenschaften der GPU (oder auch APU) lernen kann, sollte damit doch eine noch bessere Feinabstimmung mit entsprechend niedrigerem Verbrauch ermöglichen, oder liege ich da ganz daneben? In der Hinsicht war auch Intels "KI optimierter Thread Director" für Meteor Lake ja auch eher schwach; die ganze "KI" dafür wurde und wird ja bei Intel im Werk gemacht und fließt dann in die Firmware ein, und eben nicht direkt live von der NPU im SoC. Eine wirklich per-Chip individuelle Optimierung wäre (IMHO) wirklich ein großer Schritt nach vorne. Und sowas könnte dann lernen, welche Anwendungen man wann und wie zusammen benutzt, und somit (bei CPUs) Kerne tief schlafen legen und wecken, und bei GPUs und CPUs Taktfrequenz und Spannung noch feiner und antizipatorisch
einstellen. Alles für bessere Effizienz und (!) Schwupdizität.

Frage: Wie ändert sich denn der Stromverbrauch je nach Situation bei Spielen wie Cyperpunk? Gibt's da Artikel zum Nachlesen darüber? (Und ich weiß, ich frag manchmal komische Sachen 😁). Wenn eine KI hier in die Steuerung mit reinkommt, könnte sie auch hier mit Verbrauch und Leistung schneller und feiner anpassen und optimieren.

Antwort Gefällt mir

Klicke zum Ausklappem

LurkingInShadows

Urgestein

1,387 Kommentare 584 Likes

#19 Dec 30, 2023

und das interessiert welche Firma? Gerne auch Nennungen weltweit.....

Antwort 1 Like

Alle Kommentare lesen unter igor´sLAB Community →

Danke für die Spende

Du fandest, der Beitrag war interessant und möchtest uns unterstützen? Klasse!

Hier erfährst Du, wie: Hier spenden.

Hier kannst Du per PayPal spenden.

Das NVIDIA RTX 4xxx Super-Portfolio ist komplett: schnellerer RAM, etwas mehr Takt und Spekulation über die Preise

MSI und Gigabyte geben einen ersten Blick auf die NVIDIA GeForce RTX 4080 SUPER, 4070 Ti SUPER und 4070 SUPER Custom-Modelle (LEAK)

About the author

View All Posts

Igor Wallossek

Chefredakteur und Namensgeber von igor'sLAB als inhaltlichem Nachfolger von Tom's Hardware Deutschland, deren Lizenz im Juni 2019 zurückgegeben wurde, um den qualitativen Ansprüchen der Webinhalte und Herausforderungen der neuen Medien wie z.B. YouTube mit einem eigenen Kanal besser gerecht werden zu können.

Computer-Nerd seit 1983, Audio-Freak seit 1979 und seit über 50 Jahren so ziemlich offen für alles, was einen Stecker oder einen Akku hat.

Folge Igor auf:
YouTube Facebook Instagram Twitter