AI/KI • Enterprise Solutions • Grafikkarten • News • Professional

NVIDIA goes MCM und kündigt Blackwell auf der GTC 2024 offiziell an: Details zum Monster-Chip

18. März 2024 23:00

NVIDIAs nächste Generation der Blackwell-Architektur, benannt nach dem renommierten amerikanischen Mathematiker und Statistiker David Harold Blackwell, soll den Weg für bahnbrechende Fortschritte in der GPU-Technologie ebnen. Die neue Blackwell-Serie, insbesondere die B100 GPU, wird noch in diesem Jahr eingeführt und verspricht eine bedeutende Leistungssteigerung gegenüber ihrer Vorgängerin, der Hopper GH200 Serie, indem sie mehr als die doppelte Leistung der Hopper H200 GPUs bieten soll. Die Blackwell-GPUs repräsentieren somit nicht nur einen bedeutenden Fortschritt in NVIDIAs GPU-Technologie, sondern sind auch eine Hommage an David Harold Blackwells beispiellose Beiträge zur Mathematik und Statistik, indem sie den Grundstein für die nächste Ära der KI und des Computings legen. Um jetzt Verwirrungen vorzubeugen: Bei den NVIDIA Blackwell GPUs spricht man einerseits von B200 und andererseits von GB200, da diese Bezeichnungen unterschiedliche Produkte innerhalb der Blackwell-Architektur darstellen. Dazu gleich mehr.

NVIDIA nutzt jetzt ebenfalls Multi-Chip Module (MCM)

Dieser gewaltige Sprung wird durch Fortschritte wie ein Chiplet-Design ermöglicht, übrigens das erste seiner Art für NVIDIA, und man positioniert sich damit neu, um direkt mit AMDs kommendem Instinct MI300 Beschleuniger zu konkurrieren. Das neue Chiplet-Design, ein Multi-Chip Module (MCM), stellt für NVIDIA eine wichtige Neuerung dar und deutet auf einen großen Wandel in der Verpackungstechnik hin. Dieses Design ermöglicht eine flexible Anpassung der GPUs an verschiedene Kundenanforderungen, ohne dass die Anzahl der CUDA-Cores wesentlich verändert werden muss. Es wird erwartet, dass sich dadurch die Architektur der GPU-Cluster signifikant verändern wirdt, um den neuen MCM-Ansatz zu unterstützen.

Im Gegensatz zu bisherigen monolithischen Designs, bei denen ein einziger großer Chip verwendet wurde, ermöglicht die Chiplet-Technologie eine effizientere Produktion und kann potenziell die Ausbeute während des Herstellungsprozesses erhöhen. TSMCs CoWoS (Chip on Wafer on Substrate) Technologie spielt eine Schlüsselrolle bei der Realisierung dieser neuen Verpackungstechniken, wobei NVIDIA und AMD um Zugang zu dieser Spitzentechnologie konkurrieren. Die Umstellung auf ein Chiplet-Design könnte NVIDIA auch in die Lage versetzen, weiterhin hochleistungsfähige GPUs für High-End-Gaming-PCs anzubieten, insbesondere in einer Zeit, in der ASMLs nächste Generation von Scannern die Reticle-Größe halbiert.

CoWoS ist eine 2,5D-IC-Verpackungstechnologie, die mehrere Dies nebeneinander auf einem Silizium-Interposer integriert. Diese Anordnung ermöglicht eine bessere Verbindungsdichte und Leistung im Vergleich zu herkömmlichen Verpackungsmethoden. Es verwendet Through-Silicon Vias (TSVs) und Mikro-Bumps, um einzelne Chips mit dem Silizium-Interposer zu verbinden, der dann mit einem Paket-Substrat verbunden wird, um eine hochgeschwindigkeits- und hochbandbreite Kommunikation zwischen den Chips zu erreichen.

TSMC hat mittlerweile verschiedene CoWoS-Varianten entwickelt, darunter CoWoS-R und CoWoS-L, um unterschiedlichen Anwendungsbedürfnissen gerecht zu werden. CoWoS-R nutzt die InFO-Technologie (Integrated Fan-Out) und verwendet einen RDL-Interposer (Redistribution Layer) für die Verbindung zwischen Chiplets, insbesondere nützlich für High Bandwidth Memory (HBM) und SoC (System on Chip)-Integrationen. Es bietet bis zu 6 Schichten aus Kupferrouten mit einem minimalen Pitch von 4µm und bietet eine ausgezeichnete Signal- und Stromintegrität. CoWoS-L kombiniert nun die Vorteile der CoWoS-S- und InFO-Technologien, indem ein Interposer mit LSI-Chips (Local Silicon Interconnect) für dichte Die-zu-Die-Verbindungen verwendet wird wie bei Blackwell. Diese Version beginnt mit einer 1,5-fachen Retikel-Interposer-Größe und zielt darauf ab, durch Erweiterung der Interposer-Größe mehr Chips zu integrieren, wodurch eine größere Flexibilität und höhere Integration für komplexe Funktionen ermöglicht wird.

Blickt man in die Zukunft, entwickelt TSMC eine 6-fache Retikel-Größe CoWoS-L-Technologie mit Super Carrier Interposer-Technologie, um den gestiegenen Anforderungen von KI- und HPC-Anwendungen gerecht zu werden, indem noch größere Prozessoren mit komplexen Multi-Tile-Chiplet-Designs ermöglicht werden. Diese Weiterentwicklung könnte SiPs (System in Package) von 5148mm² ermöglichen und die Integration mehrerer großer Compute-Chiplets und erheblicher HBM-Speicher zulassen, die dann potenziell Bandbreiten bis zu 9,8 TB/s erreichen könnten.

NVIDIAs neuer Super-Chip GB200

Der NVIDIA GB200 Grace Blackwell Superchip verbindet zwei NVIDIA B200 Tensor Core GPUs mit der NVIDIA Grace CPU über eine 900GB/s ultra-niedrigenergetische NVLink Chip-zu-Chip-Verbindung. Für höchste KI-Leistung können GB200-betriebene Systeme mit den ebenfalls heute angekündigten NVIDIA Quantum-X800 InfiniBand und Spectrum™-X800 Ethernet-Plattformen verbunden werden, die fortschrittliche Netzwerkfähigkeiten mit Geschwindigkeiten von bis zu 800Gb/s liefern. Er ist 208 Milliarden Transistoren ausgestattet, werden die Blackwell-Architektur-GPUs mithilfe eines speziell entwickelten 4NP-TSMC-Prozesses hergestellt, mit zwei Retikelgrenzen GPU-Dies, die durch eine 10 TB/Sekunde Chip-zu-Chip-Verbindung zu einer einzigen, einheitlichen GPU verbunden sind.

Diese immense Transistoranzahl deutet auf NVIDIAs Ambition hin, die Rechenfähigkeiten, insbesondere in den Bereichen KI und HPC, erheblich zu steigern. Darüber hinaus beinhaltet NVIDIAs Roadmap einen Nachfolger für Blackwell in Form der GX200, geplant für eine Einführung um 2025-2026, was auf das anhaltende Engagement des Unternehmens für Innovationen in der GPU-Technologie hinweist. Darüber hinaus ist Blackwell mit Microns weltweit schnellstem HBM3e-Speicher bestückt. Diese Entwicklung wird bis zu 141GB pro GPU und bis zu 4,8TB/s Speicherbandbreite bieten, was NVIDIAs Bemühungen unterstreicht, den wachsenden Anforderungen nach höherer Speicherkapazität und Bandbreite in KI- und HPC-Anwendungen gerecht zu werden.

Bereits das Training großer Sprachmodelle wie GPT-3, mit 1,75 Billionen Parametern, stößt auf erhebliche Herausforderungen, insbesondere bei der Datenübertragung und Kommunikation innerhalb von GPU-Clustern. Die Hauptengpässe liegen in der effizienten Kommunikation von Daten zwischen den Knoten im Trainingscluster. Fortgeschrittene Netzwerklösungen wie das end-to-end InfiniBand-Netzwerk sind entscheidend, um diese Herausforderungen zu überwinden, indem sie hochgeschwindigkeitsfähige, zuverlässige Netzwerke mit Fähigkeiten wie 400 Gbps Übertragungsraten und Mikrosekunden-Latenz bieten, was Ethernet weit übertrifft.

InfiniBands Datenredundanz, Fehlerkorrekturmechanismen und Remote Direct Memory Access (RDMA)-Technologie ermöglichen direkte Datenübertragungen zwischen Anwendungen, was den CPU-Ressourcenverbrauch reduziert und die Trainingseffizienz erhöht. Ein Compute Fabric, oft auch als Rechnergewebe bezeichnet, ist ein flexibles und skalierbares Netzwerk von Rechnerressourcen, das die Integration und das Management von Servern, Speicher- und Netzwerkdiensten über eine einheitliche Plattform ermöglicht. Es zielt darauf ab, die Effizienz und die Leistungsfähigkeit von Datenzentren zu erhöhen, indem es eine nahtlose Konnektivität und eine hohe Durchsatzrate zwischen den verschiedenen Komponenten bietet.

Der GB200 ist eine Schlüsselkomponente des NVIDIA GB200 NVL72, eines flüssigkeitsgekühlten Rack-Systems für die rechenintensivsten Arbeitslasten. Es kombiniert 36 Grace Blackwell Superchips, die 72 Blackwell GPUs und 36 Grace CPUs umfassen, verbunden durch NVLink der fünften Generation. Zusätzlich enthält GB200 NVL72 NVIDIA BlueField®-3 Datenverarbeitungseinheiten, um Netzwerkbeschleunigung in der Cloud, zusammensetzbaren Speicher, Zero-Trust-Sicherheit und GPU-Rechenelastizität in hyperskalaren KI-Clouds zu ermöglichen. GB200 NVL72 bietet eine bis zu 30-fache Leistungssteigerung im Vergleich zur gleichen Anzahl von NVIDIA H100 Tensor Core GPUs für LLM-Inferenzarbeitslasten und reduziert die Kosten und den Energieverbrauch um bis zu 25x. Die Plattform agiert als eine einzelne GPU mit 1,4 Exaflops KI-Leistung und 30TB schnellem Speicher und ist ein Baustein für den neuesten DGX SuperPOD. NVIDIA bietet das HGX B200, ein Serverboard, das acht B200 GPUs durch NVLink verbindet, um x86-basierte generative KI-Plattformen zu unterstützen. HGX B200 unterstützt Netzwerkgeschwindigkeiten von bis zu 400Gb/s durch die NVIDIA Quantum-2 InfiniBand und Spectrum-X Ethernet-Netzwerkplattformen.

NVIDIA hat mit seiner fünften Generation von NVLink und dem NVLink Switch 7.2T signifikante Fortschritte in der High-Performance-Computing (HPC) und Künstlichen Intelligenz (KI) gemacht. Diese Technologien sind ein Kernstück der neuen Blackwell GPU. Mit bis zu 1,8 TB/s voller bidirektionaler Bandbreite zwischen allen und einer deutlich größeren Anzahl von beteiligten GPUs (Slaklierung auch über mehrere Racks) steigert man die Geschwindigkeit aktueller Multi-Node-Interconnects auf das 18-Fache.

NVIDIAs Blackwell- und Hopper-Serien unterstreichen den strategischen Fokus des Unternehmens auf KI- und HPC-Märkte, mit kontinuierlichen Innovationen, die darauf abzielen, beispiellose Rechenleistung und Effizienz zu liefern. Die Einführung der Blackwell GPUs markiert einen Wendepunkt in der Evolution der GPU-Technologie, der verspricht, die Fähigkeiten der nächsten Generation von Recheninfrastrukturen erheblich zu verbessern. Man darf somit gespannt sein.

So wird Blackwell auch in NVIDIAs DDX Cloud Einzug halten. Dabei handelt es sich um eine Plattform, die speziell für künstliche Intelligenz (KI) und Deep Learning Workloads konzipiert wurde. Sie bietet Zugang zu leistungsstarken DGX-Systemen in der Cloud, die mit NVIDIA GPUs ausgestattet sind. Diese Plattform richtet sich an Wissenschaftler, Ingenieure und Entwickler, die komplexe KI-Modelle und High-Performance Computing (HPC) Aufgaben effizient und schnell bearbeiten müssen, ohne in teure Hardware vor Ort investieren zu müssen. Wichtig ist hierbei auch die Flexibilität, Ressourcen nach Bedarf hoch- oder herunterfahren zu können, was eine kosteneffiziente Lösung für Projekte verschiedener Größen und Anforderungen darstellt.

Die DGX Cloud-Plattform integriert zudem verschiedene Software-Tools und Frameworks, die für die Entwicklung und das Training von KI-Modellen notwendig sind, wie z.B. TensorFlow, PyTorch und NVIDIA’s eigenes CUDA Toolkit. Dies vereinfacht den Workflow erheblich, da Benutzer nicht mehrere Softwarekomponenten manuell installieren und konfigurieren müssen. Ein weiterer wichtiger Aspekt der DGX Cloud ist die Möglichkeit, auf eine Gemeinschaft von Experten und Ressourcen zuzugreifen. NVIDIA bietet umfangreiche Dokumentationen, Best Practices und Support, um Nutzern zu helfen, das Maximum aus ihren DGX-Cloud-Instanzen herauszuholen. Dies ist besonders wertvoll für Teams, die neu in der Welt der KI sind oder ihre bestehenden Fähigkeiten erweitern möchten.

Es wird erwartet, dass Cisco, Dell, Hewlett Packard Enterprise, Lenovo und Supermicro eine breite Palette von Servern auf Basis der Blackwell-Produkte liefern werden, ebenso wie Aivres, ASRock Rack, ASUS, Eviden, Foxconn, GIGABYTE, Inventec, Pegatron, QCT, Wistron, Wiwynn und ZT Systems. Zusätzlich wird ein wachsendes Netzwerk von Softwareherstellern, einschließlich Ansys, Cadence und Synopsys – weltweit führende Unternehmen in der Ingenieursimulation – Blackwell-basierte Prozessoren nutzen, um ihre Software für das Design und die Simulation von elektrischen, mechanischen und fertigungstechnischen Systemen und Teilen zu beschleunigen. Ihre Kunden können generative KI und beschleunigtes Rechnen nutzen, um Produkte schneller, kostengünstiger und mit höherer Energieeffizienz auf den Markt zu bringen.

Das Produktportfolio von Blackwell wird von NVIDIA AI Enterprise unterstützt, dem Betriebssystem für produktionsreife KI von Anfang bis Ende. NVIDIA AI Enterprise umfasst NVIDIA NIM™ Inferenz-Mikroservices – ebenfalls heute angekündigt – sowie KI-Frameworks, Bibliotheken und Tools, die Unternehmen in NVIDIA-beschleunigten Clouds, Rechenzentren und Workstations einsetzen können.

NVIDIA hat diese Informationen vorab unter NDA zur Verfügung gestellt. Einzge Bedingung war die Einhaltung der Sperrfrist

29 Antworten

Zeige alle Kommentare an

Kommentar

Lade neue Kommentare

Onkel-Föhn

Veteran

101 Kommentare 59 Likes

#1 Mar 19, 2024

Bin mal auf die Preise gespannt. Sicherlich bekommt man dafür einen Mittelkasse Wagen ... :rolleyes:

Antwort 2 Likes

Case39

Urgestein

2,558 Kommentare 969 Likes

#2 Mar 19, 2024

WTF! Ein Monster.

Antwort Gefällt mir

Guest

#3 Mar 19, 2024

Ist es doch jedes mal....jede News zu sowas ist jedes Jahr das gleiche. Marketing.

Wir sind an einem Punkt angekommen das weiß man was zu erwarten ist.

Antwort Gefällt mir

Igor Wallossek

10,563 Kommentare 19,826 Likes

#4 Mar 19, 2024

MCM ist durchaus interessant, zumal man jetzt auf die gleiche Klebe-Technologie setzt wie AMD mit den MI300 Instinct. Nicht die Anzahl der Transistoren ist hier interessant, sondern der Unterschied zu Hopper. Wenn die Consumer-Karte mit nur einem Die (B100) kommen würde, wäre das immer noch dopppelt so schnell wie die 4090. Das ist kein Marketing, sondern fast schon beängstigend.

Antwort 6 Likes

pintie

Veteran

186 Kommentare 134 Likes

#5 Mar 19, 2024

einen
dann nehm ich mal 2 Stück...

Antwort Gefällt mir

Ghoster52

Urgestein

1,463 Kommentare 1,128 Likes

#6 Mar 19, 2024

NVs Schritte werden größer, wenn man so RTX 20xx > 30xx > 40xx verfolgt.
Leider auch bei den Preisen...
Alle 2 Jahre bei GPUs ;), immer noch besser wie Intels jährliche + 3-5% Updade bei CPUs

Antwort Gefällt mir

Guest

#7 Mar 19, 2024

JA aber es ist immer das selbe.

Erst heißt es Monster bla bla. Dann kommen bald Gaming gpu gerüchte das es doppelt so schnell sein wird bla bla. (wobei wir wissen das es unmöglich ist ohne upscaling,framegen)

Dann jedes Monat verliert das Ding 10% Leistung bis es wieder auf die regulären 30-50% sind wie immer. :sneaky: rtx 4000 waren es halt 55-70% wegen 2 node sprünge auf einmal. Sowas werden wir nicht mehr wieder erleben.

Wenn man die Shader anzahl weiß ist man zu 95% dort wie schnell sie sein wird.

Jedes mal das gleiche und die Leute die von Klicks leben und die Twitter helden labbern schrott und die presse postet auch noch schön den mist in dem wissen das es mist ist. idiocracy at best

Siehe 4070 zur 4070 super passt genau aufs % nicht in jedem Spiel aber average kommt das schon hin. 4070s zur 4070 ti das gleiche usw.

Antwort Gefällt mir

Igor Wallossek

10,563 Kommentare 19,826 Likes

#8 Mar 19, 2024

Was hat das Thema hier jetzt primär mit Gaming zu tun? Es sind KI-Chips und wenn NV sagt, es ist x-mal schneller, dann glaube ich denen das sogar, denn die Teile laufen ja schon und ich möchte nicht die Klagen der Kunden wie Google oder Amazon sehen, die das dann widerlegen. Betrug fliegt da schneller auf, als einer Mops sagen kann.

Die Gaming-Chips sind Salvage des KI-Kuchens und sorry, aber Gamer sind am Ende auch nicht nicht besser als sozial-mediale Clickbaiter: beide leben nämlich vom Abfall der Industrie. Die ersteren bekommen dafür Geld, die letzteren zahlen dafür auch noch. Und man wäre doch als Chipanbieter bekloppt, würde man dem abhängigen Gaming-Junkies mehr geben, als unbedingt nötig. Das heißt Marktwirtschaft und Jensen ist auch nicht Vater Teresa. Im Übrigen ist da AMD keinen Deut besser als NVIDIA und wenn man wie AMD über den Preis geht, dann nur deshalb, weil man es mal wieder muss.

Antwort 6 Likes

eastcoast_pete

Urgestein

1,732 Kommentare 1,063 Likes

#9 Mar 19, 2024

Interessant finde ich auch, daß NVIDIA das NVL72 Rack System mit Blackwell und Grace als "New Unit of Compute" bezeichnet - also NUC. Okay, etwas größer als mein alter NUC, kann wahrscheinlich nicht per VESA hinten an den Monitor gehängt werden, und teurer wird der NVL72 auch sein, aber auch viel schneller. Das Vorbestellen werde ich mir trotzdem verkneifen 😁.
Im Ernst, diese Beschleuniger (auch der MI Instinct von AMD) und ihr Packaging sind wirklich bleeding edge, und man kann da manchmal erahnen, was in den nächsten Jahren auch in Systemen für uns Endverbraucher kommen kann. Die Kachel Architektur macht gerade bei größeren CPUs und GPUs viel Sinn, denn der Ausschuss (pro Wafer) durch "fatal flaws" geht zumindest in der Theorie deutlich zurück. Je nach Design könnte Nvidia dann hier auch verschieden große GPUs durch Zusammenfügen von mehr oder weniger Compute Kacheln produzieren, sofern die Kosten für das Packaging den Vorteil nicht übersteigen. Bin ich mal gespannt!

Antwort 1 Like

eastcoast_pete

Urgestein

1,732 Kommentare 1,063 Likes

#10 Mar 19, 2024

Das wird wahrscheinlich nicht reichen; meine Annahme für den Preis eines NVL72 Rack Systems ist eher eine schöne Villa in bester Lage in München oder Berlin.

Antwort 1 Like

8j0ern

Urgestein

2,794 Kommentare 882 Likes

#11 Mar 19, 2024

Je nach Lage eben, hier: https://www.cloudno7.de/ gab es eine 180qm Wohnung für schlanke 7,2 Millionen Euro.
Ist das so die Preisklasse einer ganzen Villa (300-500qm) ?

Antwort Gefällt mir

Guest

#12 Mar 19, 2024

lmao aber auf die spucken die einen gro0 gemacht haben. ganz großes kino.

Antwort Gefällt mir

8j0ern

Urgestein

2,794 Kommentare 882 Likes

#13 Mar 19, 2024

Freiheit, Leben, Gesundheit.

FLG

Work Live Balance, ihr entscheidet selbst.

Antwort Gefällt mir

Igor Wallossek

10,563 Kommentare 19,826 Likes

#14 Mar 19, 2024

Noch einmal: das ist Marktwirtschaft und nicht familiäres Gruppenkuscheln. War es noch nie. AMD ist da fast noch schlimmer. Das Underdog-Sympathiepflaster ist schon lange durchgeblutet. Wenn sie können, wie sie wollen, geht das arg ab, siehe Mainboards und CPUs :D

Antwort 2 Likes

8j0ern

Urgestein

2,794 Kommentare 882 Likes

#15 Mar 19, 2024

Manchmal muss man die Leute, auf den Boden der Tatsachen bringen.
Damit sie Verstehen was Konsequenzen, sind.

Antwort Gefällt mir

HerrRossi

Urgestein

6,824 Kommentare 2,256 Likes

#16 Mar 19, 2024

Richtig. Und wenn die Preise bezahlt werden, dann werden die Produkte auch zu diesen Preisen verkauft. Da kann der Kunde nur gegenwirken, indem er nicht kauft, dann sinken die Preise auch irgendwann.

Och, ich kann mich eigentlich nicht beklagen, mein 7950X3D war günstiger als der 5950X und das MB (Strix X670E-A) war auch nur 50 EUR teurer als mein altes X570.

Da nimmt Nvidia doch deutlich größere Schlucke aus der Pulle. Aber warten wir mal ab, was eine 5090 denn kosten wird, falls es überhaupt eine gibt.

Bei den KI-Beschleunigern ist der Preis sowieso irrelevant, da wird richtig Geld mit verdient.

Antwort 3 Likes

8j0ern

Urgestein

2,794 Kommentare 882 Likes

#17 Mar 19, 2024

Wer anfängt Spielchen zu spielen, der muss auch zu Ende Spielen.

Ganz einfache Formel der Mechanik...

Antwort Gefällt mir

Onkel-Föhn

Veteran

101 Kommentare 59 Likes

#18 Mar 19, 2024

Jumanji 🦁

Antwort Gefällt mir

8j0ern

Urgestein

2,794 Kommentare 882 Likes

#19 Mar 19, 2024

Yes,

We Play with any body.

Antwort 1 Like

Alle Kommentare lesen unter igor´sLAB Community →

Danke für die Spende

Du fandest, der Beitrag war interessant und möchtest uns unterstützen? Klasse!

Hier erfährst Du, wie: Hier spenden.

Hier kannst Du per PayPal spenden.

Jetzt wirds spannend! Apple ist im Gespräch mit Google, um Gemini auf IOS zu bringen

Acer bringt mit Predator BiFrost Radeon RX 7900 GRE OC eine neue interessante GPU raus

About the author

View All Posts

Igor Wallossek

Chefredakteur und Namensgeber von igor'sLAB als inhaltlichem Nachfolger von Tom's Hardware Deutschland, deren Lizenz im Juni 2019 zurückgegeben wurde, um den qualitativen Ansprüchen der Webinhalte und Herausforderungen der neuen Medien wie z.B. YouTube mit einem eigenen Kanal besser gerecht werden zu können.

Computer-Nerd seit 1983, Audio-Freak seit 1979 und seit über 50 Jahren so ziemlich offen für alles, was einen Stecker oder einen Akku hat.

Folge Igor auf:
YouTube Facebook Instagram Twitter