NVidia NVIDIA registriert „Hopper“ GPU-Marke – eine MCM-GPU der nächsten Generation?

Jakob Ginzburg

Urgestein
Mitglied seit
Jun 17, 2018
Beiträge
843
Bewertungspunkte
290
Punkte
63
Die Kollegen von Videocardz haben ein paar neue Informationen zu NVIDIAs möglicherweise kommenden GPU-Architektur namens „Hopper“ veröffentlicht. Wer jetzt schon den Tab schließen mögliche und sich denkt „noch so ein Gerücht“, dem sei gesagt: Moment, an der Story hier ist mehr dran, als es auf den ersten Blick scheint. Denn NVIDIA hat mehrere Markennamen bei der zuständigen Behörde eintragen lassen, darunter „Aerial“. Die Marken tauchten beim US-Patent- und Markenamt auf und könnten auf eine neuartige MCM-GPU hinweisen.







NVIDIA könnte die MCM-Technologie etablieren und den Grafikprozessoren-Markt gewissermaßen revolutionieren. Ein Grafikprozessor, der so leistungsstark ist, dass kein bisheriger Prozessor – ja, auch Profi-GPUs sind hier gemeint – „Hopper“ das Wasser reichen könnte. Es dürfte dann auch der nächste Schritt in der GPU-Entwicklung sein. Hier erstmal die von NVIDIA eingetragenen offiziellen Marken, die auf eine Existenz des Grafikprozessors hinweisen:




Zum Beitrag: https://www.igorslab.de/nvidia-registriert-hopper-gpu-marke-eine-mcm-gpu-der-naechsten-generation/
 
Ich hätte zwar gedacht das AMD zuerst versuchen würde das auch bei GPUs um zu setzen, aber NVidia könnte als Vorreiter hier durchaus Sinn machen. Zum einen sind GPUs das Hauptgeschäftsfeld während AMD ja auch noch einen großen Anteil bei den CPUs hat. Zum anderen dürfte NVidia hier einfach mehr Budget rein buttern können. Denn das Problem bei der MCM Lösung dürfte ja auch zu einem großen Teil in der Software liegen. Multi GPU Karten oder auch SLI/Crossfire haben ja seit jeher das Problem der Mikroruckler. Das dürfte auf eine MCM GPU ebenso zutreffen. Dafür muss also eine Lösung her.
Ich stelle mir das persönlich vielleicht zu einfach vor, aber ich dachte immer das Alternate Frame Rendering wie es bisher genutzt wird an sich schon das Problem ist. Die alten 3dfx Voodoo Karten hatten da meine ich noch eine andere Verteilung. Wenn ich das richtig im Kopf habe würde da jede zweite Zeile des selben Bildes von einem der beiden Chips berechnet. Damit hätte man doch eine annähernd gleich gute Auslastung von zwei GPU Chips. Und man könnte es auch auf mehr GPU Chips ausweiten indem z.B. jede vierte Zeile von einem Chip berechnet wird.

Naja ich bin jedenfalls gespannt wann und was da in der Hinsicht kommen mag.
 
Das dürfte auf eine MCM GPU ebenso zutreffen. Dafür muss also eine Lösung her.
Man muss dem OS halt "nur" vorgaukeln, dass es lediglich eine GPU ist und die ankommende Last dann intelligent auf die zwei oder mehr Chips verteilen. Ist natürlich einfach zu schreiben, aber wohl nicht ganz so trivial in der Umsetzung :)
 
Ich denke da hat AMD mit dem Infinity Fabric ein ausgereifteres Standbein, was die Verbindung der einzelnen GPU-Dies auf der Platine betrifft.
AMD hat dahingehend ja schon einige Spielchen gezeigt, wenn auch nur als Papiertiger.

Ich denke aber, dass AMD da noch wartet und Verbesserungen durchführt, ehe das als Produkt auf dem Markt kommt. Denn der Infinity Fabric hat eine 50GB/s bidirektionale Bandbreite auf einer 32 Bit Schnittstelle und das ist derzeit einfach langsamer als PCI-E 3.0 - PCI-E 3.0 hat 64GB/s
Vegas Inifinity Fabric hingegen wurde auf 500Gb/s gepusht, noch damals unter der Fuchtel von Koduri, der den MCM Ansatz ja favorisierte. Nachdem aber diverse Engs. von Sony zusammen mit AMD Änderungen an der GCN-Arch durchführten, hat AMD das Thema für Navi jedenfalls komplett gestrichen, zugunsten der PS5.

AMDs Lösung könnte aber auch so geregelt werden, dass die einzelnen CCXs der CPU auf eine GPU zugeteilt werden können respektive auf die PCI-E Lanes respektive NUMA. Spätestens wenn Nvidia mit einem Produkt auf den Markt kommt, wird AMD da schnell kontern wollen, da sie eigentlich alles besitzen, was dazu nötig ist.

Denn: Als AMD das damals bekannt gab, dies tun zu wollen (Zukunft) kam Nvidia bereits 2017 mit einem Papiertiger-Konter. Also es ist sowohl bei Nvidia als auch AMD nichts neues, die arbeiten da seit etwas 2015 dran, wobei AMD mit Ryzen bereits Produkte auf dem Markt hat, die genau mit dem Ansatz arbeiten, und das sehr erfolgreich. Die Vorteile überwiegen einfach, aus dem gleichen Grund, weshalb Intel abkackt, mit ihren teuren Monoliten.
 
Zuletzt bearbeitet :
Ich glaube nicht, dass sich architektonisch irgendwas von den CPUs auf GPUs übertragen lässt. Allenfalls das Grundprinzip, aber keine Details und da steckt bekanntermaßen der Teufel drin. Das liegt schon beim Grundprinzip wie die Dinger jeweils arbeiten, wie sie von OS und/oder Anwendungen angesprochen werden und welchen Anforderungen sie gerecht werden müssen.
 
Den CPU Teil, sprich NUMA ist genau der Teil, den, Wang Favorisiert, genau derjenige, der mit AMD an der PS5 arbeitet, der sagte das schon letztes Jahr! Begründet hat er dies damit, dass es via CPU-Seite viel einfacher ist, auch in der Entwicklung von Spielen. Wenn bei den Konsolen schon so gedacht wird, kannst du es am PC vergessen, da kommt dann höchstens der Teil mit der CPU bzw. mit den CCXs bei raus, alles andere ist zu viel Aufwand. Das würde bedeuten, dass die CPU mehr beteiligt wird, als Aktuell. Sprich die Grafikkarten/DIEs mit einbezieht und alle gemeinsam auf einem Speicher zugreifen. Je mehr Kerne desto Sinniger wird es dann, wenn die CPU mehrere GPUs verwaltet und füttert. Da hätte man dann einen Nutzen, für so viele CPU Kerne: Verwaltung der MCM-GPUs über Infinity Fabric durch die cpu
 
Zuletzt bearbeitet :
Die Leistung aufzuteilen ist ja auch kein neues Thema, genausowenig wie es das MCM-Design ist. Da arbeitet man schon lange dran. Beispielsweise stellte nVidia vor etwa 6 Monaten auf einer Tech-Konferenz in Tokyo ein MCM-Design vor (voraussichtlich für eine Art NextGen-Volta). Dass das kommen wird, ist absehbar, schlicht weil aktuelle, monolithische Designs ihr Limit erreichen (wahrs. jedoch noch nicht final haben, denn für zumindest den Consumer-Turing-Nachfolger würde ich von nVidia noch einmal ein monolithisches Design erwarten).
Und auch bspw. Intels Xe-Architektur ist grundsätzlich auf ein MCM-Design ausgelegt (wobei erste Consumer-Modelle wohl auch hier eine Ein-Chip-Variante sein werden). Jedoch bereits das Xe-HPC-Design Ponte Vecchio ist ein massiv paralleler Rechenbeschleuniger, der aus 16 einzelnen Chips pro Karte besteht, die bspw. via Foveros/3D-Stacking den HBM-Speicher direkt auf dem Chip tragen. (Die Karten stellen die Basis für Intels Exaflops-Rechner Aurora in 2021.)

Eines der größte Probleme bei diesem Ansatz ist jedoch eher auf der Software-Seite zu suchen. In einem Interview sagte R.Koduri hierzu kürzlich:
"As you know, solving the multi-GPU problem is tough – it has been part of my pursuits for almost 15 years. I’m excited, especially now, because multiple things are happening. As you know, the software aspect of multi-GPU was the biggest problem, and getting compatibility across applications was tough. So things like chiplets, and the amount of bandwidth now going on between GPUs, and other things makes it a more exciting task for the industry to take a second attempt. I think due to these continual advances, as well as new paradigms, we are getting closer to solving this problem. Chiplets and advancement of interconnect will be a great boost on the hardware side. The other big problem is software architecture. With many interesting cloud-based GPU efforts, I am optimistic that we will solve the software problems as well." (Entsprechende Überlegungen dürften für GPUs wie GPGPUs gleichermaßen gelten.)
 
@gerTHW84


Wang äußerte sich Mitte letzten Jahres darauf wie folgt:

To some extent you're talking about doing CrossFire on a single package. The challenge is that unless we make it invisible to the ISVs [independent software vendors] you're going to see the same sort of reluctance. We're going down that path on the CPU side, and I think on the GPU we're always looking at new ideas. But the GPU has unique constraints with this type of NUMA [non-uniform memory access] architecture, and how you combine features... The multithreaded CPU is a bit easier to scale the workload. The NUMA is part of the OS support so it's much easier to handle this multi-die thing relative to the graphics type of workload"

AMD schmeißt mit Kernen nur so um sich.
Letzte Woche? (Papermaster glaube ich) noch groß posaunt, dass das nicht aufhören wird. Also... die CPU wird weite Teile der Verwaltung solcher MCM-GPUs übernehmen, dafür ist auch eigentlich bereits alles da, was man dazu braucht. Je früher AMD und Nvidia damit beginnen, desto günstiger wird es für sie ja, da pro Wafer deutlich mehr Ausbeute herrscht.

Korrigiert mich, wenn ich falsch liege, aber der Ansatz den Koduri verfolgte, der setzt voraus, dass die Entwicklung von Anwendungen dies berücksichtigt. Das muss ohne sowas funktionieren, indem die CPU das weitestgehend steuert/verwaltet. Für die Anwendung sieht es so aus, als sei es eine GPU, den Rest des Workloads regelt die CPU. Dann macht es auch Sinn, 8/16/32 Kerne im Rechner zu haben.

Der Gemeinsame Speicher steckt entweder auf der Platine der Grafikkarte, der via Infinity Fabric kommuniziert, oder sitzt als extra Slot zwischen PCIe und CPU und kommuniziert über die CPU Lanes und die Internen Dinge wie bereits jetzt via IF.
 
Zuletzt bearbeitet :
NVidia wird sich nicht aus reinem Spaß an der Freude Mellanox gekauft haben... die haben jedenfalls viel Ahnung von Bandbreite, Latenzen, Interconnects & Co. Da steckt viel Musik drin bzw. in so Spielchen wie NVLink2 und NVSwitch. Das Gesummse zur Not irgendwie auf einem Brett unterzubringen, dürfte das geringste Problem sein. Bleibt die Kostenfrage... ;)

Aber da liegt m.E. auch ein Teil des Problems: während beim Gaming im Prinzip alles von einem (mikro)Ruckler-Freiem Bild abhängt, interessiert das bei CAD, allg. Rendering, Machine/Deep Learning oder anderen HPC-Anwendungen keine Sau, sondern da stehen ganz andere Dinge im Vordergrund. Was für das eine funktioniert, taugt dann leider noch lange nicht für das andere - ist bisweilen sogar kontraproduktiv.

Naja, die Zeit wird zeigen, was für uns Zocker am Ende wirklich nutzbar ist bzw. uns weiter bringt. =)
 
Wie Besterino schon sagte "die Zeit wird zeigen, was für uns Zocker am Ende wirklich nutzbar ist bzw. uns weiter bringt".
Der Rest wird vorerst nur für das Datacenter relevant sein und für Zocker ggf. nur indirekt, bspw. wenn man Cloud-Gaming-Angebote nutzt, denn in 2020 erwarte ich noch von keinem Hersteller MCM-Consumer-GPUs.
Im Datacenter hat man im Augenblick das Problem der isolierten Speicherpools und Instanzen, über die Hinweg nur mit beträchtlichem Aufwand kommuniziert werden kann, der zudem immer weiter zunimmt, insbesondere bei ML. Das gleiche Problem hat man dann übertragen bereits direkt auf einzelnen Karten im MCM-Design. nVidia hat das mit NVLink zumindest über die Karten hinweg zu kompensieren versucht (und bspw. später noch den NVSwitch hinzugefügt), AMD versucht in Ermangelung von Alternativen auch hierfür seinen Infinity Fabric einzusetzen. Intel propagiert seinen Compute Express Link (CXL), der auf der PCIe Physical Layer (ab v5.0, 2021) aufsetzt.
Heterogeneous computing bleibt weiterhin ein zentrales Thema, sodass hier auch die Software mitspielen muss, so oder so. nVidias CUDA ist nur auf deren CPUs beschränkt, OpenCL war ein universeller Ansatz, den jedoch bspw. nVidia aufgrund seiner protektiven Haltung eher blockierte und Intel versucht hier sein neues OneAPI zu platzieren.
Interessant an Intels Vorgehen ist, dass man keinen Alleingang versucht, sondern sowohl CXL als auch das OneAPI offen gestaltet. Beispielsweise CXL wird Intel an die PCI-SIG zurückspielen und AMD hat bereits seine Unterstützung zugesagt.
 
Das zentrale Thema ist momentan m.E., die verschiedenen Komponenten besser mit einander zu verbinden bzw. sogar auf Teilbereiche "fremder" Hardware direkt oder zumindest besser zugreifen zu können. RDMA bei Netzwerkgedöns geht schon in die Richtung wie auch am Ende die gesamte Diskussion um die von gerTHW84 angesprochenen Interconnects. Bei ML/DL ist heute übrigens häufig Speicher der Flaschenhals, und zwar RAM (meistens der GPU). Und je schneller man die Daten von Datenträgern dahin bekommt, ist natürlich auch fein. Das gilt im Kleinen (also innerhalb eines Systems) wie in ganzen Clustern (also System-übergreifend).

Problem dabei ist generell, dass die Systeme viel zu wenig richtig schnellen Speicher zentral zur Verfügung haben. Die herkömmliche Anbindung von RAM über die CPU zum Rest ist für die GPU-Numbercruncher jedenfalls viel zu lahm (selbst zum Zocken). Man muss nur mal die Bandbreite und Takt von GPU-RAM zu CPU-RAM vergleichen. Glaube auch nicht, dass das mit PCIe 5.0 oder DDR5 deutlich besser wird.

Allein kann das jedenfalls kein Hersteller mehr lösen, schon weil keiner (mehr) die Marktmacht hat, eine proprietäre Lösung samt aller Komponenten aus einem Haus beim Kunden durchzudrücken. Umgekehrt können Spezialhersteller wie NVidia nur bedingt Einfluss auf das Gesamtsystem nehmen (mit IBM und der Power9-Plattform ist ihnen das immerhin teilweise gelungen), um eigene Vorstellungen umzusetzen.

Bis man an der Ecke weiter ist, muss halt jeder seins noch weiter optimieren bzw. skalieren, so gut es geht.
 
Die Zentrale, Neutrale Rolle könnte man den MB-Herstellern geben, die sind doch sowieso im mimimi-Modus. :D
 
Never ever. Bzw. kommt drauf an: Die sind ja regelmäßig schon zu doof, nach Specs zu bauen. Zumindest bei Consumer-Boards. Bei Profi-Equipment sieht's zum Glück etwas anders aus.

Und die finanziellen Mittel für echtes R&D hat von denen sowieso keiner.
 
Hamse halt mal wat zutun, um die Preise zu rechtfertigen (y)😄
 
Hamse halt mal wat zutun, um die Preise zu rechtfertigen (y)😄

Dass liest sich ganz witzig, aber du glaubst doch nicht im Ernst, dass die Mainboardhersteller hier zum neuen Release einen gemeinsamen Geistesblitz hatten und mal eben beschlossen für X570-Boards ordentlich zuzulangen.
Wenn du hierzu eine Erklärung suchst, wirst du wohl eine Stufe höher in der Vertriebskette steigen müssen. ;)
 
Ne. Glauben in der Tat nicht. Ich bin was die MB-Hersteller betrifft schon lange auf Kriegsfuß. Dahingehend wünsch ich denen alles, nur kein Mitspracherecht in irgendwelchen Technischen Angelegenheiten.
 
Irgendwie erschließt sich mir nicht der kausale Zusammenhang zwischen Multi-Chip Architektur und Grace Hopper.
Die Dame war mir eher für ihre Arbeit an Compilern bekannt.
„Aerial“ ist eine Hebefigur beim Ballet. Was "hebt" Nvidia damit?
Kann mich da jmd aufklären?
Auch hätte ich so etwas jetzt eigentlich eher von AMD erwartet,
da meine persönliche Übersetzung für RDNA Radeon Dynamic Node Architektur (oder etwas ähnliches) ergibt.
Von daher hätte ich jetzt AMD den großen Wurf zugetraut. Auch, weil sie bei den CPUs schon diesen Ansatz haben.
Was ich bisher so munkeln gehört habe, sollte so etwas bei NVIDIA erst in der Übernächsten Gen Spruchreif sein.
Aber gut, eh alles nur Mutmaßungen.
 
Zuletzt bearbeitet :
Schlussendlich, Namen sind doch nur Schall und Rauch und abgesehen davon ist (zumindest m.W.) immer noch nicht eindeutig geklärt, ob bspw. Ampere tatsächlich ein Consumer-Design wird, denn einige Monate nachdem der Name das erste Mal geleakt ist, kamen neue Indikationen zu Tage, die eher auf ein Datacenter-Design (spricht NextGen-Volta) hindeuteten. Hier muss man einfach mal abwarten.

Und ein MCM-Aufbau ist keine Erfindung von AMD, sondern schon weitaus älter. Und darüber hinaus zu berücksichtigen ist, dass nVidia in jedweder Hinsicht größer als AMD ist. Die haben deutlich mehr Umsatz, wesentlich mehr Gewinn, mehr Personal (oder zum. gleich viel, wenn man Mellanox als komplett unabhängig ansieht) und deren R&D-Ausgaben sind weitaus höher als die von AMD insgesamt. Hinzu kommt, dass sich bei nVidia nahezu alles um GPUs dreht (mit der Ausnahme von ein wenig Automotive), während GPUs bei AMD nur einen Teil des Geschäfts ausmachen *).

*) Bei AMD kann man das nicht so ganz auseinanderpflücken, da sie die Geschäftssegmente in der Bilanzierung absichtlich zusammenlegen, sodass man keine unmittelbaren Rückschlüsse ziehen kann, da es hier nur die Segmente "Computing and Graphics" und "Enterprise, Embedded and Semi-Custom" gibt. Ersteres enthält sämtliche GPUs sowie Desktop-, Notebook-Prozessoren und Chipsätze und sogar noch ein wenig IP-Geschäft.
 
Oben Unten