Zwei ExaFLOPS: Aurora Supercomputer mit Intel Max Series CPUs und GPUs ist endlich fertig

23. Juni 2023 05:40

Am Donnerstag verkündeten das Argonne National Laboratory und Intel den erfolgreichen Abschluss der Installation von 10.624 Blades für den Supercomputer Aurora. Dieses System wird voraussichtlich im Laufe des Jahres 2023 in Betrieb genommen. Der Aurora-Supercomputer, der von HPE entwickelt wurde, besteht aus 166 Racks, von denen jedes 64 Blades enthält, insgesamt also 10.624 Blades. Jedes dieser Blades basiert auf zwei Xeon Max “Sapphire Rapids” Prozessoren mit 64 GB On-Pack HBM2E-Speicher und sechs Intel Data Center Max “Ponte Vecchio” Compute GPUs. Um eine beeindruckende Leistung von über zwei FP64 ExaFLOPS zu erreichen, werden diese CPUs und GPUs mithilfe eines speziellen Flüssigkeitskühlsystems gekühlt.

Der Aurora-Supercomputer beeindruckt mit seinen umfangreichen Ressourcen. Er verfügt über insgesamt 21.248 Universal-CPUs, die mit über 1,1 Millionen Hochleistungskernen ausgestattet sind. Zudem besitzt er beeindruckende Speicherkapazitäten, darunter 19,9 Petabyte (PB) DDR5-Speicher und 1,36 PB HBM2E-Speicher, der direkt mit den CPUs verbunden ist. Darüber hinaus ist der Supercomputer mit 63.744 Compute-GPUs ausgestattet, die speziell für massiv-parallele KI- und HPC-Workloads entwickelt wurden. Diese GPUs verfügen über 8,16 PB HBM2E-Speicher. Um die Leistungsfähigkeit dieser Ressourcen optimal zu nutzen, sind die Blades des Aurora-Supercomputers über die Slingshot Fabric von HPE miteinander verbunden. Diese speziell für Supercomputer entwickelte Verbindungstechnologie gewährleistet eine effiziente Datenübertragung und Kommunikation zwischen den Komponenten des Systems.

Jeff McVeigh, Corporate Vice President und General Manager der Super Compute Group von Intel, erklärte, dass Aurora den ersten Einsatz des Grafikprozessors der Max-Serie von Intel darstellt. Zudem handelt es sich um das größte Xeon Max-basierte System und den weltweit größten Grafikprozessor-Cluster. Er betonte das stolze Gefühl, Teil dieses historischen Systems zu sein, und zeigte sich begeistert von den revolutionären Möglichkeiten im Bereich KI, Wissenschaft und Technologie, die Aurora ermöglichen wird. Der Aurora-Supercomputer besteht aus einem Netzwerk von 1.024 Speicherknoten. Diese Knoten umfassen Solid-State-Speichergeräte mit einer beeindruckenden Kapazität von 220 TB und einer Gesamtbandbreite von 31 TB/s.

Während die Installation der Aurora-Blades erfolgreich abgeschlossen wurde, stehen noch die Abnahmetests des Supercomputers aus. Nach der geplanten Inbetriebnahme später in diesem Jahr wird er eine theoretische Spitzenleistung von über 2 ExaFLOPS erreichen, was ihn zum ersten Supercomputer mit dieser Leistung macht und ihn in die Top500-Liste aufnehmen würde. Rick Stevens, stellvertretender Laborleiter am Argonne National Laboratory, erklärte: “Während wir uns auf die Durchführung der Abnahmetests vorbereiten, werden wir Aurora nutzen, um umfangreiche generative Open-Source-KI-Modelle für wissenschaftliche Zwecke zu trainieren. Mit mehr als 60.000 Intel Max Grafikprozessoren, einem äußerst schnellen I/O-System und einem Solid-State-Massenspeichersystem bietet Aurora die ideale Umgebung für dieses Training.”

Während der Aurora-Supercomputer noch in der Testphase steckt und das ANL seine Leistungsergebnisse noch bei Top500.org einreichen muss, nutzte Intel die Gelegenheit, um die überlegene Leistung seiner Hardware im Vergleich zu konkurrierenden Lösungen von AMD und Nvidia zu präsentieren. Laut Intel haben vorläufige Tests mit den GPUs der Max-Serie gezeigt, dass sie sich durch ihre herausragende Leistung bei “realen wissenschaftlichen und technischen Workloads” auszeichnen. Sie bieten eine doppelt so hohe Leistung wie AMDs Instinct MI250X-GPUs auf OpenMC und können nahezu perfekt über Hunderte von Knoten skalieren. Zusätzlich gibt Intel an, dass ihre CPUs der Intel Xeon Max Serie einen Leistungsvorteil von 40 % gegenüber ihren Konkurrenten in zahlreichen realen HPC-Anwendungen wie HPCG, NEMO-GYRE, Anerlastic Wave Propagation, BlackScholes und OpenFOAM bieten.

Quelle: TomsHardware

9 Antworten

Zeige alle Kommentare an

Kommentar

Lade neue Kommentare

eastcoast_pete

Urgestein

1,731 Kommentare 1,062 Likes

#1 Jun 23, 2023

Na endlich! Das Baby kam nun wirklich mit der Zange zur Welt! Ist ja gut zu sehen, daß Intel das Supercomputer Bauen nicht verlernt hat, aber sollte Aurora nicht schon 2019 fertig sein? Und das war schon die verschobene Fertigstellung (und ja, vergrößerte Kapazität von 2015). Und ich weiß, daß HPE das Ding zusammen gebaut hat, aber es lag an den Intel blades, die ewig nicht fertig wurden, daß es so lange gedauert hat. Hoffentlich hat sich das Warten gelohnt. Auf jeden Fall war das für Intel was im Englischen so schön als "command performance" bezeichnet wird - das mußte klappen!
Und jetzt bin ich gespannt, ob und wie die Technik der Ponte Vecchio Beschleuniger sich in der nächsten Generation von Intels GPUs niederschlägt.

Antwort Gefällt mir

Ocastiâ

Veteran

109 Kommentare 50 Likes

#2 Jun 23, 2023

Das klingt ja alles ganz gut aber Läuft darauf Crysis?

Antwort Gefällt mir

Igor Wallossek

10,563 Kommentare 19,826 Likes

#3 Jun 23, 2023

Nur Krisis :D

Antwort 1 Like

eastcoast_pete

Urgestein

1,731 Kommentare 1,062 Likes

#4 Jun 23, 2023

Bei Aurora hat Intel selbst "die Krise" bekommen. Das war stellenweise schon ziemlich peinlich. Sowohl die CPUs (Sapphire Rapids) als auch die GPU-basierten Beschleuniger (Ponte Vecchio) die hier im Einsatz sind gingen ja um Jahre verspätet in die Serienproduktion. Deshalb mußte Aurora jetzt auch sitzen/laufen, da stand für Intel viel auf dem Spiel.

Antwort Gefällt mir

cunhell

Urgestein

565 Kommentare 536 Likes

#5 Jun 23, 2023

Die müssen das Ding erst mal durch die Abnahme kriegen und die versprochenen Performancewerte erreichen.
Denn so wie ich den Artikel verstanden habe, haben die jetzt einfach mal das letzte Bauteil eingebaut.

Von einem stabilen Regelbetrieb sind die noch ne ganze Ecke entfernt.

Cunhell

Antwort Gefällt mir

8j0ern

Urgestein

2,794 Kommentare 882 Likes

#6 Jun 23, 2023

Warts ab, sie werden liefern !

Aber, um welchen Preis ? 🧐

Antwort Gefällt mir

cunhell

Urgestein

565 Kommentare 536 Likes

#7 Jun 24, 2023

Das Ding hinzustellen ist der einfache Part sofern die Bauteile da sind.
Das Teil als Ganzes zum Laufen zu kriegen ist alles andere als trivial.

Normalerweise wird ein Budget festgelegt und man nimmt denn Hersteller der für den Preis die höchste Leistung liefert bzw. zu liefern verspricht.
Kann natürlich sein, dass das bei den Amis anders ist insbes. bei manchen Labs.
Wenn das Teil dann endgültig läuft, müssen die erst mal nachweisen, dass sie die versprochene Leistung auch liefern können.
Papier ist nämlich geduldig.
Eventuelle defekte Bauteile kommen noch on top.

Bis so eine Kiste rund läuft vergeht noch ne Weile. Und selbst ein erfolgreicher Linpack-Lauf bedeutet noch lange keinen stabilen Betrieb.

Cunhell

Antwort 1 Like

Martin Gut

Urgestein

7,985 Kommentare 3,725 Likes

#8 Jun 24, 2023

Nur noch den Grafikkartentreiber programmieren und ein paar Fehler beheben, dann könnte es laufen. :unsure: :p

Antwort Gefällt mir

HardwareEcke

Neuling

4 Kommentare 1 Likes

#9 Jun 26, 2023

Das hört sich doch super an! Sobald ich bestellen kann, werde ich das tun, oder soll ich lieber noch auf BIOS Updates warten? Nicht das er abraucht, wie die x3D-Cpu's :D

Antwort Gefällt mir

Alle Kommentare lesen unter igor´sLAB Community →

Danke für die Spende

Du fandest, der Beitrag war interessant und möchtest uns unterstützen? Klasse!

Hier erfährst Du, wie: Hier spenden.

Hier kannst Du per PayPal spenden.