Erst vor einiger Zeit gab es einen Test zwischen Intels Gaudi 2 und NVIDIAs H100-Beschleuniger. Nun hab man mit Gaudi 3 seine neuste Generation vorgestellt, die noch besser ist, als die Vorgängerin.
Gaudi 3 ist mit der neusten, also 5. Generation der Tensor Core-Reihe ausgestattet und zwar in einer Strukturbreite von 5 nm. Gaudi 3 beinhaltet 64 Kerne und basiert auf der Architektur von Gaudi 2. Allerdings bietet Gaudi 3 eine erhebliche Verbesserung bei der Rechenleistung, der Speicherbandbreite und dessen Architektureffizienz. Der Prozessor besitzt zwei Compute Dies, die 8 MME-Engines und 24x200GBps RDMA NIC-Ports tragen.
Ausgestattet ist der Prozessor zudem mit 8 HBM2e-Chips, einen einheitlichen 128 GB-Speicher und er zeichnet sich auch anhand seiner Performance-Werte aus. Hierbei bietet der KI-Beschleuniger 1,8 PFlops FP8- und BF16-Rechenleistung und 3,7 TB/s-Bandbreite bei Training und Inferenz. Zudem hat der Beschleuniger 96 MB On-Board-SRAM und soll ausreichend Speicher für die Verarbeitung großer GenAI-Datensätze auf weniger Intel Gaudi 3s bieten.
Intel gibt an, dass Gaudi 3 MME in der Lage ist, 64.000 parallele Operationen auszuführen. Die Intel Gaudi Software integriert das PyTorch-Framework und soll optimierte, gemeinschaftsbasierte Hugging-Face-Modelle bieten. Die Modelle sind das derzeit am weitesten verbreitete KI-Framework für GenAI-Entwickler. Dies ermöglicht es GenAI-Entwicklern, auf einer hohen Abstraktionsebene zu arbeiten, um die Nutzung und Produktivität zu vereinfachen und die Portierung von Modellen auf verschiedene Hardwaretypen zu erleichtern.
Auch betont das Unternehmen seine Schnelligkeit gegenüber NVIDIAs H100-Beschleuniger sowie H200-Beschleuniger. Hierbei soll man eine um 1.7x durchschnittliche bessere Performance haben. Als Vergleich zieht man hierbei einmal das LLAMA2 Modell mit 7B-Parametern, den LLAMA2 mit 13B-Paramaetern und Falcon mit 180B-Parametern heran. Beim H100-GPU-Beschleuniger hat man auch das GPT 3-Modell mit 175 Parametern verwendet. In all diesen Modellen schlägt man wohl den NVIDIA H100-Beschleuniger sowie dem H200 beim Falcon-Modell. Auch beim Thema Powereffizienz hat man einen Vorsprung.
Gaudi wird in drei Ausfertigungen hergestellt. Einmal als Intel Gaudi 3 AI Accelerator 325-L OAM Mezzanine Card, der auf dem Papier mit 900 W angegeben ist. Die zweite Variante ist der Intel Gaudi 3 AI Accelerator HLB-325 Baseboard, der eine angegebene 7.6 KW TDP hat, auf dem aber auch 8 HL-325L OAMs besitzt. Als Letztes ist der Intel Gaudi 3 AI Accelerator HL-338 PCIe Add-In Card mit am Bord, der nur eine TDP von 600 W hat.
Die luftgekühlte Gaudi 3-Beschleuniger-Version wird im zweiten Quartal 2024 ausgeliefert und zwar für OEMs, also z.B. Dell Technologies, Hewlett Packard Enterprise, Lenovo und Supermirco, in branchneüblichen Konfigurationen von Univseral Baseboard und Open Accelerator Module. Für die allgemeine Verfügbarkeit ist der Start im dritten Quartal 2024 geplant. Die Intel Gaudi 3-PCIe-Add-in-Karte wird voraussichtlich im letzten Quartal 2024 erhältlich sein.
Quelle: Intel
6 Antworten
Kommentar
Lade neue Kommentare
Veteran
Veteran
Mitglied
Urgestein
Veteran
Urgestein
Alle Kommentare lesen unter igor´sLAB Community →