NVIDIA vs. AMD und Workstation vs. Consumer: Wer hat die Nase bei den KI-Grafikkarten-Benchmarks vorn?

23. Mai 2024 05:30

Heute machen wir einmal etwas komplett Anderes, denn es geht einmal nicht ums Gaming, das wird mittlerweile langsam langweilig, sondern um das neue Goldene Kalb, nämlich die KI. NVIDIAs gestern verkündetes Rekorergebnis von 26,04 Mrd. Dollar Umsatz stellt ein Plus von 262 Prozent dar, so dass es einfach mal Zeit für einen Test war. Ich teste insgesamt 12 Grafikkarten, jeweils 6 von AMD und 6 von NVIDIA. Das Besondere daran ist die Auswahl, denn es treten von jedem Hersteller die aktuell drei schnellsten Workstation- und Consumer-Karten gegeneinander an, bei NVIDIA zudem mit und ohne Nutzung der Tensor-Kerne

Der von mir heute genutzte UL Procyon AI Computer Vision Benchmark bietet dafür genau die detaillierten Einblicke in die Leistung von AI-Inferenz-Engines auf dieser Hardware in einer Windows-Umgebung, die wir benötigen. Dieser Benchmark umfasst mehrere AI-Inferenz-Engines von verschiedenen Anbietern und bewertet die Performance von On-Device-Inferenzoperationen.

AI-Workloads und Aufgaben

Die AI-Workloads umfassen gängige maschinelle Bildverarbeitungsaufgaben wie Bildklassifizierung, Bildsegmentierung, Objekterkennung und Super-Resolution. Diese Aufgaben werden mit einer Reihe populärer, hochmoderner neuronaler Netzwerke ausgeführt, die auf der CPU, GPU oder einem speziellen AI-Beschleuniger des Geräts laufen, um die Hardwareleistung zu vergleichen. Zur Messung der AI-Inferenzleistung werden verschiedene SDKs genutzt, darunter:

Microsoft® Windows ML
Qualcomm® SNPE
Intel® OpenVINO™
NVIDIA® TensorRT™
Apple® Core ML™

Der Benchmark verwendet verschiedene neuronale Netzwerk-Modelle, darunter:

MobileNet V3: Für visuelle Erkennung auf mobilen Geräten optimiert.
Inception V4: Ein genaues Modell für Bildklassifizierungsaufgaben.
YOLO V3: Zur Objekterkennung und Lokalisierung von Objekten in Bildern.
DeepLab V3: Für die semantische Bildsegmentierung.
Real-ESRGAN: Für Super-Resolution, um Bilder auf höhere Auflösung hochzuskalieren.
ResNet 50: Bietet eine neuartige Methode zur Hinzufügung von mehr Schichten in neuronalen Netzwerken.

Der Benchmark umfasst sowohl float- (FP32, FP16) als auch integer-optimierte Versionen jedes Modells, die nacheinander auf allen kompatiblen Hardwarekomponenten des Geräts ausgeführt werden. Aber genau zu diesen ganzen Einzelbenchmarks habe ich dann auf der jeweiligen Seite noch eine genaue Erklärung, weil ich nicht voraussetzen kann, dass jeder weiß, was ich da genau teste. Aber ich bin mir sicher, dass das Thema (a) interessant und (b) auch zukunftsorientiert ist, so dass sich (c) die Leser auch dafür interessieren werden.

Die Ergebnisse liefern detaillierte Einblicke in die AI-Inferenzleistung, einschließlich der Vergleichbarkeit von float- und integer-optimierten Modellen sowie der Leistungsmessung über die GPU und spezialisierte AI-Beschleuniger. Der Benchmark wurde primär für Ingenieurteams und professionelle Nutzer entwickelt, die unabhängige, standardisierte Werkzeuge zur Bewertung der allgemeinen AI-Leistung von Inferenz-Engine-Implementierungen und dedizierter Hardware benötigen. Er ist ideal für Hardwarehersteller, Unternehmen und die Presse, um fundierte Entscheidungen zu treffen und die Qualität der AI-Inferenz zu überprüfen. Und bei Presse fühlte ich mich einfach angesprochen.

In der Welt der künstlichen Intelligenz und des maschinellen Lernens spielen die Datentypen FP32, FP16 und Integer eine entscheidende Rolle bei der Leistung und Effizienz von Berechnungen auf GPUs. Jeder dieser Datentypen hat spezifische Vor- und Nachteile, die je nach Anwendungsfall und Hardwarearchitektur variieren können. Auch deshalb weise ich alle Ergebnisse getrennt aus und habe die ganzen Karten auch für jeden Datentyp einzeln gebencht. Mit durchaus interessanten Ergebnissen übrigens.

FP32 (32-bit Floating Point)

Vorteile:

Präzision: FP32 bietet eine hohe Genauigkeit und ist daher ideal für Anwendungen, die eine hohe numerische Präzision erfordern, wie z.B. wissenschaftliche Berechnungen und komplexe Modelle.
Kompatibilität: Viele bestehende neuronale Netzwerke und Frameworks sind für FP32 optimiert und liefern hier die besten Ergebnisse.

Nachteile:

Leistungsaufnahme: Die Berechnungen in FP32 sind rechenintensiver und benötigen mehr Energie und Speicher, was zu höherem Stromverbrauch und geringerer Effizienz führt.
Geschwindigkeit: FP32-Berechnungen sind langsamer im Vergleich zu FP16 und Integer, was die Verarbeitungsgeschwindigkeit reduziert.

FP16 (16-bit Floating Point)

Vorteile:

Leistungsfähigkeit: FP16-Berechnungen sind schneller und benötigen weniger Energie als FP32, was die Effizienz und Durchsatzrate erhöht.
Speicherbedarf: Der Speicherbedarf ist geringer, was bedeutet, dass mehr Daten gleichzeitig verarbeitet und gespeichert werden können.

Nachteile:

Genauigkeit: Die geringere Genauigkeit von FP16 kann zu Rundungsfehlern führen, die bei bestimmten Anwendungen problematisch sein können.
Anpassungsaufwand: Es kann zusätzliche Anstrengungen erfordern, bestehende Modelle und Algorithmen auf FP16 zu optimieren und anzupassen.

Integer (INT8 und INT16)

Vorteile:

Effizienz: Integer-Berechnungen sind extrem effizient und verbrauchen deutlich weniger Energie als FP32 und FP16, was sie ideal für mobile und eingebettete Systeme macht.
Geschwindigkeit: Sie sind schneller als FP-Berechnungen, was die Inferenzgeschwindigkeit erhöht und die Latenz reduziert.

Nachteile:

Genauigkeit: Integer-Formate bieten die geringste Präzision, was zu größeren Fehlern und Ungenauigkeiten führen kann, insbesondere bei komplexen Modellen.
Komplexität: Die Quantisierung von Modellen, um sie für Integer-Berechnungen geeignet zu machen, kann komplex und zeitaufwendig sein.

Architekturen und deren Optimierung

Verschiedene GPU-Architekturen sind unterschiedlich gut für diese Datentypen optimiert:

NVIDIA GPUs: Diese bieten spezielle Tensor-Kerne, die für FP16- und INT8-Berechnungen optimiert sind, wodurch sie besonders effizient in der AI-Berechnung sind.
AMD GPUs: AMD setzt ebenfalls auf eine verbesserte Unterstützung für FP16 und arbeitet daran, die Effizienz bei niedrigerer Präzision zu verbessern.
Intel GPUs: Mit der OpenVINO-Architektur optimiert Intel für eine breite Unterstützung verschiedener Datentypen, einschließlich INT8, um eine hohe Leistung bei geringerem Stromverbrauch zu ermöglichen.

Unterm Strich heißt das, dass die Wahl des Datentyps und der entsprechenden Architektur von den spezifischen Anforderungen der Anwendung abhängt. Für hohe Genauigkeit und Kompatibilität eignet sich FP32, während FP16 und Integer für Effizienz und Geschwindigkeit in Inferenz-Anwendungen bevorzugt werden.

Testsystem

Pages:

35 Antworten

Zeige alle Kommentare an

Kommentar

Lade neue Kommentare

echolot

Urgestein

1,135 Kommentare 884 Likes

#1 May 23, 2024

Das war sehr umfangreich. Also mit einer 4070 Ti super ist man schon gut bedient und ich bereue es nach wie vor, dass ich Nvidia nicht schon 2015 ins Portfolio genommen habe. Dieses Unternehmen kennt gerade keine Grenzen.
Nachtrag:

View image at the forums

Antwort 2 Likes

letauch

Mitglied

12 Kommentare 9 Likes

#2 May 23, 2024

Ahoi,

an der Börse gilt wie immer: hinterher ist man immer schlauer.

Grüße
letauch

Antwort 1 Like

eastcoast_pete

Urgestein

1,731 Kommentare 1,062 Likes

#3 May 23, 2024

Ja, momentan ist Nvidia hier dominant, keine Frage. Da ja jetzt die viel beworbenen NPUs/AI ASICs auch ihren Einzug in Notebooks feiern (die Snapdragon X mit Windows-on-ARM sind ja gerade überall zu sehen), wär es auch spannend, diese SoCs mit (laut Microsoft) starken, dedizierten NPU Kernen durch einige der Test Parkours hier zu schicken, auch um die KI Leistung dieser SoCs einordnen zu können (gilt mE ebenso für Phoenix/Hawks). Und, zumindest theoretisch, sollten hier Anwendungen, die besonders auf schnelle Kommunikation zwischen CPU und GPU bzw NPU Kernen angewiesen sind, besonders profitieren.

Antwort 2 Likes

RazielNoir

Veteran

456 Kommentare 216 Likes

#4 May 23, 2024

Die RTX 4000 ADA SFF mit TensorRT ist ziemlich das effizienteste Modell, wenn ich den Overallscore richtig sehe. Auf Niveau einer 4070ti bzw. 7900XT bei 70w!

Antwort Gefällt mir

8j0ern

Urgestein

2,794 Kommentare 882 Likes

#5 May 23, 2024

View image at the forums

UL Procyon AI Computer Vision Benchmark

NNAPI-Leistung von Android-Geräten mit UL Procyon AI Computer Vision Benchmark testen und vergleichen

View image at the forums

benchmarks.ul.com

Sehr interessant, wie soll das Unabhängig Funktionieren, wenn der Tensor Code nur von einem Hardware Hersteller Supportet wird ?

Anders herum gefragt, warum sollte ich als Unabhängiger Coder auf Tensor Cores gehen ?

Davon mal ab, Bilder Generieren in 1024p ?

Warten wir besser auf die NPUs ;)

Antwort Gefällt mir

Igor Wallossek

10,563 Kommentare 19,826 Likes

#6 May 23, 2024

Warum wohl habe ich die NV-Karten wohl auch mit alternativem Code gemessen? Bei der Bildgenerierung gabs dann für NV alternativ Intels OpenVINO. Ich kenne keinen Benchmark, der mehr APIs unterstützt und vor allem in der Pro Version vom Tester auch gescriptet werden kann. Insofern ist Dein Einwurf etwas am Thema vorbei. Heute gings auch nur um Grafikkarten und keine NPUs. Das ist wieder ein anderes Thema und längst in Vorbereitung. Nur ist es so, dass nicht mal AMD irgendeinen vergleichbaren Absatz bietet.

Du arbeitest lokal, nicht auf einer Serverfarm. Und es sind viele, nicht nur eins. :D

Die werden gegen jede noch so kleine NV Karte mit Tensor Cores erst mal gehörig abstinken. Aber für einfache LM wirds schon reichen. Ich versuche gerade, passende Hardware zu beschaffen, aber fast alle mauern noch.

Antwort 1 Like

8j0ern

Urgestein

2,794 Kommentare 882 Likes

#7 May 23, 2024

Ich meinte jetzt nicht deine Vergleich hier, daher habe ich auch die Homepage des Benchmarks verlinkt.

Falls es doch noch Nvidia unabhängige Coder gibt: https://www.amd.com/en/products/sof... including open frameworks, models, and tools.

Antwort Gefällt mir

echolot

Urgestein

1,135 Kommentare 884 Likes

#8 May 23, 2024

Tensor Cores und Frame Generation. War da was? Solange AMD da nicht nachziehen kann, wird Nvidia immer davonziehen.

Antwort 1 Like

Igor Wallossek

10,563 Kommentare 19,826 Likes

#9 May 23, 2024

ROCm... Naja, da muss schon noch mehr kommen. AMDs Software bietet eine Reihe von Optimierungen für KI-Workloads, aber das wars dann auch schon.

Aktuell sind Microsofts Windows ML, Qualcomms SNPE, Intels OpenVINO, Apples Core ML und halt NVIDIAs TensorRT das Maß der Dinge.

Antwort Gefällt mir

Yumiko

Urgestein

582 Kommentare 275 Likes

#10 May 23, 2024

Ist das so?
Beispielsweise für den Preis einer 4090 bekommt man 3x 7900xt welche zusammen deutlich schneller sind nach obigen Benchmarks (KI Anwendungen sind massiv parallel).
Beim Verbrauch (je nach Stromkosten) kann sich das natürlich irgendwann drehen.

Antwort Gefällt mir

Igor Wallossek

10,563 Kommentare 19,826 Likes

#11 May 23, 2024

Je nach Anwendung. Wenn TensorRT genutzt werden kann, ist AMD mit RDNA3 fast komplett hilflos. Nicht alles lässt sich über veile Devices hin parallelisieren und dann braucht man immer noch ein performantes API. Da sehe ich meist ein Software-Problem bei AMD, zumindest im Desktop-Bereich.

Antwort 3 Likes

echolot

Urgestein

1,135 Kommentare 884 Likes

#12 May 23, 2024

Und ein performantes Netzteil für 3x 7900XT

Antwort 1 Like

RazielNoir

Veteran

456 Kommentare 216 Likes

#13 May 23, 2024

Oder die Passende Plattform

Antwort Gefällt mir

8j0ern

Urgestein

2,794 Kommentare 882 Likes

#14 May 23, 2024

Da kommt auch mehr, aber nicht auf Basis von TensorRT ;)

https://www.amd.com/en/developer/resources/ryzen-ai-software.html

https://www.amd.com/en/technologies/xdna.html

View image at the forums

Antwort Gefällt mir

ipat66

Urgestein

1,434 Kommentare 1,461 Likes

#15 May 23, 2024

Stand heute bekommt man eine 4090 für 1730 Euro.
Eine 7900XTX bekommt man für ab 950 Euro...
Das sind also eher knapp zwei 7900 XTX für den Preis einer 4090.
Edit: Bei den 7900 XT für 700 Euro wären wir bei 2100 Euro, bei 3 Stück

Zudem braucht es im KI-Produktivbereich nur eine 4070 TI Super, um die gleiche bzw. teils viel bessere Leistung im Vergleich zu einer 7900 XTX zu erreichen.
Eine 4070 TI Super bekommt man ab 850 Euro....
Also: 100 Euro gespart mit im Vergleich weniger Energieverbrauch .

Das erkenne ich zumindest aus Igor's Diagrammen... :)

Antwort 2 Likes

8j0ern

Urgestein

2,794 Kommentare 882 Likes

#16 May 23, 2024

Auf den Benchmark bezogen stimmt das auch.
Die Frage ist, welche Relevanz hat z.B. ein Mobile Benchmark auf einer 4070 TI ?

Kommt jetzt wieder: Liebling, ich habe die Kinder geschrumpft ?

Antwort Gefällt mir

echolot

Urgestein

1,135 Kommentare 884 Likes

#17 May 23, 2024

Ist auch mein Denkansatz. Da muss AMD bei der nächsten Generation noch ein, zwei Schippen drauflegen.

Antwort Gefällt mir

8j0ern

Urgestein

2,794 Kommentare 882 Likes

#18 May 23, 2024

Dann will ich dich sehen, wie du ein, zwei Geldbeutel mehr drauflegst. ;)

Antwort Gefällt mir

echolot

Urgestein

1,135 Kommentare 884 Likes

#19 May 23, 2024

Der Markt bestimmt den Preis. Siehe Nvidia. Soviele 4090 Besitzer gibbet nicht.

Antwort 1 Like

Alle Kommentare lesen unter igor´sLAB Community →

Danke für die Spende

Du fandest, der Beitrag war interessant und möchtest uns unterstützen? Klasse!

Hier erfährst Du, wie: Hier spenden.

Hier kannst Du per PayPal spenden.

Geekom A8 Mini-PC im Test – Ein Ryzen 8945HS am physikalischen Limit

Noch weitere GeForce RTX 4080 mit Defekt ab Werk – Das Wärmeleitpasten-Drama geht munter weiter und NVIDIA unternimmt: Nichts

About the author

View All Posts

Igor Wallossek

Chefredakteur und Namensgeber von igor'sLAB als inhaltlichem Nachfolger von Tom's Hardware Deutschland, deren Lizenz im Juni 2019 zurückgegeben wurde, um den qualitativen Ansprüchen der Webinhalte und Herausforderungen der neuen Medien wie z.B. YouTube mit einem eigenen Kanal besser gerecht werden zu können.

Computer-Nerd seit 1983, Audio-Freak seit 1979 und seit über 50 Jahren so ziemlich offen für alles, was einen Stecker oder einen Akku hat.

Folge Igor auf:
YouTube Facebook Instagram Twitter