Dieser heutige Artikel bietet einen umfassenden Review zur GeForce RTX 5090 und der zugrunde liegenden NVIDIA Blackwell-Architektur. Die Gliederung erfolgt, da es eine komplett neue Architektur ist, in eine theoretische Analyse der neuen technischen Entwicklungen und eine praktische Betrachtung, die sich auf Benchmarks, reale Anwendungen und Nutzererfahrungen konzentriert. Im Mittelpunkt stehen dabei heute im ersten Teil sowohl die Leistungssteigerungen als auch die neuen Funktionen, die diese GPU-Generation mit sich bringt. Ein besonderes Augenmerk wird auf DLSS4 gelegt, das im Theorieteil eingehend erklärt und in einem separaten Abschnitt später noch anhand passender Spiele analysiert wird. Dieser Abschnitt beleuchtet die Fortschritte bei der Bildqualität, die Verbesserungen bei der Frame-Generierung und die Auswirkungen auf die Systemlatenz. Aber da möchte ich noch nicht vorgreifen oder etwas spoilern.
Es war, wie immer ein Kraftakt und ich habe auch die Spieleauswahl komplett angepasst und auf insgesamt 11 Spiele in jeweils fünf verschiedenen Settings erweitert. Dazu kommen ein nagelneues Testsystem und auch aktualisierte Metriken. Die in Kürze folgende GeForce RTX 5080 wird dann analog eingefügt. Ich möchte vorab auch darauf hinweisen, dass ich die GeForce RTX 5090 FE diesmal nicht wie üblich zerlegt habe und der Teardown (noch) fehlt. Das liegt daran, dass ich die Karte im Originalzustand noch für weitere Tests benötige und der Vorgang des Teardowns und der anschließenden Rekonstruktion so komplex ist, dass man nicht garantieren kann, dass die Karte hinterher im gleichen Zustand agieren kann (Flüssigmetall, das sich nur mechanisch entfernen lässt).
Zusätzlich wird zeitnah ein Spezialartikel veröffentlicht, der sich intensiv mit DLSS4, dessen Bildqualität und den Aspekten der Latenz auseinandersetzt. Leider war eine der Karten defekt, so dass zeitverzögert nachgearbeitet werden musste und der Ersatz leider erst gestern ankam. Aber der Umfang des Inhalts wird sich auf alle Fälle lohnen, auch wenn es dann eben etwas später kommt. In dieser Tiefe wird man sicher auch nächste Woche noch danach suchen müssen. Also dranbleiben, es lohnt sich.
Ein weiteres Follow-Up des Reviews wird sich auf die Workstation-Performance und die professionellen Anwendungen konzentrieren. Dieser Teil wurde als separater Artikel ausgegliedert, denn aufgrund von Treiberproblemen und weiteren zu klärenden technischen Details wurden einige Tests von mir verschoben, um eine faire und umfassende Bewertung zu gewährleisten. Denn wenn es doch noch einen geänderten Treiber gibt, spare ich mir zwar nicht das Nachtesten, wohl aber den überflüssigen Export umfangreicher Chartsgrafiken. Und so kann ich die noch folgende GeForce RTX 5080 dann gleich noch mit reinpacken und spare somit redundante Inhalte.
Das soll mich aber alles nicht daran hindern, die neue Karte heute vor allem mit der GeForce RTX 4090 im Besonderen und dem gesamten Ada-Lineup der passenden Super-Karten im Allgemeinen zu vergleichen. Ampere lasse ich auch Zeitgründen weg, aber da es genügend Vergleiche zwischen Ada und Ampere auf meiner Seite gibt, ist dies sicher locker zu verschmerzen. Dafür gehen wir diesmal etwas mehr ins Detail, auch bei der Theorie, denn es lohnt sich. Außerdem muss ich ja bereits Eingangs erklären, warum ich mich dann im Fazit einer gewissen Euphorie für das eine oder andere Feature nicht entziehen konnte und natürlich wie immer auch etwas zu meckern finde.
Die GB202 GPU im Detail
Die GB202-GPU aus der neuen NVIDIA-Blackwell-Architektur repräsentiert einen Meilenstein in der GPU-Technologie und ist das Herzstück der GeForce RTX 5090. Die Architektur der GB202-GPU basiert auf insgesamt 92,2 Milliarden Transistoren, die in einem Chip mit einer Fläche von 750 mm² integriert sind und im optimierten TSMC-4N-Prozess gefertigt werden. Mit einer Boost-Taktfrequenz von 2407 MHz bietet die GPU eine Spitzenleistung von 104,8 TFLOPS für FP32-Berechnungen, 209,5 TFLOPS für FP16-Berechnungen und beeindruckende 1676 TFLOPS für FP4-Berechnungen. Diese Leistung wird von 24.576 CUDA-Cores, 192 RT-Cores der vierten Generation und 768 Tensor-Cores der fünften Generation getragen. Im Vergleich zur Ada-Architektur, die auf 16,38 MB L1-Cache und 72 MB L2-Cache begrenzt war, bietet die GB202 mit 21,76 MB L1-Cache und 96 MB L2-Cache eine deutliche Steigerung, was die Datenzugriffszeiten erheblich verbessert.
Ein weiteres Highlight ist laut NVIDIA die Energieeffizienz der GB202-GPU. Mit einer maximalen Leistungsaufnahme von 575 Watt setzt die Architektur auf fortschrittliche Stromsparmechanismen wie separate Spannungsrails für GPU-Kerne und Speicher sowie beschleunigte Taktfrequenzumschaltung. Diese Innovationen minimieren den Energieverbrauch in Leerlaufphasen und maximieren die Reaktionsfähigkeit unter Last. Darauf werde ich in einem gesonderten Abschnitt auch mit eigenen Messungen noch genauer eingehen.
Streaming-Multiprozessor (SM)-Architektur
Die Streaming-Multiprozessoren (SMs) der GB202-GPU bilden das Kernstück ihrer Rechenleistung. Jede der 192 SMs umfasst 128 CUDA-Cores, einen RT-Core der vierten Generation und vier Tensor-Cores der fünften Generation. Während die Ada-Architektur bereits ähnliche CUDA-Core-Anzahlen bot, haben die Blackwell-RT-Cores und Tensor-Cores deutliche Fortschritte hinsichtlich Effizienz und Funktionalität gemacht. Die Blackwell Tensor-Cores der fünften Generation bieten zudem neue Funktionen wie die Unterstützung von FP4-Datenformaten, die den Speicherbedarf drastisch reduzieren und gleichzeitig die Leistung bei KI-Inferenzanwendungen verdoppeln können. Im Vergleich zur Ada-Architektur, deren Tensor-Cores in der vierten Generation keine FP4-Unterstützung boten, stellt dies eine signifikante Verbesserung dar. Diese Fortschritte ermöglichen eine effizientere Nutzung von Ressourcen in neuronalen Netzen, insbesondere bei großen Modellen, die zunehmend in Echtzeitanwendungen wie Bild- und Sprachverarbeitung eingesetzt werden.
Die Zahl der Textureinheiten wurde auf 768 erhöht, was eine Texel-Füllrate von 1636,76 Gigatexels pro Sekunde ermöglicht, eine deutliche Steigerung gegenüber den 1290,2 Gigatexels pro Sekunde der RTX 4090. Dies verbessert die Verarbeitung komplexer Texturen und neuraler Texturkompression erheblich. Der L1-Cache wurde im Vergleich zur Ada-Architektur ebenfalls erweitert, was die Effizienz und Geschwindigkeit bei speicherintensiven Aufgaben weiter optimiert.
Die RT-Cores der vierten Generation in der GB202-GPU wurden ebenfalls erheblich weiterentwickelt. Sie bieten eine doppelte Leistung bei der Ray-Triangle-Intersection-Berechnung im Vergleich zur vorherigen Generation und unterstützen neue Funktionen wie Linear Swept Spheres (LSS) zur effizienteren Darstellung von komplexen Geometrien wie Haaren oder Gras. Während die Ada-Architektur bereits erhebliche Fortschritte im Bereich des Ray-Tracings eingeführt hatte, erlauben die neuen RT-Cores in Blackwell eine noch realistischere Darstellung durch verbesserte Hardware-Implementierungen für Bounding Volume Hierarchies (BVH) und Opacity Micromaps. Diese Innovationen verbessern nicht nur die Bildqualität, sondern auch die Leistung in anspruchsvollen Ray-Tracing-Szenarien erheblich.
GDDR7-Speichersystem
Das GDDR7-Speichersystem der GB202-GPU setzt neue Standards in der Speichertechnologie. Mit einer Speicherkapazität von 32 GB und einer Bandbreite von 1,792 TB/s über eine 512-Bit-Schnittstelle bietet die Blackwell-Generation eine erhebliche Verbesserung gegenüber der Ada-Architektur, die GDDR6X mit einer Bandbreite von 1,008 TB/s nutzte. Die Verwendung von PAM3-Signalisierung anstelle der PAM4-Technologie in GDDR6X ermöglicht ein besseres Signal-Rausch-Verhältnis sowie höhere Energieeffizienz.
Die Speicherarchitektur der GB202-GPU umfasst 96 MB L2-Cache, verglichen mit den 72 MB der RTX 4090. Diese Erweiterung beschleunigt speicherintensive Anwendungen wie Ray-Tracing erheblich. Darüber hinaus bietet die Blackwell-Architektur erweiterte CRC-Funktionen, die die Zuverlässigkeit und Stabilität des Speichersystems verbessern. Diese Fortschritte machen das GDDR7-Speichersystem zu einem unverzichtbaren Bestandteil der GB202-GPU und tragen maßgeblich zur Bewältigung hochauflösender Grafik- und KI-Workloads bei.
Nach so viel Theorie und Text, fasse ich das alles noch einmal kurz zu einer übersichtlichen Tabelle zusammen und vergleiche das Ganze auch mit Ampere und Ada:
- 1 - Details zur Blackwell GB202 GPU
- 2 - DLSS4 einfach und im Detail erklärt
- 3 - Neurale Shader als echte Game-Changer?
- 4 - Pathtracing: Grundlagen und Verbesserungen mit Benchmarks
- 5 - Testsystem und Equipment
- 6 - Gaming: Full-HD 1920x1080 Pixels (Rasterization Only)
- 7 - Gaming: WQHD 2560x1440 Pixels (Rasterization Only)
- 8 - Gaming: Ultra-HD 3840x2160 Pixels (Rasterization Only)
- 9 - Gaming: WQHD 2560x1440 Pixels, Supersampling, RT & FG
- 10 - Gaming: Ultra-HD 3840x2160 Pixels, Supersampling, RT & FG
- 11 - DLSS4 und MFG: Cyberpunk 2077 im Detail
- 12 - DLSS4 und MFG: Alan Wake 2 im Detail
- 13 - PCIe 5 Probleme, Leistungsaufnahme in Theorie und Praxis
- 14 - Lastspitzen nativ vs. DLSS4, Netzteilempfehlung
- 15 - Kühler, Temperaturen, Thermografie, Geräuschentwicklung
- 16 - Zusammenfassung und Fazit
219 Antworten
Kommentar
Lade neue Kommentare
Mitglied
Urgestein
Urgestein
1
Mitglied
Urgestein
1
Mitglied
Urgestein
Urgestein
Mitglied
Mitglied
Mitglied
Urgestein
1
Urgestein
Neuling
Urgestein
Mitglied
Alle Kommentare lesen unter igor´sLAB Community →