RTX-OPS: Definitionsversuche
Da moderne Grafikprozessoren immer komplexer werden und Ressourcen integrieren, die unterschiedliche Funktionen erfüllen, aber dennoch das Gesamtbild beeinflussen, wird es immer schwieriger, ihre Fähigkeiten als Gesamtleistungsfaktor zusammenzufassen. Wir verwenden bereits Begriffe wie Füllrate, um zu vergleichen, wie viele Milliarden Pixel oder Texturelemente ein Grafikprozessor theoretisch in einer Sekunde auf dem Bildschirm darstellen kann. Speicherbandbreite, Rechenleistung, Primitive Rate – die Grafikwelt ist voll von Spitzenwerten, die zur Grundlage für Back-of-the-Unvelope-Berechnungen werden.
Nun, mit der Hinzufügung von Tensor- und RT-Kernen zu seinen Turing Streaming Multiprozessoren fand Nvidia es für notwendig, eine neue Metrik zu entwickeln, die die Fähigkeiten seiner INT32- und FP32-Math-Pipelines, seiner RT-Kerne und der Tensor-Kerne angemessen umfasst. Wir planen zwar nicht, die resultierende RTX-OPS-Spezifikation für unsere Vergleiche zu verwenden, aber da Nvidia sie verwendet, wollen wir zumindest die Zusammensetzung der Gleichung beschreiben.
Das RTX-OPS-Modell erfordert die Nutzung aller Ressourcen, was erst einmal eine recht mutige und sehr zukunftsorientierte Annahme ist. Schließlich, bis die Spiele die Raytracing und Deep Learning Fähigkeiten von Turing weitgehend übernehmen, bleiben RT und Tensor Kerne ja (meist) untätig. Wenn sie jedoch mit einbezogen werden können, wandelt sich das Bild. Deshalb entwickelte Nvidia eine eigene Annäherung der Verarbeitung in einem Frame, der von einem Turing-basierten Grafikprozessor gerendert wurde.
In der obigen Abbildung zeigt Nvidia, dass in etwa etwa 80% der Leistung für das Rendern Rendern des Frames benötigt werden und die restlichen 20% in die KI gehen. In der Slice für Shading gibt es eine etwa 50/50 Aufteilung zwischen Raytracing und FP32-Aufgaben. Blickt man noch tiefer in die CUDA-Kerne hinein, dann bietet uns das, was Nvidia mit etwa 36 INT32-Operationen für jeweils 100 FP32-Befehle über einen Schwarm von Shader Traces beobachtet hat, schon eine recht vernünftige Vorstellung dessen, was in einer „idealen“ Szene passiert, die jede Funktionseinheit ausnutzen kann.
Die nun aufgestellte Formel st schon etwas tricky,…
- FP32 Berechnung = 4352 FP32 Kerne * 1635 MHz Taktfrequenz (GPU Boost Rating) * 2 = 14,2 TFLOPS
- RT-Kern-Berechnung = 10 TFLOPS pro Gigaray
- INT32 Anweisungen pro Sekunde = 4352 INT32 Kerne * 1635 MHz Taktfrequenz (GPU Boost Rating) * 2 = 14.2 TIPS
- Tensor-Kern-Berechnung = 544 Tensor-Kerne * 1635 MHz Taktfrequenz (GPU-Boost-Rating) * 64 Gleitkomma-FMA-Operationen pro Takt * 2 = 113,8 FP16 Tensor TFLOPS
… so dass wir nun Nvidias Mathematik auch einmal rückwärts betrachten sollten, um zu sehen, wie Nvidia die „78 RTX-OPS“-Spezifikation für ihre GeForce RTX 2080 Ti Founders Edition-Karte überhaupt erreicht hat:
(14 TFLOPS[FP32] * 80%) + (14 TIPS[INT32] * 28%[~35 INT32 Ops pro 100 FP32 Ops, die 80% der Arbeitsbelastung ausmachen])) (100 TFLOPS[Raytracing] * 40%[Hälfte von 80%]) + (114 TFLOPS[FP16 Tensor] * 20%) = 77,9
Auch in diesem Modell gibt es natürlich auch viele Annahmen und Konjunktive, so dass wir keine Möglichkeit sehen, es fair und objektiv für alle Generationen- oder Wettbewerbsvergleiche zu verwenden. Außerdem wir wollen ja bewusst nicht in die Gewohnheit verfallen, Ratings über viele verschiedene Quellen hin zu verallgemeinern.
Gleichzeitig ist aber klar, dass Nvidia eine Möglichkeit schaffen wollte, die Leistung ganzheitlich darzustellen und wir können dem Unternehmen eigentlich auch keinen Vorwurf dafür machen, zumal es nicht nur die Fähigkeiten jedes Subsystems hinzugefügt, sondern auch seine individuellen Anteile bei der Berechnung eines Frame isoliert dargestellt hat.
- 1 - Einführung und Vorstellung
- 2 - TU102 + GeForce RTX 2080 Ti
- 3 - TU104 + GeForce RTX 2080
- 4 - TU106 + GeForce RTX 2070
- 5 - Performance-Anstieg für bestehende Anwendungen
- 6 - Tensor-Kerne und DLSS
- 7 - Ray Tracing in Echtzeit
- 8 - NVLink: als Brücke wohin?
- 9 - RTX-OPs: wir rechnen nach
- 10 - Shading-Verbesserungen
- 11 - Anschlüsse und Video
- 12 - 1-Klick-Übertaktung
- 13 - Tschüss, Gebläselüfter!
- 14 - Zusammenfassung und Fazit
Kommentieren