Reviews Braucht NVIDIA für Ampere eine neue Lösung für die Spannungsversorgung? Das aktuelles Turing-Design als Flaschenhals für die Tensor- und AI-Performanc

Igor Wallossek

Format©
Mitarbeiter
Mitglied seit
Jun 1, 2018
Beiträge
4.315
Punkte
114
Alter
56
Standort
Labor
Ich hatte ja in einigen Artikel bereits über NVIDIAs neue Generation der Ampere-Karten berichtet und mir auch das Feedback dazu durchgelesen. Interessant waren dort vor allem die Hochrechnungen der Anzahl möglicher CUDA Cores, an denen man alle Vergleiche zu Turing in Bezug auf Performance und Effizienz sowie als Folge dessen auch mit der möglichen Leistungsaufnahme festmacht. Oder besser: man glaubt, es daran festmachen zu können. Nur hat die alleinige Skalierung der CUDA Cores als Maßstab einer Schätzung einen dicken Pferdefuß, den ich gern erklären möchte...



>>> Hier klicken, um den ganzen Artikel zu lesen <<<
 

Besterino

Urgestein
Mitglied seit
Jul 22, 2018
Beiträge
3.867
Punkte
112
Wenn’s weniger RAM wäre hätte man noch einen größeren Envelope für die verschiedenen Kerne bzw. den gleichen bei insgesamt geringerer TGP... von 24 auf 12GB wären das übrigens ziemlich das die 30W Unterschied von 350 zu 320 bei der TGP zwischen dem Topmodell und den kleineren...

Was mich aber verwirrt: in dem anderen Artikel schreibst von der TBP als limitierendem Faktor - hier jetzt aber von TGP. Das wäre für mich der Envelope für die GPU - also im Prinzip dem Chip und alle Rechen-Kerne zusammen?
 
Zuletzt bearbeitet :

Igor Wallossek

Format©
Mitarbeiter
Mitglied seit
Jun 1, 2018
Beiträge
4.315
Punkte
114
Alter
56
Standort
Labor
Nvidia definiert die TGP wie die AMD die TBP. Die TGP ist also alles auf 12 Volt, was man auf den einzelnen Rails so reinwirft.
 

Besterino

Urgestein
Mitglied seit
Jul 22, 2018
Beiträge
3.867
Punkte
112
Ok, also „all inclu“.
 

romeeee

Mitglied
Mitglied seit
Mai 12, 2020
Beiträge
56
Punkte
7
Wäre wünschenswert, wenn es so kommt. 10% FPS-Einbuße für RTX Voice oder ähnliche Features würden es mich eher nicht verwenden lassen.
 

Igor Wallossek

Format©
Mitarbeiter
Mitglied seit
Jun 1, 2018
Beiträge
4.315
Punkte
114
Alter
56
Standort
Labor
Es wird so oder so ähnlich kommen :)
 

MopsHausen

Urgestein
Mitglied seit
Jul 24, 2018
Beiträge
894
Punkte
42
Sind halt immernoch 350W die als Abwärme im Case bzw. Radiator und dann Raum landen wenn die Karte durch entsprechende Titel Feuer bekommt, egal wie man es nun aufdröselt bei so einer Zahl sollte die Performance über alles erhaben sein sonst bekommt man es nicht Verkauft( jedenfalls nicht an mich mit Dachgeschoßwohung ;-P ).
 

eastcoast_pete

Mitglied
Mitglied seit
Jun 25, 2020
Beiträge
32
Punkte
7
Werde hier als Newbie Mal uU etwas Ignoranz zeigen mit dieser Frage: Müssen denn die Tensor und RT Cores unbedingt auf demselben Chip oder sogar derselben Karte sein, oder könnte man die auf einer separaten PCIe Karte werkeln lassen? Ja, klar, braucht nochmals extra RAM auf der Tochterkarte, aber die könnte dann ihre eigene Power ziehen, und mit PCI 4.0 wäre auch die Anbindung nicht so langsam. Wäre vielleicht auch zur Nachrüstung interessant.
 

Igor Wallossek

Format©
Mitarbeiter
Mitglied seit
Jun 1, 2018
Beiträge
4.315
Punkte
114
Alter
56
Standort
Labor
Dann könnte man das ja gleich die CPU machen lasssen. Und wer hat schon zwei PCIe 4.0 x16 im PC? :)
 

Besterino

Urgestein
Mitglied seit
Jul 22, 2018
Beiträge
3.867
Punkte
112
*HUST* drei :)
 

Dragus

Veteran
Mitglied seit
Apr 23, 2020
Beiträge
118
Punkte
27
Müssen denn die Tensor und RT Cores unbedingt auf demselben Chip oder sogar derselben Karte sein [...]
Unmöglich ist das nicht, aber die notwendige PC Hardware wären kostenmäßig außerhalb dessen, was Gamer normalerweise zu zahlen bereit wären. Und genau aus diesem Grund hat nVidia die RT-Cores in die Gaming Karten integriert, damit Echtzeit RT auf normalen PCs möglich wird. Wie viele Gamer haben schon eine Grafik-Workstation zu Hause?

Kurz gesagt: Um das MB nicht zum Flaschenhals zu machen, werden zeitkritischen Berechnungen auf der Graka konzentriert.

Multi-GPU Systeme für Gamer sehe ich nicht, geht eher Richtung Chiplets.
 

Dragus

Veteran
Mitglied seit
Apr 23, 2020
Beiträge
118
Punkte
27
Das Mulit-GPU Konzept hat bezogen auf Gaming bereits am Markt versagt. Siehe SLI usw. Zu aufwendig, zu teuer.
 

Derfnam

Urgestein
Mitglied seit
Jul 22, 2018
Beiträge
4.575
Punkte
112
Wie PhysX, nur umgekehrt? Pöh...
 

PlayerOne

Mitglied
Mitglied seit
Jan 30, 2020
Beiträge
19
Punkte
2
Das hört sich alles extrem unwahrscheinlich an und würde nur unter einem Gesichtspunkt Sinn machen, nämlich wenn man tatsächlich unterschiedliche Voltage Rails für die einzelnen GPU-Parts brauchen würde.

Wenn das nicht der Fall ist, ist es immer am Besten ein gemeinsames Powerbudget zu haben und dieses an jene Teile zu verteilen die es gerade brauchen.

Und wenn man mal näher den realen GPU-Aufbau betrachtet wird das extrem unwahrscheinlich.
Entgegen dem was manche Marketing-Bilder suggerieren gibt es in der GPU nämlich nicht irgendwo einen Block RT-Cores und anderswo einen Block CUDA Cores und wieder an anderer Stelle einen Bock Tensor Cores.

Die sind alle innerhalb der SMs platziert. Die RT-Cores sind quasi Co-Prozessoren für die Shader und nehmen Input aus den Shadern und geben auch ihren Output zurück an Shader.
Die RT Cores auf eine andere Voltage Rail zu setzen wäre ungefähr das selbe als den TMUs eine eigene Spannungsversorgung zu widmen.

Und Tensor-Cores sind im Grunde nichts anderes als FP16 ALUs, bzw. in GTX-Turing sind sie tatsächlich nur "normale" FP16 ALUs, CUDA Cores und Tensor Cores auf unterschiedliche Versorgungen zu legen macht genauso wenig Sinn.
 

eastcoast_pete

Mitglied
Mitglied seit
Jun 25, 2020
Beiträge
32
Punkte
7
Hat man im Consumer-Bereich mangels der nötigen Lanes aber nicht. :)
Ist natürlich auch noch eine Preisfrage, selbst wenn es die MBs so gäbe; war ja auch eher als Frage und Gedankenexperiment gedacht. Würde mich aber doch interessieren, wie schnell die Shader mit den Tensor und Ray Tracing cores kommunizieren müssen, damit es flüssig läuft.
 

PlayerOne

Mitglied
Mitglied seit
Jan 30, 2020
Beiträge
19
Punkte
2
Ist natürlich auch noch eine Preisfrage, selbst wenn es die MBs so gäbe; war ja auch eher als Frage und Gedankenexperiment gedacht. Würde mich aber doch interessieren, wie schnell die Shader mit den Tensor und Ray Tracing cores kommunizieren müssen, damit es flüssig läuft.
Sehr schnell.

Tensor-Cores sind nichts "eigenes", die sind teil der Shader, und eben in der Lage gewisse Shader-Operationen schneller und effizienter abzuarbeiten als die "normalen" FP32 ALUs

Ein Shader kann einen Befehl haben der auf FP32 läuft und der Nächste dann auf den Tensor Cores und wenn diese an den gleichen Daten arbeiten muss das Ergebnis des ersten Befehls logischerweise der Input für den zweiten Befehl sein. Es wäre total unsinnig die Tensorcores irgendwie "auszulagern", selbst am gleichen DIE und erst recht nicht auf einen anderen DIE egal ob auf der gleichen Grafikkarte oder einer zusätzlichen Karte.

Für RT-Cores gilt ähnliches, der Shader startet quasi einen Strahl in irgendeine Richtung und dann übernimmt der RT-Core. Abhängig davon ob der Strahl was getroffen hat wird dann ein Hit oder Miss Shader gestartet mit der jeweiligen Information was getroffen wurde bzw. ob auch nichts getroffen wurde. Die endgültige Farbe wird dann wieder vom Shader bestimmt, der entweder weitere Rays startet oder mit anderen Operationen eine Farbe ausrechnet.

Der RT-Core funktioniert hier ähnlich einer TMU als Datenlieferant für den Shader. Auch bei dieser sagt der Shader der TMU er hätte gerne einen gefilterten Pixel an dieser Position für ein bestimmtes Dreieck. Die TMU liest dann die entsprechenden Texturen ein und gibt das gefilterte Ergebnis zurück, das der Shader dann entweder in den Framebuffer (oder irgendeinen anderen Buffer) schreibt oder vorher noch weiterverrechnet.

Auch hier wäre es kontraproduktiv das zu trennen.
 

Dragus

Veteran
Mitglied seit
Apr 23, 2020
Beiträge
118
Punkte
27
Beim offline Raytracing reichen auch 2x oder 4x PCIe Slots, um ein vernünftiges Multi-GPU System aufzubauen. Das Bild/Video wird in Blöcke aufgeteilt, die separat berechnet werden. Alle zur Berechnung notwendigen Daten werden einmal in den Vram übertragen, diesen an einem 2x Slot zu füllen, dauert dann halt ein paar Millisekunden länger pro Fame. Unerheblich, wenn die Berechnung eines Frames einige Stunden oder Tage dauert. Wenn man >30 FPS will, also Richtung Echtzeit RT, ist das wiederum völlig witzlos.

Es kommt halt immer darauf an, was man mit dem System machen will, entsprechend muss man es dann aufbauen.
 
Oben Unten