News NVIDIA Quadro RTX (Ampere) mit vollausgebautem GA102-Grafikprozessor und 48 GB GDDR6-Speicher gesichtet

Igor Wallossek

Format©
Mitarbeiter
Mitglied seit
Jun 1, 2018
Beiträge
10.178
Bewertungspunkte
18.761
Punkte
114
Alter
59
Standort
Labor
NVIDIA hat vor kurzem bereits die GeForce RTX 30-Serie mit Ampere-Chip für Privatanwender vorgestellt und in Kürze wird das Unternehmen wohl auch auch seine Prosumer- und Workstation-orientierten Quadro RTX-Grafikkarten der Ampere-Palette launchen. Die NVIDIA Quadro RTX-Reihe startete 2018 mit den Turing-GPUs noch vor den damaligen Consumer Karten und wird bald auf die neue Ampere-Grafikarchitektur umgestellt.




>>> Hier die News lesen <<<
 
Tja, stellt sich echt die Frage, wie der Vollausbau in der Consumer-Welt heißen und wie viel Speicher man ihm zur Seite stellen wird...?
 
Nuja, Titan ist etwas ausgelutscht, der letzte Indiana Jones-Film war nicht so dolle und ist ne Weile her, Teil 5 zieht sich - wie wär Indy Vollen?
 
Ne Titan wird es wohl werden...
 
1. Ich dachte ehrlich, das die 3090 das neue Analog zu den Titans vergangerner Generationen währe. Noch "oben drauf" zusätzlich eine Titan, die sich dann praktisch nur durch minimal mehr Leistung und halt einer Menge an VRAM, die eine Gaming-Karte meiner Ansicht nach nicht benötigt, von der 3090 unterscheidet, aber einen deutlich höheren Preispunkt aufruft, halte ich für irgendwie .... unnötig. Außer vielleicht a la Supersportwagen, also als reines Prestigeobjekt in streng limitierter Auflage mit Gold- oder Platinverziehrung oder sowas. ^_^"

2. Wo du in dem Artikel gerade TFLOPs ansprichst, Igor, eine Frage meinerseits. Auch wenn ich mich möglicherweise damit lächerlich mache.

In einem von mir manchmal frequentierten Gaming-Forum gab es letzte Woche eine recht lebhafte Diskussion (um es sehr höflich auszudrücken) zwischen Playstation 5 Fans, XBox Series X Anhängern und Vertretern der selbsternannten PC-Masterrace. Im Laufe der Diskussion behauptete einer der PS5-Anhänger, das die angegebe Leistung in TFLOPs zwischen PS5, XBox Series X und PC (explizit genannt wurden die neuen Ampere Karten) garnicht verglichen werden könnten, da Sonys TFLOPs viel effizienter währen als die von Microsoft oder NVidia. (Nebenbemerkung: das war die selbe Person, die immer wieder behauptet, das die SSD in der PS5 ja so viel schneller währe als alles, was für den PC existiert. Da war von 18GB/sec lesen und 12GB/sex schreiben die rede. :cool:)
Ich dachte bisher immer, das FLOPs, seien es Mega- oder Giga- oder TeraFLOPS, eine feste numerische Definition sind, wie es z.B. Zentimeter, Milliliter oder Stunde sind. Was ist nun richtig?
 
Also ein wenig Recht hat er schon . In Spielen wird die vorhandene Rechenleistung der Konsolen immer etwas effizienter genutzt als auf dem PC . Dies liegt daran das Entwickler genau wissen mit welcher Hardware Sie es zu tuen haben und so diese Effizienter nutzen können. Terflops bleiben aber trotzdem Terflops. Zur SSD in der PS5 sie ist zwar nicht die schnellst auf dem Markt. Aber die verdammt schnell und auch schneller als eine PCie 4.0 SSD (Consumer bereich) besonders wenn man den Preis betrachtet (500€ inklusive Konsole ).

Mal aber ne Frage weiß wer ob die SSD der PS5 ausbaubar ist oder ob das Ding festverlötet ist?
 
Ich meine mich entsinnen zu können, das in einem Artikel mal von "direkt auf der Platine verlötet" die Rede war, als die Frage aufkam, ob man das Laufwerk denn tauschen kann. Kann aber auch sein, das ich mich da falsch erinnere. Konsolen sind nicht so meine Welt.
 
So eine blödsinnige Aussage: FLOPS sind FLOATING POINT OPERATIONEN PRO SEKUNDE... zumindest wenn man wirklich die Methode zur Bestimmung verwendet (also jeweils auf PC/PS/XBOX das Gleiche damit macht). Ist wie KM/h: Wenn ein Fahrzeug bei gleichen Rahmenbedingungen (Strecke, Gegenwind blablabla) 200 fährt und eines 250, dann ist das mit 250 schlicht schneller. Machste nix. Die Maßeinheit ist eindeutig. Ob das Schnellere dabei z.B. selbst schon bei 200 das doppelte verbraucht, eines 4 das andere nur 2 Personen befördern kann oder welche Farbe die Dinger haben, gibt die Aussage nicht wider und ÄNDERT DARAN AUCH NICHTS.

Wieder ein schönes Beispiel von Äpfeln und Birnen. Das EINZIGE zulässige Argument wäre gewesen, dass (T)FLOPS nicht die richtige Einheit sein mögen, um "besser" bzw. "schlechter" für den Spieleinsatz zu bestimmen. Aber das versteht da wieder bestimmt keiner...
 
2. Wo du in dem Artikel gerade TFLOPs ansprichst, Igor, eine Frage meinerseits. Auch wenn ich mich möglicherweise damit lächerlich mache.

In einem von mir manchmal frequentierten Gaming-Forum gab es letzte Woche eine recht lebhafte Diskussion (um es sehr höflich auszudrücken) zwischen Playstation 5 Fans, XBox Series X Anhängern und Vertretern der selbsternannten PC-Masterrace. Im Laufe der Diskussion behauptete einer der PS5-Anhänger, das die angegebe Leistung in TFLOPs zwischen PS5, XBox Series X und PC (explizit genannt wurden die neuen Ampere Karten) garnicht verglichen werden könnten, da Sonys TFLOPs viel effizienter währen als die von Microsoft oder NVidia. (Nebenbemerkung: das war die selbe Person, die immer wieder behauptet, das die SSD in der PS5 ja so viel schneller währe als alles, was für den PC existiert. Da war von 18GB/sec lesen und 12GB/sex schreiben die rede. :cool:)
Ich dachte bisher immer, das FLOPs, seien es Mega- oder Giga- oder TeraFLOPS, eine feste numerische Definition sind, wie es z.B. Zentimeter, Milliliter oder Stunde sind. Was ist nun richtig?
TFLOPS sind eher eine theoretische Größe, da es zumindest bei Spielen sehr stark auf die Auslastung der Recheneinheiten ankommt. Die ist bei RDNA z. B. besser als noch bei GCN (alte Konsolen). Beide neuen Konsolen setzen auf RDNA. Vermutlich wird RDNA auch ein wenig besser auszulasten sein als Ampere, aber da müssen wir noch auf Tests warten. Sonys PS5 könnte auch leichte Vorteile ggü. der XSX haben, da gemunkelt wird Sony habe RDNA etwas konfiguriert, aber das ist auch noch in den Sternen. Bzgl. der SSD weiß man auch noch nicht genug, allerdings setzt Sony auf eine Komprimierung, die es so auf dem PC nicht gibt und somit evtl. Geschwindigkeitsvorteile auch in realen Anwendungen bringen kann.
 
Das "vermutlich" würde ich aber noch um einiges schwächer formulieren, eher als "vielleicht". RDNA1 ist in Spielen immer noch weniger effizient als Turing (sonst wäre die 5700 XT schneller als eine 2080). Ob Ampere effizienter ist als Turing bleibt abzuwarten, und ob ob RDNA2 in Spielen wirklich mehr als 10% an Effizienz bei nominell gleicher TFlops-Leistung aufholen kann um am Ende besser zu laufen als Ampere erst recht.
 
Auf der einen Seite wollen die Leute keine Benchmarks mit RT, DLSS und Co. sondern stattdessen Rohleistung. Rechnet man ihnen dann die TFLOP/s aus, sind TFLOP/s doch nicht mehr gleich TFLOP/s.
Wie @Besterino schrieb: Die Angabe der Floating Point Operations pro Sekunde ist einfach die Rohleistung, die die Hardware zur Verfügung stellt. Wie gut die genutzt werden kann hängt zu einem kleinen Teil vom Aufbau und Rest der Hardware ab (Cachegröße und -anbindung z.B.) der Rest ist aber nur von der Software abhängig.

Ampere kann durch die Änderungen in der Hardware unglaublich viele TFLOP/s leisten – allein sind Spiele aktuell nicht so programmiert dass diese auch immer ideal genutzt werden können (natürlich wurde sich zuletzt darauf konzentriert, die alte Architektur möglichst gut auszulassen).
Die Konsolen lasten ihre Hardware besser aus, da pro Modell immer klar ist, wieviele Rechenkerne welcher Art wie schnell zur Verfügung stehen.
 
Die Auslastung der Hardware wirklich spezifisch zu optimieren wäre aber extrem aufwändig. Ich habe starke Zweifel daran das die Hersteller die ihr Produkt auf zwei-drei Konsolen und auf dem PC gleichzeitig verkaufen wollen noch arg viel Zeit investieren um jede Konsolen-Version nochmal speziell zu optimieren. Zumal die meisten Entwickler ja heutzutage ohnehin keine eigene Grafik-Engine mehr implementieren, sondern existierende Engines einkaufen/mieten. Von daher dürften sich die theoretischen Performance-Vorteile der Konsolen inzwischen längst erledigt haben. Zumal auf dem PC mit Vulcan und DX12 ja auch viel getan wurde, um den Overhead zu minimieren.

Von daher wären ein paar vergleichende Benchmarks sicher interessant wenn PS5, XBXO-Sonstwas und RDNA2-Karten für den PC mal verfügbar sind. Aber das aufgrund von wundersamer Optimierung die 2304 Kerne in der Playstation oder die 3328 Kerne in der XBOX in irgendeiner Form mehr leisten als die 10496 Kerne die ich von NVidia bekomme (RTX 3090), kann man getrost ausschließen. Und auch AMD sollte mit Big Navi zumindestens wieder ein Model mit 4096 Kernen anbieten, wie es bei der Vega 64 schon der Fall war. Oder auch deutlich mehr, wenn sie einen ähnlich optimierten Fertigungs-Prozess bekommen haben wie NVidia.
 
1. Ich dachte ehrlich, das die 3090 das neue Analog zu den Titans vergangerner Generationen währe. Noch "oben drauf" zusätzlich eine Titan, die sich dann praktisch nur durch minimal mehr Leistung und halt einer Menge an VRAM, die eine Gaming-Karte meiner Ansicht nach nicht benötigt, von der 3090 unterscheidet, aber einen deutlich höheren Preispunkt aufruft, halte ich für irgendwie .... unnötig. Außer vielleicht a la Supersportwagen, also als reines Prestigeobjekt in streng limitierter Auflage mit Gold- oder Platinverziehrung oder sowas. ^_^"

2. Wo du in dem Artikel gerade TFLOPs ansprichst, Igor, eine Frage meinerseits. Auch wenn ich mich möglicherweise damit lächerlich mache.

In einem von mir manchmal frequentierten Gaming-Forum gab es letzte Woche eine recht lebhafte Diskussion (um es sehr höflich auszudrücken) zwischen Playstation 5 Fans, XBox Series X Anhängern und Vertretern der selbsternannten PC-Masterrace. Im Laufe der Diskussion behauptete einer der PS5-Anhänger, das die angegebe Leistung in TFLOPs zwischen PS5, XBox Series X und PC (explizit genannt wurden die neuen Ampere Karten) garnicht verglichen werden könnten, da Sonys TFLOPs viel effizienter währen als die von Microsoft oder NVidia. (Nebenbemerkung: das war die selbe Person, die immer wieder behauptet, das die SSD in der PS5 ja so viel schneller währe als alles, was für den PC existiert. Da war von 18GB/sec lesen und 12GB/sex schreiben die rede. :cool:)
Ich dachte bisher immer, das FLOPs, seien es Mega- oder Giga- oder TeraFLOPS, eine feste numerische Definition sind, wie es z.B. Zentimeter, Milliliter oder Stunde sind. Was ist nun richtig?
Ganz genau kann ich das grad nicht ausführen. (Mir gehts nicht sonderlich)

Als die PS5 vorgestellt wurde gabs aber tatsächlich nur M.2 NVME SSDs mit 5000Mb/Sek Read Zeiten. Und die PS5 wird mit 5500 angegeben. Das stimmt schon so. Ob die verlötet ist weiß ich nicht. Sony hat aber angegeben das dort spezielle IO Chips angebunden sind die nur diese SSD ansprechen (auf der SSD eventuell). Man wird später schnellere SSDs kaufen können die von den zusätzlichen Chips aber nicht angesprochen werden können deshalb wird man wesentlich schnellere SSDs kaufen können und diese an einem normalen zusätzlichen M.2 Slot verbauen können.

Was TFlops anbelangt stimmt schon. TFLop ist nicht gleich TFlop. Sonst wären die neuen Ampere Karten 3 mal schneller als die alten. So ca.

Ich leg mich jetzt hin. Scheiß Kopfweh Wetter.sorry fals ich was nicht ausführe.
 
GigaFlops pro Sekunde (10^9), TFlops/s (10^12) oder PFlops/s (10^15) ist eine Metrik, die die Anzahl der theoretisch maximal möglichen Fließkommaoperationen pro Sekunde angibt um eine Vergleichbarkeit zwischen unterschiedlichen Systemen und gar Hardwareimplementationen zu ermöglichen.
Ein Flop stellt eine Fließkommaoperation dar (floatingpoint operation). Wie man sie misst, ist Auslegungssache, jedoch gibt es durchaus eine allgemein angewendete Praxis.
Beispielsweise ist zu entscheiden was man vermisst. Eine Multiplikation, Addition, die Berechnung der Quadratwurzel oder gar transzendente Funktionen wie bspw. Sinus und Cosinus? Letztere sind offensichtlich deutlich aufwändiger im Vergleich zu einer Addition, d. h. die Hardware ist komplexer und benötigt mehr Zeit.
Hierbei hat man sich entschieden, dass man den best case misst, also die Multiplikation und/oder Addition, die Hardwareinheiten schon seit langer Zeit (effektiv) in nur einem Taktschritt berechnen können.
Beispielsweise wenn eine FPU eine Multiplikation pro Takt (1 Flop/Takt) durchführen kann, gibt man für diese Hardware bei 2 GHz effektiv 2 GFlops/s an.

Beispiel AVX:
Intel (und mittlerweile auch AMD mit Zen2) implementieren für ihre 256 bittigen Vektoreinheiten zwei Fused-multiply–add-Einheiten (FMA), d. h. eine Vektoreinheit, von der es eine pro CPU-Kern gibt, kann effektiv zwei FMA-Operationen pro Takt ausführen. Eine FMA-Operation kombiniert eine Multiplikation und eine Addition, führt also effektiv zwei Flops in einem Schritt aus.
Für eine 8-Kern-CPU mit 3,8 GHz Takt und einer Vektoreinheit pro Kern und jeder Einheit mit zwei FMA-Einheiten errechnet sich damit eine theoretische Höchstleistung von
8 Kerne * 3,8 GHz * ( 8 FP32-Werte pro Register * 2 Operationen (wg. FMA) * 2 FMA-Einheiten ) = 972 GFlops/s
Hierbei handelt es sich um den theoretischen Höchstwert der Xbox Series X, den die CPU-Kerne via AVX liefern (könnten), so auch von Microsoft angegben.

Beispiel Intel Xeon:
8 Kerne * 3,0 GHz * ( 16 FP32-Werte pro 512 Bit-Register * 2 Operationen * 2 FMA-Einheiten ) = 1536 GFlops/s
Die Registerbreite ist bei AVX-512 doppelt so breit, die größeren Xeon's sowie auch die Core X-CPUs haben gar zwei AVX-512-FMA-Einheiten und damit ergibt sich selbst bei niedrigerem Takt ein höherer, theoretischer Durchsatz. Bezüglich FP64 liegt der theoretische Durchsatz auf den Xeon's so hoch, wie bei den Consumer- und Zen2-CPUs mit FP32. (Zum "theoretisch" siehe weiter unten.)

Beispiel GPUs:
Hier ist es mittlerweile das Gleiche und man verwendet typischerweise eine FMA-Operation als die schnellste, durchsatzstärkste Operation für die Messung der TFlops.
Die Shaderprozessoren (ALUs, SPs, CUDA Cores) können im best case eine Operation pro Taktschritt ausführen (Pascal, Turing, Vega, Navi), d. h.:
RTX 2080: 2 Flops (FMA) * 2944 CUDA Cores * 1,80 GHz Boost = 10598 GFlops/s ~ 10,6 TFlops/s FP32
RX 5700 XT: 2 Flops (FMA) * 2560 SPs * 1,905 GHz Boost = 9753 GFlops/s ~ 9,8 TFlops/s FP32

Beide Hersteller verwenden als Berechnugsgrundlage ihren offiziell angegeben Boost-Takt. Zu beachten ist, dass unterschiedliche Workloads (Engines) unterschiedliche Anforderungen an die Hardware stellen können (hier spielt auch die Optimierung eine Rolle, bspw. der Shaderprogramme). Beispielsweise in SotTombRaider läuft die RTX 2080 im Mittel mit um die 1,785 GHz und damit relativ nahe an ihrem Boost-Takt. Die 5700 XT dagegen läuft hier im Mittel mit 1,780 GHz und ist damit schon deutlich weiter weg von dem Boost-Takt und damit dem theoretisch ermittelten TFlops-Wert.

Änderung mit Ampere:
Mit Ampere fügt nVidia eine weitere FP32-Einheit den CUDA Cores hinzu, d. h. im best case kann Ampere zwei FMA-Operationen pro Takt pro Core berechnen, was zu der deutlich höheren Angabe der theoretischen TFlops führt. Wenn Ampere gleichzeitig INT-Operationen verarbeiten muss (die etwa in einem 1:3-Verhältnis zu FP32-Operationen stehen), dann hat Ampere den gleichen Maximaldurchsatz wie Turing pro Kern und Takt bzgl. TFlops/s. Wenn jedoch keine INT-Operationen benötigt werden, kann dieser Funktionsblock auch FP32/FMA berechnen und man erhält so für bspw. die
RTX 3080: 2 Flops pro Einheit (FMA) * 2 Einheiten * 4352 CUDA Cores * 1,71 GHz Boost = 29767 GFlops/s ~ 29,8 TFlops/s
Müssen parallel INT-Operationen berechnet werden, reduziert sich der theoretische TFlops-Wert auf die Hälfte, da hier nur eine FP32-Einheit arbeiten kann, d. h. ~ 14,9 TFlops (den Wert kennt man bereits von der RTX 2080 Ti mit ihren 4352 CUDA Cores bei 1,635 GHz Boost).
Die TFlops-Leistung der RTX 3080 pendelt in realen Spielen also zwischen etwa 15 und 30 TFlops. Will man es etwas genauer betrachten, kann man das ungefähre 1:3-Operationsverhältnis berücksichtigen. (Weiterhin tragen weitere architektonische Verbesserungen zur Leistungssteigerung bei, wie bspw. die umorganisierten ROPs. Beispielsweise erste CUDA/OpenCL-Vorabtests deuten auf eine gemittelte Mehrleistung ggü. einer RTX 2080 Super von etwa +70 % bei Compute-Workloads hin. Einzelne Tests erreichen gar nahezu bis zu +100 % mehr auf der RTX 3080.)

Ausblick RDNA2:
Sieht man sich die Leistungswerte der Xbox Series X an, dann verbleibt RDNA2 dort bei bestenfalls einer FMA-Operation pro SP pro Takt, d. h. für einen 80 CU großen RDNA2-"Heilsbringer" dürfte man um die 19,5 - 21,5 TFlops/s Peak-Leistung erwarten (in Abhängigkeit des Boost-Taktes). Ob AMD das RDNA2 für dGPUs mittlerweile überarbeitet und architektonisch erweitert hat oder ob dieses auf dem gleichen Stand wie die neuen Konsolen ist, wird man weiterhin abwarten müssen. Zu RDNA2 gibt es mittlerweile so viele Gerüchte, die nahezu jedes denkbare Szenario abdecken, sodass man sich nach Belieben aussuchen kann, was man derzeit glauben oder hoffen möchte ... ;-)
Wer jetzt möglicherweise deprimiert sein sollte ob der (voraussichtlich) gesichert niedrigeren TFlops-Wert bei RDNA2 sollte im Hinterkopf behalten, dass TFlops nur zum Teil/eingeschränkt auf die 3D/Renderleistung übertragbar sind.

"Effizientere TFlops". Erst mal sind TFlops schlicht TFlops. Was grundsätzlich bei deren Angaben zu berücksichtigen ist, dass es sich dabei schon um einen grundsätzlich theoretischen Höchstwert handelt, der mit Werten aus realen Workloads nur beschränkt etwas zu tun hat. (Bereits auf der gleichen Hardware kann sich ein Workload deutlich anders verhalten als ein anderer.)
Es gibt eine klare Taktabhängigkeit, man vermisst die Idealoperation, so ausschließlich eine Multiplikation oder Addition, die die Hardware in einem Taktschritt berechnen kann oder gar im Idealfall eine FMA-Operation, die diese zwei Operationen kombiniert und damit effektiv den Leistungswert verdoppelt. Kann ein FMA in dem jeweiligen Workload nicht (oder kaum) genutzt werden oder müssten bspw. viele Divisionen durchgeführt werden, vermindert sich der Durchsatz beträchtlich. Zudem gehen diese TFlops-Werte implizit von der Verwendung eines perfekt vektorisierten Codes aus, dass die Daten ohne Verzögerungen geladen und gespeichert werden können und dass der RAM keine Verzögerungen beisteuert, so bspw. aufgrund von Zugriffskonflikten durch parallele Threads, etc. Weiterhin ignoriert dieser TFlops-Peak-Wert, dass die Recheneinheiten noch andere Aufgaben haben, so das (Ent)packen von Datentypen, Data-Prefetching, Umorganisationen wie Maskierungen, Shuffeling, Shifts, Initialisierungen, logische Vergleiche, etc. ...
Als grobe Richtlinie kann man den Wert zweifelsfrei nutzen, man sollte im Falle einer genaueren Betrachtung jedoch die Rahmenbedingungen im Auge haben (hardware- wie softwareseitig).

Dass was der Forenuser da wohl als "effizientere TFlops" meinte, war im best case der Vergleich zwischen den Konsolen und dem PC, denn auf den Konsolen ist die Hardware und der Softwarestack unveränderlich, aufeinander abgestimmt und hochgradig optimiert und die Entwicklker lernen diese Hardware mit jedem Projekt besser kennen und können optimierteren Code entwickeln. Der PC ist dagegen eine universelle Maschine mit einem flexibeln Softwarestack und zudem auch sehr unterschiedlicher Hardware, d. h. hier wird tendenziell eher weniger optimiert (Kosten/Nutzen-Frage).
Dennoch muss man auch hier die Kirche im Dorf lassen. Die Xbox als schnellste Konsole erreicht gerade mal ~ 12,1 TFlops FP32 über ihre GPU. Mit entsprechender Optimierung könnte man damit vielleicht durchaus das Renderniveau einer RTX 2080 Ti erreichen (bzgl. Rasterization), jedoch ist es sehr abwegig, dass man mit den HighEnd-Modellen der kommenden GPU-Generationen mithalten können wird.
Und schlussendlich sollte das auch nicht verwundern, denn die HighEnd-GPUs können sich 300+ W TBP gönnen (so auch zweifellos ein HighEnd-RDNA2-Modell, denn mit deutlich weniger wäre diese nicht imstande mit einer RTX 3080 mitzuhalten) und so viel werden die neuen Konsoen nicht einmal insgesamt aus der Steckdose ziehen dürfen. Mehr Rechenleistung benötigt mehr parallel arbeitenden Funktionseinheiten und damit mehr arbeitende Transistoren und damit mehr Energie. Die Physik lässt sich da nicht überlisten. Man kann mit (design)technischen Mitteln hier nur eingeschränkt dagegenarbeiten.

Als "Einzeiler": Den Geschwindigkeitsvorteil der PS5-SSD ggü. der Xbox würde ich nicht überbewerten. Im Wesentlichen ausschlaggebend ist hier der grundsätzlich beträchtliche Unterschied zwischen diesen SSDs und den HDDs der alten Konsolen. Der Geschwindigkeitsvorteil der PS5 ggü. der Xbox mit Faktor 2x ist dagegen vergleichsweise gering.
 
Zuletzt bearbeitet :
Oh man, da habe ich ja was losgetreten mit meiner Frage... Haha. Aber ernsthaft, vielen lieben Dank für die rege Anteilnahme und die vielen (teils sehr ausführlichen) Antworten. Ein dickes fettes Danke an alle Beteiligten. :love:

Darauf gebe ich mal eine virtuelle Runde aus. Haferkekse und Erdbeertee für alle! Prost! *stellt Tee und Kekse auf den virtuellen Stammtisch*
 
*Trinkt Tee,isst die Kekse und bedankt sich bei dem Spender*
 
So liebe ich ... eine nette Computer Freak Familie. 😁 Nimmt dankend, auch ein Keks
 
falls aber weniger wie 50% INT Berechnungen gefordert sind kann er die Cores doch bei Bedarf aufteilen, oder lieg ich da falsch?
Sprich 15% INT 85% FP32
 
INT und FP Cores sind (zumindest bei Turing) jeweils unabhängige, real existierende Rechenwerke in der Hardware. Die können nicht umkonfiguriert werden um die jeweils andere Art der Rechnung durchzuführen:


Bei Ampere hat der halbe Shader die Möglichkeit entweder FP oder INT zu rechnen, wie von gerTHW84 oben schon beschrieben. Soweit ich weiß können die 16 Kerne im Shader-Modul aber immer nur die gleiche Software abarbeiten (an unterschiedlichen Datensätzen), so das die von dir erwartete Flexibilität für 15%/85% wahrscheinlich nur teilweise machbar ist.

Wieviel am Ende an echter Performance rauskommt sehen wir dann ja heute Nachmittag. Hier übrigens ein erstes Video das die Ampere Architektur beschreibt:

 
Zuletzt bearbeitet :
Die Registerbreite ist bei AVX-512 doppelt so breit, die größeren Xeon's sowie auch die Core X-CPUs haben gar zwei AVX-512-FMA-Einheiten und damit ergibt sich selbst bei niedrigerem Takt ein höherer, theoretischer Durchsatz.

Trotzdem wäre ein 10980xe bei der Ausführung der AVX 512 Befehle deutlich effizienter und schneller als mein 9980xe bei vernachlässigbarer Taktdifferenz - nur gut, dass kaum Programme mit AVX 512 arbeiten - außerhalb des prof. Bereichs.
 
Oben Unten