Wenn man rein nach Shader-Recheneinheiten und Anzahl geht, liegt die Effizienz nicht nur im Bezug auf den Stromverbrauch aktuell klar bei AMD, RT Spezialkram mal beiseite... [...]
Wenn man unbedingt versucht AMD gut dastehen zu lassen, kann man deine Betrachtungsweise nachvollziehen.
Faktisch hat nVidia jedoch nicht derart viele Shaderkerne. Mit Ampere wurde allen Einheiten umfangreich überarbeitet, es gibt massiv überarbeite Tensor Cores v3, es gibt RT Cores v2 und auch die Shaderkerne wurden bei Ampere deutlich überarbeitet. Eine RTX 3080 auf Basis des GA102 hat am Ende dennoch nur 4352 CUDA Cores/Shaderkerne und damit effektiv genau so viele wie eine RTX 2080 Ti. Die Anzahl der RT Cores ist ebenso gleich geblieben und die Zahl der Tensor Cores wurde gar effektiv verringert, was jedoch durch die deutlich leistungsfähigeren Tensor Cores v3 mehr als ausgeglichen wird, die deutlich verbreitert wurden.
Die Leistungssteigerung kommt hier durch die überarbeitete Architektur zustande. (
Ensprechend hat die RTX 3090 als Vollausbau auch "nur" 5248 CUDA Cores.) Dass nVidia das marketingtechnisch gerne anders zählt, damit man auf Werbematerial den überlicherweise "
längste/größten/breitesten" stehen hat, ist nur natürlich, den ein Großteil der Konsumenten wird nun einmal von so plakativ einfachen Zahlen getriggert, da die entweder nicht den Wunsch oder aber gar nicht das technische Hintergrundwissen haben, hinter diese Zahlen zu schauen. (
Beispielsweise beim A100 sieht nVidia offensichtlich keine Notwedigkeit für diesen Marketingzauber, da man es hier überwiegend mit fachlich versierten Kunden zu tun hat und daher spricht man hier schlicht nur von 6912 Cores (verteilt auf 108 aktive SMs). Der Vollausbau des GA100 verfügt gar über 8192 CUDA Cores (und nicht etwa 16384) )
Bei Turing besteht ein SM aus 64 CUDA Cores, gepaart mit 8 Tensor Cores und einem RT Core, sowie dem zusätzliche "Gedöns". Während in Pascal ein CUDA Core entweder FP32 oder INT32 berechnen konnte (
eine kombinierte Funktionseinheite, d. h. die seltener vorkommenden INT32-Ops bremsen das häufiger benötigte FP32-Processing aus), hat man Turing in der Art umgearbeitet, dass es zwei parallele Ausführungspfade pro Core gibt, d. h. hier wurden die Ausführungspfade aufgeteilt auf zwei separate Einheiten, eine FPP32- und eine INT32-Einheit, was sich für einen Teil von Turings Leistungszugewinn ggü. Pascal verantwortlich zeichnet. In Ampere ging man noch einen Schritt weiter und baute die Cores noch weiter um. Ampere bietet weiterhin zwei parallele Ausführungspfade pro Core an. Der eine verwendet nun wieder eine kombinierte INT32/FP32-Einheit wie in Pascal, d. h. dieser kann entweder FP32 oder INT32 berechnen. Über den anderen Ausführungspfad kann man parallel zusätzlich FP32 berechnen lassen. Das bedeutet effektiv, dass wenn gerade INT32-Ops benötigt werden, Ampere faktisch den gleiche Durchsatz hat wie Turing. Bei FP32-Ops dagegen kann ein Core hier beide Ausführungspfade gleichzeitig nutzen und erreicht damit effektiv 4 Flops pro Core pro Taktzyklus (
zwei parallele FMA-Ops) und nicht 2 Flops wie bisher in Turing, Pascal, den Vorgenerationen und so bspw. auch allen aktuelleren AMD-Designs. Entsprechend pendelt bspw. der TFlops-Peakdurchsatz bei einer RTX 3080 (in Games) zwischen 14,9 TFlops und 29,8 TFlops und dürfte in realen Titeln (
wie üblich am Peak-Takt gemessen) eher bei um die knapp über 24 TFlops liegen. (
Darüber hinaus zu beachten ist: TFlops sind nicht gleichzusetzen mit Fps und in reinen Compute-Workloads bewegt sich der effektive TFlops-Wert vermehrt in Richtung des theoretischen Maximums, was auch erklärt, warum die Ampere-Karten hier den RDNA2-Karten tendenziel überlegen sind.)
AMD dagegen hat RDNA(2) eher konservativ weiterentwicklelt und sich stattdessen entschieden einen höhere Taktbarkeit anzuvisieren. Der Aufbau von deren CUs/SPs ist grob unverändert geblieben, hier werden weiterhin unveränderte 2 Flops pro Taktzyklus pro SP erreicht, d. h. der architektonische Durchsatz ist diesbezüglich deutlich geringer als bei Ampere, was den hohen Takt bei RDNA2 unverzichtbar macht. Eine RX 6900 XT mit ihrem Boost-Takt von 2,25 GHz erreicht hier "nur" 23,0 TFlops FP32.
Schlussendlich sind die beiden unterschiedlichen Herangehensweisen durchaus nachvollziehbar. AMD geht den "einfacheren" Weg und ist primär Consumer-orientiert unterwegs, insbesondere wenn man Bedenkt, dass es sich bei RDNA2 primär um eine Entwicklung für die Konsolen-SoCs handelt, die AMD hier auf dem PC nur zweitverwertet und um den InfinityCache ergänzt hat um billiger fertigen zu können. nVidia dagegen hat mit ihren Designs zu einem wesentlichen Teil auch den professionellen Markt im Auge und stellt hier eine möglichst hohe Marge sicher, indem man die Segmente Consumer/Gaming und Prof/Viz beide mittels der gleichen GPU-Designs bedient, was Ampere mit der deutlich gesteigerten FP32-Performance sowie den deutlich leistungsfähigeren Tensor und RT Cores auch gut gelingt und zudem für eine hohe Marge bei nVidia sorgt, da man die Fertigungsentwicklung und -kosten über beide Segmente verteilen kann.
Zu deiner HBM2-Vermutung, bzw. in dem Falle eher deinem (voraussichtlichen) Wunschdenken (
nicht böse gemeint): Das wird höchst unwahrscheinlich sein, denn das verursacht lediglich beträchtliche Kosten aufgrund der Notwendigkeit ein zusätzliches Design zu entwickeln, zu validieren und in kleiner Stückzahl zu fertigen. Darüber hinaus hat man aber kaum Absatzmärkte für einen derartigen Aufwand: Im Consumer-Segment würden nur einige wenige Enthusiasts bei dem teueren Produkt zuschlagen und das professionelle Segment wird weitestgehend von nVidia belegt, d. h. hier ist die Konkurrenzsituation erdrückend und macht es AMD schwer, da sich hier nVidia über viele Jahre lang unbehelligt etablieren konnte (
was sich AMD in diesem Bereich durch ihre mangelnde Weitsicht jedoch auch selbst zuzuschreiben hat).
Nüchtern betrachtet hat AMD bestenfalls aufgeholt und zieht zudem immer noch einen Vorteil aus der etwas leistungsfähigeren Fertigung, d. h. so ganz auf Augenhöhe sind sie in einer allgemeinen Betrachtung immer noch nicht, insbesondere, wenn man berücksichtigt, dass es in anderen Teilbereichen auch noch deutliche Defizite gibt. Zudem übermäßig verwunderlich ist diese Entwiclung aber auch nicht, da AMD bereits seit Ende 2018 auf der RNDA2-IP "sitzt" und diese lediglich nicht vorab für seinen PC-Produkte verwenden durfte, während nVidia hier bereits in einem vergleichbaren Zeitraum eine Gen (Turing) und dann auch noch deren weiterentwickelte Nachfolge-Gen (Ampere) entwickelt und veröffentlicht hat.
Zumindest haben sie nun einen weitaus konkurrenzfähigeren Stand erreicht, der auch für künftige Weiterentwicklungen (2022+) hoffen lässt und die Markteffekte aufgrund der nun echten Konkurrenzsituation sind für jeden Konsumenten grundsätzlich eine willkommene Entwickung.
*) Ergänzend: Für beispeilsweise Gamer dürfte HBM2 vollkommen irrelevant sein, da es im Wesentlichen nur eine höhere Speicherkapazität bieten würde, die für Gamer jedoch vollkommen irrelevant ist, da bereits die drei AMD-Topmodelle (zwangsweise) 16 GiB anbieten (müssen). Eine Mehrwert gäbe es im Consumer-Segment nur, wenn AMD das InfinityCache-Design "
zu sehr auf Kante genäht" hätte und dieses würde die CUs effektiv ausbremsen. Geht man jedoch davon aus, dass AMD hier eine halbwegs sinnvolle Dimensionierung getroffen hat und die Speicherbandbreite aus der Kombination IC + GDDR6 die CUs mit (annährend) vollem Durchsatz arbeiten lässt, dann würde noch mehr Bandbreite durch HBM2 keine Zugewinn bringen, sondern lediglich unnötige Kosten verursachen.
Und da AMD mit Clamshell bei Bedarf auch mit dem bestehenden Design 32 GiB für Radeon Pro's anbieten kann, wird man sich die beträchtlichen, zusätzlichen Kosten für ein separates Design wohl eher ersparen.
**) Beispielsweise zusätzlich zu bendenken ist, dass AMDs Absatzmärkte im professionellen Umfeld durch den bevorstehenden Wegfall von Apple weiter schrumpfen werden, die bisher eine stabile, und umfangreiche Einnahmequelle bei GPUs für AMD darstellten. Beispielsweise etwas wie die recht spät erfolgte Drittverwertung von Vega 20 über Apple, die möglicherweise gar lukrativer für AMD war, als deren eigene Verwertung ihres Designs, dürfte damit zukünftig entfallen, d. h. es läuft auf einen direkten Konkurrenzkampf mit nVidia hinaus, was sie beträchtliche Ressourcen kosten und damit ein langfristiger, mühseliger "Kampf" werden wird.