Ich hatte das bisher so verstanden [...]
Korrekt, zuvor hatte AMD die GCN-Architektur, zu der bespw. Fiji, dann Polaris und zuletzt Vega gehörte. Die Designs waren primär auf 3D-Echtzeitrendering ausgelegt, also auf das ursprüngliche GPU-Aufgabengebiet. Je nach Sichtweise kann man den Datacenter-Bereich bei AMD (derzeit) komplett ausklammern; in den letzten Jahren inkl. bis heute gab bzw. gibt es kein System in den Top500, das auf Radeon Instinct-Karten setzt/e (
bspw. die MI25 mit Vega 10 im Vollausbau oder modernisierten 7nm-Ableger MI60 und MI50); hier dominiert nVidia (bisher) den Markt, wobei die zunehmend unter Druck geraten durch andere Hersteller wie Intel, Xilinx und ggf. bald auch Huawei(?).
Und da man nichts anderes im Portfolio hat(te), musste AMD diese Designs natürlich auch in anderen Segment mitverwerten; für die Entwicklung dedizierter Designs standen ihnen bisher einfach nicht die Ressourcen zur Verfügung. Beispielsweise Vega 10 (entwicklet in 2015/16, dann Mitte 2017 bspw. als RX Vega 64/56) ist selbst heute noch bei AMD im professionellen Bereich "aktuell", so in der Instinct MI25, der Radeon Pro WX8200 und WX9100.
Hinzu kommt, dass sich AMD hier primär auf seine direkte Kundschaft und weniger auf den Massenmarkt konzentrierte und somit dem direkten Wettbewerb mit nVidia zum Teil zu entgehen versuchte. Polaris und Vega dürften weitestgehend auf Apple zurückzuführen sein und die neue RDNA-Architektur wurde explizit für die neue Konsolen-Generation entwickelt und wird analaog nun lediglich im PC-Massenmarkt zweit/mitverwertet.
Datenformate und Anpassungen:
FP64 ist heute praktisch nicht relevant für 3D-Rendering und dementsprechend verfügen derartige GPUs auch nur über wenige Funktionseinheiten, die im Wesentlichen der Wahrung der Kompatibilität dienen, ansonsten aber nur unnötige Transistoren/Waferfläche kosten. Bei nVidia muss man z. B. etwa bis Kepler (2013) zurück gehen und fand hier noch ein 1:3-Verhältnis bei der FP64-Performance vor, d. h. Kepler's FP64-Durchsatz betrug 1/3 des FP32-Durchsatzes. Ein vergleichbares Verhältnis findet man ebenso bei AMD erst bspw. auf Tahiti (2012) mit 1:4. In der Zwischenzeit haben sich die Render-Pipelines derart geändert, das FP64 immer unbedeutender wurde. *)
AMD begnügt sich hier heute allgemein mit 1:16 bei FP64 (Vega und Navi) und nVidia gar mit 1:32 (Pascal und Turing), d. h. selbst eine Quadro RTX 6000 leistet nur um die 510 GFlops und wird dabei bereits deutlich von einem Core i9-10980XE überholt. Erst für spezielle Märkte angepasste Chipdesigns setzen hier andere Prioritäten, so nVidia's GP100, Volta und AMDs Vega 20, jeweils mit 1:2-Verhältnis.
Wie du schon feststelltest, RDNA2 wird man nicht mit Blick auf FP64 erweitern; entsprechendes wird man nun CDNA vorbehalten; dennoch wird man, wie auch nVidia mit Pascal und Turing, Pro-Karten mit RDNA2 ausstatten, denn FP64 ist hier nicht das wichtigste Feature. Und einem halbwegs aktuellen
Gerücht zufolge wird RDNA2 zumindest im HighEnd auch mit HBM2 kombiniert. **) Ob das Gerücht zutrifft, wird man abwarten müssen.
Darüber hinaus, wenn Gerüchte zu Arcturus/CDNA zutreffen und präzise waren, könnte es sein, dass CDNA gar keine GPU im eigentlichen Sinne mehr sein wird, d. h. die würde man möglicherweise per se nicht mehr auf Radeon Pro's verbauen können. Auch hier wird man jedoch abwarten müssen.
Im 3D-Rendering/Gaming gehts es im weitesten Sinne um mehr parallele Berechnungen für mehr FPS und das führt schlussendlich zu mehr Transistoren, sodass man ab 2015 immer mehr zu einer möglichen Unterstützung von FP16 schielte, was einen Performance-Boost durch eine zwar niedrigere (aber in vielen Fällen ausreichende) Präzision in Aussicht stellte, ohne dass das Silizium übermäßig vergrößert werden muss. id software war hier bspw. ein prominenter Vertreter, der früh erklärte, dass man gerne FP16 nutzen wollen würde. Eine FP16-Unterstützung gab es schon in Polaris und Pascal jedoch erst mit Vega bot AMD eine Implementaiton an, die ein 2:1-Verhältnis implementierte, d. h. hier konnten doppelt so viele FP16-Berechnungen wie FP32-Berechnungen pro Zeitintervall ausgeführt werden, was einen beträchtlichen Performance-Boost versprach. ***)
Parallel dazu entwickelte sich der industrielle Zweig des Machine Learning (nicht zu verwechseln mit den Oberbegriffen KI bzw. AI), der neuronale Netze implementiert und ebenfalls mit vergleichweise niedriger Präzision arbeiten kann, sodass hier beträchtliche Leistungssteigerungen durch die Verwednugn entsprechender Datenformate möglich wurden. Zu FP16 gesellten sich noch INT8 und INT4 (und heute auch bfloat16).
AMD adaptierte FP16 schlussendlich mit Vega (2017), nVidia erst mit Volta (2017) und Turing (2018). Auf Intel-CPUs kommt für entsprechende Workloads AVX-512 mit VNNI zum Einsatz; und Cooper Lake SP's bfloat16 dürfte der Grund sein, warum die CPUs schlussendlich nicht komplett gestrichen wurden. Darüber hinaus wird AVX-512 mit seinen auf ML ausgerichteten Subsets sich zunehmend auch in Mainstream-CPUs wiederfinden (
selbst im 7/9 W-Lakefield) und auch eine Adaption von AVX-512 durch AMD ist wahrscheinlich nich allzu fern.
Bereits in Verbindung mit dem Frontier spricht man von semi-customized Zen3, der auf HPC/AI hin optimiert sein soll, was sehr nach AVX-512 klingt, aber u. U. auch AMD-eigene Erweiterungen bezeichnen könnte.
Derweil im Beschleunigermarkt wird man weitere Spezialisierungen und umfangreiche MCM-Designs beobachten können und industrielle Produkte werden sich immer mehr von (klassischen) GPUs unterscheiden. ****)
*) Im technisch/wissenschaftlichen Bereich ist die Genauigkeit von FP64 jedoch unverzichtbar und in Ausnahmefällen wird gar mit noch höherer Genauigkeit gerechnet.
**) Darüber hinaus sein angemerkt, dass Hersteller wie nVidia und Intel bspw. HBM weitaus umfangreicher nutzen als AMD selbst.
Für AMD gibt es aber diverse Gründe dass HBM2 auch mit zumindest einem RDNA2-Chipdesign kombiniert wird, sodass es nicht unwahrscheinlich ist, das hier auch Consumer im HighEnd bei RDNA2 HBM2 erhalten werden. nVidia dagen wird möglicherweise weiterhin bei GDDR6 bleiben in diesem Segment, was nicht zwingend ein Nachteil ist; hier wird man HBM2 wohl nur in professionellen Designs verwenden (so zumindest dieses Jahr).
***) Beispielsweise Wolfenstein 2 war Mitte 2017 eines der Vorzeigespiele für die RX Vega 64/56 aufgrund umfangreicher Nutzung von Async Compute in Verbindung mit FP16. Vega war AMDs erste Architektur, die FP16 im 2:1-Verhältnis implementierte. (Pascal hatte FP16 nur zu Kompatibilitätszwecken und Polaris unterstützt FP16 nur im 1:1-Verhältnis, bot also keinen Performancevorteil.)
****) Auf Vega 20, gefertigt in TSMCs N7, trifft das jedoch nicht nicht zu. Das Design war weitestgehend ein Shrink mit nur minimalen Änderungen, wobei die auffälligsten FP64 mit 1:2, INT4, Virtualisierung, PCIe 4 und schnellerem HBM2-Speicher waren. Die jedoch weiterhin sehr große Verwandschaft konnte man bei der Radeon VII beobachten, die sich nur überschaubar absetzen konnte und der RTX 2080 Ti durchgehend unterlegen ist und manchmal gar auch der einfachen RTX 2080. AMD hatte keine Ressourcen für eine Neuentwicklung und so griff man zur alten Vega-Architektur. Erst jetzt hat man mehr Ressourcen, die die Entwicklung von CDNA erlauben, das offensichtlich einen deutlich größeren Umbau von GCN darstellen wird.