News NVIDIA Ada Lovelace AD102 mit bis zu 2,2 GHz Takt, 384-Bit Interface samt GDDR6X und über 80 TFLOPs in 5nm?

Sofern interessant, weil ich mir das mal näher angeschaut und exemplarisch ausgewertet habe:

efficiency_ampere_rdna2_2021_examples_no_rt.png

Einige Anmerkungen:
  • Die Quotienten der linken und rechten Tabelle sind nur relativ innerhalb der jeweiligen Tabelle vergleichbar.
  • Man sieht unterschiedliche Ergebnisse (Rangordnung) in Abhängigkeit der Nutzung der GPU-Architektur (aufgrund der unterschiedlichen Engines sowie der implementierten Effekte und der Art, wie ähnliche Effekte in beiden Engines unterschiedlich implementiert wurden).
  • RDNA und RDNA2 in TSMCs N7P, Turing in TSMCs 12FFC(12FFN), Ampere in Samsung's 8LPP(8N).
  • Ampere verwendet in den höheren Modellen stromhungrigen GDDR6-OC-Speicher von Micron mit bis zu 19,5 Gpbs und ein breiteres Interface, hat dafür aber eine allgemein hohe Speicherbandbreite. AMD hat sich für maximal ein 256 Bit-Speicherinterface mit Standard-GDDR6 entschieden und implementierte zusätzlich mit dem “Infinity Cache” einen übergroßen L3$ mit bis zu 128 MiB in den oberen drei Topmodellen (Navi21).
  • AMDs L3$ beschränkt deren Topmodelle ein wenig in 4K. In Borderlands führt die 6900 XT noch mit +10,7 % Fps ggü. der 3090, in 4K schrumpft der Vorsprung auf +4,5 % in dem AMD-Titel zusammen. (In HZD fällt die AMD-Karte in umgekehrter Art deutlich stärker ab in der hohen Auflösung, hier -3,0 % zu -14,9 % in 4K.)
 
Ich weiss nicht, wie die GPU im M1 aufgebaut ist, aber das ist ziemlich beeindruckend, was Apple da entwickelt hat und Intel und AMD sollten diesen Chip sehr ernst nehmen, gerade im mobilen Bereich.
Das Problem bei dieser Diskussion ist, dass diese Hardware nicht unmittelbar miteinander konkurriert. Hierbei handelt es sich im Wesentlichen um eine Entscheidung für ein Ökosystem bzw. eine Plattform. Kann man sich mit Apple-only arrangieren oder will man/benötigt man gar eher die freie PC-Plattform? Natürlich versucht Apple mit den guten Leistungswerten ihrer Hardware Kunden rüberzuziehen, aber dennoch ist es weitaus mehr eine Frage der Plattform.
Darüber hinaus kann man hier aber auch nur einen Teil Apple selbst zu schreiben, da der ARM-vs.-x86-Vergleich durchaus schwierig ist, denn ARM kommt historisch bedingt aus dem mobilen Sektor und ist dementsprechend hier sehr gut aufgestellt und hat ebenso dementsprechend auch viele Jahre gebraucht um sich im HighPerformance-Sektor zu etablieren. Im Vergleich zu Top-ARM-Cores schrumpft Apples Vorsprung entsprechend zusammen. *) Interessant wird sein, was Intel mit dem mobilen Alder Lake in 2022 erreichen können wird. Wenn die neuen E-Kerne (Gracemont) sich tatsächlich so gut darstellen, wie sie angekündigt werden, könnte Intel sich hier durchaus annähern, mehr jedoch vorerst nicht, da ihnen noch ein entsprechender Prozess in der Anwendung fehlt, der erst in 2023 mit Intel 4 und TSMC N5(P)/N4 ein weiteres Heranrücken ermöglichen wird und dann wird es auch zusätzlich weiterüberarbeitete E-Kerne geben (neben ebenso neuen P-Kernen in Meteor Lake).

*) Beispielsweise ARM legt mit seinen neuen ARMv9-Kernen deutlich zu, d. h. Interessenten können hier out-of-the-box HighPerformance-Cores in ihre Designs integrieren. Den größten Sprung macht vermutlich deren kleinster, neuer Kern, der Cortex-A510, der verglichen mit dem 2017er großen HighPerf-Kern Cortex-A73 leisten soll:
+10 % IPC und +15 % Takt und -35 % weniger Verbrauch

**) Beispielsweise entsprechend der kürzlichen Ankündigungen von Microsoft zu deren neuen Surface-Modellen (Gen 8) legen diese bei der Laufzeit mit Tiger Lake in 10nm SuperFin deutlich zu und bereits im nächsten Jahr folgt Alder Lake mit Intel 7 (vormals 10nm Enhanced SuperFin) und zusätzlich der Hybrid Technology (zusätzlich kleine, aber leistungsstarke Gracemont-Kerne). Offensichtlich schläft man hier nicht, jedoch ebenso offensichtlich haben die Probleme in der 10nm-Fertigungsentwicklung ihren Tribut gefordert.
 
Zuletzt bearbeitet :
Rechnet man das in Watt/Fps um, ist das Ampere-Modell deutlich effizienter mit 0,246 W/Fps vs. 2,978 W/Fps und dazu auch noch drastisch günstiger.
Da ist wohl die Kommastelle verrutscht, springt einem ja förmlich ins Auge. Überhaupt ist Ampere nicht so viel schneller als Turing wie das Marketing behauptet. Bin von 2080 Ti auf 3080 Ti und bin ehrlich gesagt etwas enttäuscht.
 
Ja, deutlich effizienter im 0,0 Stellenbereich. Eine 3080ti ist gegenüber der 2080ti nirgendwo effizienter. 350-400W+ Karten sind ein Nogo und gehören verboten. Wenn man die FP32 Performance nicht nutzt, nutzen kann liegen die Karten trotz des höheren Powerbuget auf gleichem Leistungsniveau, vor allem in älteren Titeln fällt Turing massiv zurück, immer dann wenn die Ausführungseinheiten nicht ausgelastet werden können. So ging es AMD mit Vega ja auch. Zudem kennt man was Nvidia über deren interne Treiberpolitik für die neue Gen tut, AMD scheint dies nachzumachen.

Es wäre technisch machbar (produktiv), dass sie nicht so viel verbrauchen müssten, dann darf man halt nicht jeden Schrott verwursten und ihn teurer verkaufen als er eigentlich ist. Vor allem dann, wenn man mit der Brechstange an der Konkurrenz vorbei will. Einfach mehr verbrauchen und dann mehr leisten kann jeder. Von einem Marktführer erwarte ich das er Produkte anbietet die beides können, leistungsstark und effizient! Nicht wenn ich eine neue Grafikkarte brauche, ein neues Netzteil dazu ordern muss, wenn möglich mit 1000W.

Übrigens es wird bald Beschränkungen bei der Effizienz für Hardware geben, ich bin gespannt wo Intel, Nvidia und AMD dann ihr Zeug verkauft. Aber o.k., Indien ist ja groß. Die zahlen da ja alle 2k für Grafikkarten.:)

Der Teilbereich Desktop PC wozu auch die Gamer gehören, ist nach neueren Studien an dritter Stelle was den Energiebedarf angeht, gleich nach Klimatisierung und Server. Das Einsparpotential für Green IT ist im rein machbaren Bereich also riesig und daher wird es auch Beschränkungen geben. Das trifft Spielecomputer genauso.
 
Zuletzt bearbeitet von einem Moderator :
Das Problem bei dieser Diskussion ist, dass diese Hardware nicht unmittelbar miteinander konkurriert. Hierbei handelt es sich im Wesentlichen um eine Entscheidung für ein Ökosystem bzw. eine Plattform.
Das ist natürlich richtig, wobei die Konkurrenz auf dem Notebookmarkt (und besonders im Servermarkt) durchaus eine direkte ist und da ist der M1 Chip den Gegenparts von Intel und AMD schon enteilt, das hätte ich nie für möglich gehalten.

Und - du hast Microsoft ja schon erwähnt - die arbeiten auch an Servern und mobilen Geräten mit ARM-Chips sowie Windows on ARM inkl. der Office-Reihe. Gleiches gilt für Samsung, die auch eigene Notebooks mit ARM-CPUs anbieten wollen, Chromebooks mit ARM CPUs gibt es ja schon länger, die sind besonders in der USA sehr erfolgreich.

Qualcomm hat Nuvia (Ex-Apple Ingenieure) gekauft, Intel will SiFive (RISC V-Pionier) kaufen, die allererste 7nm CPU von Intel wird wohl auf einem SiFive-Design basieren, Horse Creek: https://www.heise.de/news/Horse-Cre...zessoren-mit-7-Nanometer-Technik-6114807.html

AMD arbeitet auch an ARM-Chips und es gibt Gerüchte über eine Fusion mit Qualcomm. Nvidia will ARM gleich direkt kaufen und hat auch ARM-Geräte mit Nvidia Grafikkarte in der Pipeline.

Steam arbeitet auch intensiv daran, Linux und ARM CPUs zu pushen und erzielt durchaus Erfolge in Sachen Vulkan/Metal(Apple)-Kompatibilität und hat jetzt auch die Anti Cheatsoftware-Anbieter überzeugen können.

Das alles sind schon ziemlich starke Hinweise darauf, dass sich die x86 Vorherrschaft dem Ende zuneigen könnte.
 
Das ein 512Bit Speicherinterface viel mehr Platz benötigt und auch dickere Platinen notwendig sein sollen, also daran glaube ich nicht, Es gab ja schon mal ein 512Bit Interface, nur ich schätze das kostet im Wareneinsatz 3Dollar Fuffzig mehr also macht mans nicht
AMD's Hawaii hatte z.B. ein 512Bit SI. Und die Karten sind geradezu legendär für ihren extremen Stromverbrauch. Auch waren die Chips relativ groß und damit teuer in der Fertigung. Wie gesagt: Heute würde man da wohl eher HBM verwenden, weil man damit noch mehr Speicherbandbreite bekommt und gleichzeitig der Verbrauch human bleibt. Ein GDDR Speicherinterface braucht halt relativ viel Strom. Daher versucht man ja aktuell, maximal bei 384Bit zu bleiben (bzw. AMD bleibt bei 256Bit + InfinityCache, opfert also Chipfläche, um das SI kleiner halten zu können, als eigentlich nötig, um den Verbrauch zu reduzieren).
Ich glaube selbst noch nicht so ganz daran. Andererseits: mein 2016er Intel MBP hat auf Akku ~1,5 h Videokonferenz gehalten, beim neuen M1-MBA ist der etwas kleinere Akku erst nach 6 Stunden ViKo leer. Abzüglich Bildschirm ist das ein enormer Vorteil bei der Effizienz.
Naja, das ist aber auch ein Intel Thema. Bei Skype oder Teams sind die Intel Geräte echt schlecht. Hab zum Arbeiten noch ein antikes T460 mit 6600U, das hatte neu grob 6h Laufzeit für Office. In Skype kam es damals aber schon nicht über 2h. Mein ähnlich altes, privates Notebook mit AMD FX8800P ist in Skype deutlich besser, obwohl es für's normale Surfen nicht so lange durchhält (hat auch etwas kleineren Akku). Intel ist im Leerlauf extrem sparsam, aber bei Teillast (zumindest der Teillast von Skype oder Teams) ist man ziemlich schlecht.
Insofern warte ich darauf, dass unsere Admins endlich die AMD Notebooks mit Cezanne freigeben, dann kann ich mein T460 endlich abgeben...

  • AMDs L3$ beschränkt deren Topmodelle ein wenig in 4K. In Borderlands führt die 6900 XT noch mit +10,7 % Fps ggü. der 3090, in 4K schrumpft der Vorsprung auf +4,5 % in dem AMD-Titel zusammen. (In HZD fällt die AMD-Karte in umgekehrter Art deutlich stärker ab in der hohen Auflösung, hier -3,0 % zu -14,9 % in 4K.)
Naja, ich bin mir nicht sicher, ob das so rum stimmt. Denn in 4k ist der Abstand von RDNA2 zu Turing größer als in QHD. Insofern ist es wohl eher so, dass in Auflösungen unter 4k Ampere einfach Probleme hat, die Shader auszulasten und deswegen AMD vorbei zieht oder den Abstand verringert. Insofern hat RNDA2 also keine schwäche bei hohen Auflösungen, sondern Ampere hat eine bei niedrigen Auflösungen. Das Ergebnis zwischen Ampere und RDNA2 ist in beiden Fällen gleich, aber der Vergleich mit Turing zeigt eben, dass Ampere erst ab 4k so richtig durchstartet. Im von dir zitierten Borderlands 3 ist in QHD eine 2080Ti quasi gleichschnell zu einer 3070 (etwas weniger Avg, dafür bessere Low FPS), in 4k ist die 3070 dann in beiden vorne. Es gibt auch in anderen Games so Fälle, entsprechend liegt es nahe, dass Ampere die gedoppelten FP32 Einheiten erst in hohen Auflösungen wirklich nutzen kann und in niedrigeren Auflösungen ein Problem mit der Auslastung bekommt.
 
Zuletzt bearbeitet :
Intel ist im Leerlauf extrem sparsam, aber bei Teillast (zumindest der Teillast von Skype oder Teams) ist man ziemlich schlecht.
Das deckt sich auch mit den Erfahrungen, die ich mit meinem Asus UX31A vorher mit Ivy Bridge gemacht habe. Schon bei niedriger Last sind von den rund 11 Stunden nur noch 4 bis 5 Stunden übrig geblieben.

Basierend auf der Lüfterdrehzahl bei meinem MBP würde ich Skype allerdings nicht als "Teillast" bezeichnen ;)
 
Oben Unten