AMDs RYZEN- und EPYC-CPUs mit Zen 4 in 5 nm und mit über 25 % mehr IPC und 40 % mehr Gesamtleistung als Zen 3?

10. Februar 2021 06:35

Nachdem Zen 3 nunmehr seit einiger Zeit auf dem Markt ist, fragt man sich natürlich nach AMDs CPU-Architektur der nächsten Generation für die Ryzen- und EPYC-CPUs, also Zen 4 trägt. Neueste Gerüchte besagen nun, dass es einen weiteren enormen IPC-Sprung und einen massiven Leistungszuwachs gegenüber den aktuellen Prozessoren geben wird. Das s neueste Gerücht zu diesem Thema kommt von ChipsandCheese, wo die davon Quellen berichten, dass Genoa, also AMDs Serverfamilie der nächsten Generation, im Vergleich zu den bestehenden AMD EPYC-Angeboten deutlich schneller sein wird.

Diesem Gerücht zufolge soll AMDs Zen-4-Kern-Architektur einen wirklich enormen Sprung im IPC bieten. Die Quellen berichten, dass bestehende Genoa-Engineering-Samples mit der gleichen Anzahl an Kernen und Takten wie Milan-CPUs bis zu 29 % schneller sind. Das ist wirklich ein enormer Sprung, selbst wenn man den Sprung zu Milan von Rome berücksichtigt. Die AMD Zen 4-Core-Architektur wird aller Voraussicht nach auf TSMCs 5nm-Prozessknoten gefertigt und soll irgendwann im Jahr 2022 auf den Markt kommen.

Der gesamte Leistungszuwachs für die Genoa-CPUs könnte sogar etwa 40 % betragen, wenn man bedenkt, dass die CPUs mehr als nur ein Upgrade der Kernarchitektur aufweisen werden. Es wird höhere Taktraten und auch wichtige Verbesserungen am IMC geben, zusammen mit Unterstützung für schnellere DDR5-DIMMs und einem verbesserten Interconnect-Fabric, der mit den verschiedenen Kernen kommuniziert. Die Zen-4-CPUs sollen zudem noch eine höhere Kernanzahl bieten, was AMDs CEO Dr. Lisa Su in einem früheren Interview bereits angedeutet hatte. Es wird erwartet, dass die EPYC-Genua-CPUs der 4. Generation bis zu 96 Kerne haben werden, obwohl die Zahl am Ende noch höher ausfallen könnte, wenn AMD wirklich die Grenzen im Server-CPU-Segment signifikant verschieben möchte.

Es gibt bei ChipsandCheese auch Details zu Zen 3+ als Zwischenlösung und erste Chipreihe, die von der brandneuen AM5-Plattform unterstützt wird. Wir wissen ja bereits, dass Zen 3+ als eine Art Refresh fungieren wird und intern als Warhol bezeichnet wird. Es wird erwartet, dass Zen 3+ in TSMCs N7-Prozess gefertigt wird, der aber dann 5 Schichten EUV verwenden wird. Obwohl es sich also technisch gesehen nicht um einen neuen Node handelt, wird er doch eine Reihe von Verbesserungen bieten. Die Quelle berichtet, dass man nominale IPC-Gewinne von 4-7% erwarten könnte, was allein schon besser ist als die 3% IPC-Gewinne, die es seinerzeit bei Zen+ gab.

Für Zen 5 schließlich beruhen die Informationen auf einer weniger zuverlässigen Quelle, berichtet ChipsandCheese. Diese CPUs sollen einen weiteren, massiven IPC-Zuwachs bieten, der das 2,5-3-fache des IPC von Zen 1 betragen soll. Das sieht zwar nach einem riesigen Ziel aus, aber angesichts dessen, was AMD bisher mit Zen bis Zen 3 erreicht hat, scheint nichts zu unmöglich. Trotz der guten Nachrichten muss man natürlich all diese Gerüchte richtig einordnen und mit einer gewissen Vorsicht genießen. Aber etwas Wahres dürfte da schon dran sein.

Quelle: ChipsandCheese

9 Antworten

Zeige alle Kommentare an

Kommentar

Lade neue Kommentare

Javeran

Mitglied

16 Kommentare 4 Likes

#1 Feb 10, 2021

Die Sprünge braucht es auch. Apple wird auch Jahr für Jahr grosse Sprünge mit den M1 Nachfolgern machen, da gilt es mithalten zu können. (Unglaublich aber wahr, dass man das tatsächlich so sehen kann)

Antwort 1 Like

BudSpencer

Mitglied

34 Kommentare 12 Likes

#2 Feb 10, 2021

Apple M1 ist nur deswegen so gut, weil er halt eben in TSMC 5nm gefertigt wird.

Antwort 1 Like

Betabot

Neuling

6 Kommentare 2 Likes

#3 Feb 10, 2021

Die stärken des M1 liegen im 192kB+128kB L1 Cache und im 8-wide decoder.
Einen so breiten decoder werden weder AMD (4-wide) noch Intel (5-wide) hinkriegen. x86 hat einfach variable Instuctions Größen im Gegensatz zu ARM.
Der L1 Cache ist deswegen eigentlich die spannende Neuentwicklung. Ich bin mir sicher das sowohl bei Intel und bei AMD viele Leute die viel klüger sind als ich hart darüber nachdenken wie Apple einen so großen L1 Cache gebastelt hat ohne das die Zugriffszeiten drunter gelitten haben.

Antwort Gefällt mir

BudSpencer

Mitglied

34 Kommentare 12 Likes

#4 Feb 10, 2021

Ja, das stimme ich Dir teilweise zu. Danke für die Ausführung. Aber wie bekommt man wohl so einen großen Cache - z.B. Strukturverkleinerung :-)

Antwort Gefällt mir

gerTHW84

Veteran

414 Kommentare 253 Likes

#5 Feb 10, 2021

"Es wird erwartet, dass Zen 3+ in TSMCs N7-Prozess gefertigt wird, der aber dann 5 Schichten EUV verwenden wird."
In dem Falle wäre es der N6 und nicht der N7, also TSMCs dritte 7nm-Prozessgeneration.

Antwort Gefällt mir

Capsaicin

Veteran

211 Kommentare 92 Likes

#6 Feb 10, 2021

@Betabot Sehe ich auch so, dass der L1 einen Vorteil geben dürfte. Apple hat bestimmt noch ein paar andere Tricks angewandt, die vielleicht eher ungewöhnlich anmuten. Zum Beispiel hab ich was von bestimmten Hardware-Implementierungen für eine performante x86-Emulation gelesen. Die Frage ist aber auch, ob ein so großer L1 unter x86 genauso einen Vorteil verschafft.

Antwort Gefällt mir

gerTHW84

Veteran

414 Kommentare 253 Likes

#7 Feb 10, 2021

Das ist immer eine Frage der Gewichtung und Austarierung der Vor- und Nachteile. Beispielsweise Zen2's großer L3 hat durch die höhere Kapazität Vorteile, führt aber auch etwas höhere Latenzen ein und zieht grundsätzlich mehr. Neben einer Platztersparnis wurde der Cache in Renoir nicht ohne Grund auf ein Viertel verkleinert. Mit den weiteren Leistungssteigerungen hat man den Cache dann in Cezanne wieder vergößert, belässt ihn bei den APUs aber dennoch bei der Hälfte des Zen2/3-Chiplets. Und auch Intel werkelt regelmäßig am Cache als Bestandteil einer Leistungssteigerung rum.

View image at the forums

Alder Lake (Golden Cove & Gracemont Kern-Architekturen) wird vermutlich min. das Cache-Layout von Willow Cove übernehmen. Wie es im Gesamtsetup bei den Hybrid Technology-CPU-Varianten aussehen wird, wird man abwarten müssen, da die bisherigen Atom's aktuell ohne L3 arbeiten. (Im Idealfall könnten die hier auch den L3 nutzen, im LowPerf/MaxEff-Mode könnte der L3 aber idealerweise dennoch stillgelegt werden.)

Antwort Gefällt mir

Capsaicin

Veteran

211 Kommentare 92 Likes

#8 Feb 10, 2021

Ich wollte damit eigentlich sagen, dass ich es nicht als gegeben annehmen würde, dass größere Caches bei allen ISAs die gleiche Wirkung haben. Möglicherweise profitiert eine ARM-CPU davon mehr als eine x86-CPU. Wie deine Tabelle ja schön zeigt, sind die L2/L3-Caches ja durchaus etwas gewachsen bei Intel-CPUs (vor allem pro Kern), wohingegen der L1I nach wie vor 32KB groß ist (und nach wie vor 8-way).

Antwort Gefällt mir

gerTHW84

Veteran

414 Kommentare 253 Likes

#9 Feb 10, 2021

Wie zu sehen ist, hat Intel in seinen aktuelleren Architekturen den L1-Data-Cache ebenfalls bereits vergrößert, konkret um +50 % und das bereits in 2018/19 (Sunny Cove ist effektiv bereits aus 2018). Ob man mit Alder Lake weitere Vergrößerungen zu sehen bekommen wird, wird man abwarten müssen, jedoch sind Größenänderungen längst nicht alles, was man am Cache/Speichersubsystem optimieren kann.
Mit Blick auf Zen2/3 ist der L3 bspw. voraussichtlich nur wegen Epyc und der Chiplet-Bauweise so groß geworden, denn andernfalls hätte man mit den bis zu acht Chiplets mit mehr Latenzen beim Speicherzugriff zu kämpfen. Die L1/L2-Größen sind unverändert geblieben (32/32 KiB und 512 KiB), dennoch hat AMD auch bei Zen3 weiter am Cache optimiert, zusätzlich zum unified L3, der nun alle acht Kerne abdeckt, dafür jedoch auch mit etwas höheren Latenzen auskommen muss.
Derart extrem große Caches, wie sie bspw. beim M1 zu sehen sind, sind voraussichtlich auf x86 nicht sinnvoll übertragbar, weil bspw. ein wesentlicher Unterschied ist, dass die bisherigen ARM-Kerne typischerweise darauf ausgelegt waren ohne einen L3 zu arbeiten und entsprechend müssen ihre anderen Caches zwangsweise etwas größer ausfallen. Beim M1 ging Apple mit den 12 MiB L2 für die vier großen Firestorm-Kerne und die 16 MiB shared L3 des gesammten SoCs jedoch in die Vollen. **)
Ähnliches sieht man auch bei Intel's Atom's. Beispielsweise die aktuellen Tremont-Kerne wurden auf 32/32 KiB L1 belassen/vergrößert (Goldmont Plus verwendete noch 24 KiB L1-Data), was dem Effizienzziel geschuldet ist. Der L2 dagegen kann bei Tremont je nach konkretem Verwendungszweck zwischen 1,5 - 4,5 MiB pro Modul ausfallen und ein Modul kann bis zu vier Kerne enthalten, d. h. es kann Designs mit 4,5 MiB L2 für einen einzelnen Kern geben oder auch bspw. Designs mit 1,5 MiB L2 für vier Kerne. Ein L3 ist für Atom's ebenfalls nicht vorgesehen. Mit dem umfangreichen Überarbeitungen, die die neue Generation Gracemont (Stand-alone und auch als Bestandteil von Adler Lake) erfahren soll, dürfte es interessant zu sehen sein, ob Intel hier nennenswert an die Cache-Struktur der neuen Atom's Hand anlegt, denn dem entgegen stehen die zu erreichenden Effizienzziele (aber vielleicht kann hier das 10nm Enhanced SuperFin etwas mehr Spielraum verschaffen?). Man darf gespannt sein.

*) Bspw. in (vergleichsweise) leistungsstarken CPUs für Base Stations (Atom P, Snow Ridge) verwendet Intel 4,5 MiB pro Vierermodul, so bspw. im 24-Kerner P5962B. Dagegen in der Embedded-Version 6425E (Atom X, Elkhart Lake) kombiniert Intel die vier Kerne mit nur 1,5 MiB L2, vewendet also die kleinstmögliche Kombination.

**) Apple hat beim M1 aus den Vollen geschöpft, was wahrscheinlich zum Teil dem verwendetem N5 von TSMC zuzuschreiben ist, denn die großén Caches kosten einiges an Effizienz, die jedoch durch den modernen Prozess vermutlich besser ausgeglichen werden konnten. Dagegen die topaktuellen SoCs der Konkurrenz, die ARMs Cortex-X1 für den schnellen Kern verwenden, sind auf 1024 bzw. gar 512 KiB L2 beschränkt (zzgl. 64+64 KiB L1) und verwenden für die CPU nur 4 MiB shared L3, was möglicherweise daran liegt, dass der Snapdragon 888 und Exynos 2100 nur Samsungs 5LPE verwenden, das eher mit TSMCs NextGen-7nm-Prozessen vergleichbar ist bzgl. Performance und Effizienz. Das ARM-Design sieht beim X1 grundsätzlich nicht mehr als maximal 1 MiB L2 vor, aber für den shared L3 hätte man bei diesen SoCs auch bis zu 8 MiB implementiert können, wovon jedoch beide Hersteller absahen. Möglicherweise hätte das zu sehr auf die Effizienz geschlagen?

***) Zudem mit Blick auf Performance und Effizienz ist bei architektonischen Lösungen auch die Frage ob die jeweiligen Hersteller, so bspw. Intel und AMD mit x86 ggf. patentrechtlichen Beschränkungen unterliegen, die es ihnen verwehren einige (mittlerweile allgemein bekannte) Bauweisen zu verwenden, die vielleicht noch von ARM als Patente gehalten werden?

Letzten Endes ist ARM zudem bzgl. Effizienz augenscheinlich noch längst nicht der Weisheit letzter Schluss, weil mittlerweile anscheinend noch einiges mehr geht.
Micro Magic, Inc. stellte Ende letzten Jahres den bis dahin schnellsten RISC-V-Kern vor. Mit 0,8 V soll ein einzelner Kern rund 11.000 CoreMark-Punkte erreichen bei 4,25 GHz und gerade mal 200 mW. Ein Raspberry Pi 3 B mit seinen vier Cortex-A53 erreicht bei 1,2 GHz gerade mal 13717 Punkte und zieht netzseitig rd. 4,7 W (2,0 W im Leerlauf). (Mit 1,1 V erreichte ein solcher Kern gar 5,0 GHz und 13.000 CoreMark Punkte. Micro Magic stellt die Erreichung von bis zu 110000 CoreMark Punkten pro Watt in Aussicht, jedoch muss man hier abwarten, wann die Entwicklung zu ersten, echten Produkten führen wird.)
Zur besseren Einordnung: Der EEMBC CoreMark ist ein im Embedded-Bereich genutzter Benchmark und bildet vorrangig einfache Integer-Operationen ab.

Antwort 4 Likes

Klicke zum Ausklappem

Alle Kommentare lesen unter igor´sLAB Community →

Danke für die Spende

Du fandest, der Beitrag war interessant und möchtest uns unterstützen? Klasse!

Hier erfährst Du, wie: Hier spenden.

Hier kannst Du per PayPal spenden.

AMDs Ryzen 5000G Pro Desktop APU aufgetaucht – Cezanne ‘Zen 3’ mit 8 Kernen und bis zu 4,75 GHz Taktfrequenz. Günstiger als die als Vermeer CPUs, aber nur für OEMs?

Intel verneint offiziell die Kompatibilität der neuen Desktop-CPUs der 11 Generation (Rocket Lake) auf Motherboards mit B460- und H410-Chipsatz

About the author

View All Posts

Igor Wallossek

Chefredakteur und Namensgeber von igor'sLAB als inhaltlichem Nachfolger von Tom's Hardware Deutschland, deren Lizenz im Juni 2019 zurückgegeben wurde, um den qualitativen Ansprüchen der Webinhalte und Herausforderungen der neuen Medien wie z.B. YouTube mit einem eigenen Kanal besser gerecht werden zu können.

Computer-Nerd seit 1983, Audio-Freak seit 1979 und seit über 50 Jahren so ziemlich offen für alles, was einen Stecker oder einen Akku hat.

Folge Igor auf:
YouTube Facebook Instagram Twitter