Allgemein CPU Latest news

AMD’s RYZEN and EPYC CPUs with Zen 4 in 5nm and with over 25% more IPC and 40% more overall performance than Zen 3?

Now that Zen 3 has been out for some time, one naturally wonders about AMD’s next-generation CPU architecture for the Ryzen and EPYC CPUs, i.e. Zen 4 carries. Latest rumors now say that there will be another huge IPC jump and massive performance increase over the current processors. The s latest rumor on this topic comes from ChipsandCheese, where their sources report that Genoa, AMD’s next-generation server family, will be significantly faster compared to AMD’s existing EPYC offerings.

According to this rumor, AMD’s Zen 4-core architecture will offer a truly huge leap in IPC. The sources report that existing Genoa engineering samples with the same number of cores and clocks as Milan CPUs are up to 29% faster. That’s really a huge jump, even considering the jump to Milan from Rome. The AMD Zen 4-core architecture will most likely be manufactured on TSMC’s 5nm process nodes and is expected to launch sometime in 2022.

The total performance increase for the Genoa CPUs could even be around 40%, considering that the CPUs will feature more than just a core architecture upgrade. There will be higher clock speeds and also major improvements to the IMC, along with support for faster DDR5 DIMMs and an improved interconnect fabric that communicates with the various cores. The Zen 4 CPUs are also expected to offer an even higher core count, which AMD’s CEO Dr. Lisa Su had hinted at in an earlier interview. It is expected that the EPYC Genoa CPUs of the 4. AMD expects the 3rd generation to have up to 96 cores, although the number could end up being even higher if AMD really wants to push the boundaries significantly in the server CPU segment.

There are also details at ChipsandCheese about Zen 3+ as an interim solution and first chip series supported by the brand new AM5 platform. We already know that Zen 3+ will act as a refresh of sorts and will be referred to internally as Warhol. Zen 3+ is expected to be manufactured in TSMC’s N7 process, but which will then use 5 layers of EUV. So while it’s not technically a new Node, it will offer a number of improvements. The source reports that one could expect nominal IPC gains of 4-7%, which alone is better than the 3% IPC gains that existed at Zen+ at the time.

Finally, for Zen 5, the information is based on a less reliable source, ChipsandCheese reports. These CPUs are expected to offer another massive IPC increase, which is expected to be 2.5-3 times the IPC of Zen 1. That looks like a huge goal, but given what AMD has achieved so far with Zen to Zen 3, nothing seems too impossible. Despite the good news, of course, all these rumors must be properly classified and taken with a grain of salt. But there’s probably some truth to it.

Source: ChipsanCheese

 

Kommentar

Lade neue Kommentare

J
Javeran

Mitglied

17 Kommentare 4 Likes

Die Sprünge braucht es auch. Apple wird auch Jahr für Jahr grosse Sprünge mit den M1 Nachfolgern machen, da gilt es mithalten zu können. (Unglaublich aber wahr, dass man das tatsächlich so sehen kann)

Antwort 1 Like

B
BudSpencer

Mitglied

35 Kommentare 12 Likes

Apple M1 ist nur deswegen so gut, weil er halt eben in TSMC 5nm gefertigt wird.

Antwort 1 Like

B
Betabot

Neuling

6 Kommentare 2 Likes

Die stärken des M1 liegen im 192kB+128kB L1 Cache und im 8-wide decoder.
Einen so breiten decoder werden weder AMD (4-wide) noch Intel (5-wide) hinkriegen. x86 hat einfach variable Instuctions Größen im Gegensatz zu ARM.
Der L1 Cache ist deswegen eigentlich die spannende Neuentwicklung. Ich bin mir sicher das sowohl bei Intel und bei AMD viele Leute die viel klüger sind als ich hart darüber nachdenken wie Apple einen so großen L1 Cache gebastelt hat ohne das die Zugriffszeiten drunter gelitten haben.

Antwort Gefällt mir

B
BudSpencer

Mitglied

35 Kommentare 12 Likes

Ja, das stimme ich Dir teilweise zu. Danke für die Ausführung. Aber wie bekommt man wohl so einen großen Cache - z.B. Strukturverkleinerung :-)

Antwort Gefällt mir

g
gerTHW84

Veteran

414 Kommentare 254 Likes

"Es wird erwartet, dass Zen 3+ in TSMCs N7-Prozess gefertigt wird, der aber dann 5 Schichten EUV verwenden wird."
In dem Falle wäre es der N6 und nicht der N7, also TSMCs dritte 7nm-Prozessgeneration.

Antwort Gefällt mir

C
Capsaicin

Veteran

211 Kommentare 92 Likes

@Betabot Sehe ich auch so, dass der L1 einen Vorteil geben dürfte. Apple hat bestimmt noch ein paar andere Tricks angewandt, die vielleicht eher ungewöhnlich anmuten. Zum Beispiel hab ich was von bestimmten Hardware-Implementierungen für eine performante x86-Emulation gelesen. Die Frage ist aber auch, ob ein so großer L1 unter x86 genauso einen Vorteil verschafft.

Antwort Gefällt mir

g
gerTHW84

Veteran

414 Kommentare 254 Likes

Das ist immer eine Frage der Gewichtung und Austarierung der Vor- und Nachteile. Beispielsweise Zen2's großer L3 hat durch die höhere Kapazität Vorteile, führt aber auch etwas höhere Latenzen ein und zieht grundsätzlich mehr. Neben einer Platztersparnis wurde der Cache in Renoir nicht ohne Grund auf ein Viertel verkleinert. Mit den weiteren Leistungssteigerungen hat man den Cache dann in Cezanne wieder vergößert, belässt ihn bei den APUs aber dennoch bei der Hälfte des Zen2/3-Chiplets. Und auch Intel werkelt regelmäßig am Cache als Bestandteil einer Leistungssteigerung rum.

View image at the forums

Alder Lake (Golden Cove & Gracemont Kern-Architekturen) wird vermutlich min. das Cache-Layout von Willow Cove übernehmen. Wie es im Gesamtsetup bei den Hybrid Technology-CPU-Varianten aussehen wird, wird man abwarten müssen, da die bisherigen Atom's aktuell ohne L3 arbeiten. (Im Idealfall könnten die hier auch den L3 nutzen, im LowPerf/MaxEff-Mode könnte der L3 aber idealerweise dennoch stillgelegt werden.)

Antwort Gefällt mir

C
Capsaicin

Veteran

211 Kommentare 92 Likes

Ich wollte damit eigentlich sagen, dass ich es nicht als gegeben annehmen würde, dass größere Caches bei allen ISAs die gleiche Wirkung haben. Möglicherweise profitiert eine ARM-CPU davon mehr als eine x86-CPU. Wie deine Tabelle ja schön zeigt, sind die L2/L3-Caches ja durchaus etwas gewachsen bei Intel-CPUs (vor allem pro Kern), wohingegen der L1I nach wie vor 32KB groß ist (und nach wie vor 8-way).

Antwort Gefällt mir

g
gerTHW84

Veteran

414 Kommentare 254 Likes

Wie zu sehen ist, hat Intel in seinen aktuelleren Architekturen den L1-Data-Cache ebenfalls bereits vergrößert, konkret um +50 % und das bereits in 2018/19 (Sunny Cove ist effektiv bereits aus 2018). Ob man mit Alder Lake weitere Vergrößerungen zu sehen bekommen wird, wird man abwarten müssen, jedoch sind Größenänderungen längst nicht alles, was man am Cache/Speichersubsystem optimieren kann.
Mit Blick auf Zen2/3 ist der L3 bspw. voraussichtlich nur wegen Epyc und der Chiplet-Bauweise so groß geworden, denn andernfalls hätte man mit den bis zu acht Chiplets mit mehr Latenzen beim Speicherzugriff zu kämpfen. Die L1/L2-Größen sind unverändert geblieben (32/32 KiB und 512 KiB), dennoch hat AMD auch bei Zen3 weiter am Cache optimiert, zusätzlich zum unified L3, der nun alle acht Kerne abdeckt, dafür jedoch auch mit etwas höheren Latenzen auskommen muss.
Derart extrem große Caches, wie sie bspw. beim M1 zu sehen sind, sind voraussichtlich auf x86 nicht sinnvoll übertragbar, weil bspw. ein wesentlicher Unterschied ist, dass die bisherigen ARM-Kerne typischerweise darauf ausgelegt waren ohne einen L3 zu arbeiten und entsprechend müssen ihre anderen Caches zwangsweise etwas größer ausfallen. Beim M1 ging Apple mit den 12 MiB L2 für die vier großen Firestorm-Kerne und die 16 MiB shared L3 des gesammten SoCs jedoch in die Vollen. **)
Ähnliches sieht man auch bei Intel's Atom's. Beispielsweise die aktuellen Tremont-Kerne wurden auf 32/32 KiB L1 belassen/vergrößert (Goldmont Plus verwendete noch 24 KiB L1-Data), was dem Effizienzziel geschuldet ist. Der L2 dagegen kann bei Tremont je nach konkretem Verwendungszweck zwischen 1,5 - 4,5 MiB pro Modul ausfallen und ein Modul kann bis zu vier Kerne enthalten, d. h. es kann Designs mit 4,5 MiB L2 für einen einzelnen Kern geben oder auch bspw. Designs mit 1,5 MiB L2 für vier Kerne. Ein L3 ist für Atom's ebenfalls nicht vorgesehen. Mit dem umfangreichen Überarbeitungen, die die neue Generation Gracemont (Stand-alone und auch als Bestandteil von Adler Lake) erfahren soll, dürfte es interessant zu sehen sein, ob Intel hier nennenswert an die Cache-Struktur der neuen Atom's Hand anlegt, denn dem entgegen stehen die zu erreichenden Effizienzziele (aber vielleicht kann hier das 10nm Enhanced SuperFin etwas mehr Spielraum verschaffen?). Man darf gespannt sein.

*) Bspw. in (vergleichsweise) leistungsstarken CPUs für Base Stations (Atom P, Snow Ridge) verwendet Intel 4,5 MiB pro Vierermodul, so bspw. im 24-Kerner P5962B. Dagegen in der Embedded-Version 6425E (Atom X, Elkhart Lake) kombiniert Intel die vier Kerne mit nur 1,5 MiB L2, vewendet also die kleinstmögliche Kombination.

**) Apple hat beim M1 aus den Vollen geschöpft, was wahrscheinlich zum Teil dem verwendetem N5 von TSMC zuzuschreiben ist, denn die großén Caches kosten einiges an Effizienz, die jedoch durch den modernen Prozess vermutlich besser ausgeglichen werden konnten. Dagegen die topaktuellen SoCs der Konkurrenz, die ARMs Cortex-X1 für den schnellen Kern verwenden, sind auf 1024 bzw. gar 512 KiB L2 beschränkt (zzgl. 64+64 KiB L1) und verwenden für die CPU nur 4 MiB shared L3, was möglicherweise daran liegt, dass der Snapdragon 888 und Exynos 2100 nur Samsungs 5LPE verwenden, das eher mit TSMCs NextGen-7nm-Prozessen vergleichbar ist bzgl. Performance und Effizienz. Das ARM-Design sieht beim X1 grundsätzlich nicht mehr als maximal 1 MiB L2 vor, aber für den shared L3 hätte man bei diesen SoCs auch bis zu 8 MiB implementiert können, wovon jedoch beide Hersteller absahen. Möglicherweise hätte das zu sehr auf die Effizienz geschlagen?

***) Zudem mit Blick auf Performance und Effizienz ist bei architektonischen Lösungen auch die Frage ob die jeweiligen Hersteller, so bspw. Intel und AMD mit x86 ggf. patentrechtlichen Beschränkungen unterliegen, die es ihnen verwehren einige (mittlerweile allgemein bekannte) Bauweisen zu verwenden, die vielleicht noch von ARM als Patente gehalten werden?

Letzten Endes ist ARM zudem bzgl. Effizienz augenscheinlich noch längst nicht der Weisheit letzter Schluss, weil mittlerweile anscheinend noch einiges mehr geht.
Micro Magic, Inc. stellte Ende letzten Jahres den bis dahin schnellsten RISC-V-Kern vor. Mit 0,8 V soll ein einzelner Kern rund 11.000 CoreMark-Punkte erreichen bei 4,25 GHz und gerade mal 200 mW. Ein Raspberry Pi 3 B mit seinen vier Cortex-A53 erreicht bei 1,2 GHz gerade mal 13717 Punkte und zieht netzseitig rd. 4,7 W (2,0 W im Leerlauf). (Mit 1,1 V erreichte ein solcher Kern gar 5,0 GHz und 13.000 CoreMark Punkte. Micro Magic stellt die Erreichung von bis zu 110000 CoreMark Punkten pro Watt in Aussicht, jedoch muss man hier abwarten, wann die Entwicklung zu ersten, echten Produkten führen wird.)
Zur besseren Einordnung: Der EEMBC CoreMark ist ein im Embedded-Bereich genutzter Benchmark und bildet vorrangig einfache Integer-Operationen ab.

Antwort 4 Likes

Klicke zum Ausklappem

Danke für die Spende



Du fandest, der Beitrag war interessant und möchtest uns unterstützen? Klasse!

Hier erfährst Du, wie: Hier spenden.

Hier kannst Du per PayPal spenden.

About the author

Igor Wallossek

Editor-in-chief and name-giver of igor'sLAB as the content successor of Tom's Hardware Germany, whose license was returned in June 2019 in order to better meet the qualitative demands of web content and challenges of new media such as YouTube with its own channel.

Computer nerd since 1983, audio freak since 1979 and pretty much open to anything with a plug or battery for over 50 years.

Follow Igor:
YouTube Facebook Instagram Twitter

Werbung

Werbung