AMD AMD EPYC Rome offiziell vorgestellt: 7nm Server-CPUs mit vielen Kernen und höheren Transferraten

Jakob Ginzburg · Aug 9, 2019

AMD hat in San Francisco die Markteinführung seiner 7nm EPYC RomeProzessoren bekanntgegeben, die eine höhere Anzahl an Kernen, eine deutlich gestiegene Leistung sowie eine höhere Effizienz bieten werden. Die Chips sind für den Einsatz im Rechenzentrum sowie für KI- und HPC-Anwendungen ausgelegt. Die Produktion von „Rome“ erfolgt bei TSMC und AMD ist Intel damit erneut einen Schritt voraus - die Xeon-CPUs setzen weiterhin auf die veraltete 14nm-Technologie.

Die EPYC Rom-Serie der zweiten Generation ist der Nachfolger von EPYC Neapel, das vor zwei Jahren auf den Markt kam. Basierend auf der Zen 2 Kerntechnologie, bieten die CPUs 15% mehr IPC gegenüber dem ursprünglichen Zen-Prozessor. Die AMD EPYC Rome CPUs sind so konzipiert, dass sie eine höhere Leistung und bessere Effizienz als die Vorgänger bieten sollen.

Zum Beitrag: https://www.igorslab.de/amd-epyc-ro...mit-vielen-kernen-und-hoeheren-transferraten/

Deridex · Aug 11, 2019

@gerTHW84
Ein Drop-In-Replacement bedeutet nicht, dass nichts verändert wurde. Nur weil etwas an den gleichen Anschlüssen funktioniert, heißt das nicht, dass es gleich ist. Aber ich denke das war jetzt genug Off-Topic.

Freuen wir uns lieber über mehr Leistung im Serversegment.

Besterino · Aug 11, 2019

„Nicht zwingend“ weil ich noch nicht genau weiß, wie die Verbindung zwischen RAM-Bänken und CPU-Sockel bei TR4 grds. aussieht / spezifiziert ist, muss mir noch die AMD Paper dazu mal anschauen, wenn die überhaupt frei verfügbar sind.

Und weil man zu TR3000 noch nichts Genaues weiß, AMD bei Ryzen und Epyc durchaus einiges bei Cache und RAM-Anbindung grundlegend geändert hat, ist so‘ne Pauschalansage, dass sich bei TR3000 nichts am Speicherinterface ändern wird, m.E. eine sportliche Ansage.

Zu 2xDualanbindung bei 4 Chiplets: “Since two of the dies do not have local I/O and DRAM access...”, siehe https://fuse.wikichip.org/news/1569/amd-announces-threadripper-2-chiplets-aid-core-scaling/

Oder dieses Schaubild, da sieht man schön dass DDR eben nur an 2 von 4 Dies hängt: https://images.anandtech.com/doci/13124/2990WX vs 2950X v2.jpg

Mir geht’s also wie gesagt nicht um DDR5, DDR4 Drölftausend oder so, sondern um diesen grundlegenden Design-Lapsus. Das hat auch nix mit dem Fertigungsprozess 7nm, 7nm+ oder was auch immer zu tun.

gerTHW84 · Aug 11, 2019

@Deridex: "Ein Drop-In-Replacement bedeutet nicht, dass nichts verändert wurde ...", nun das war auch Deine Behauptung; Ich selbst habe doch bereits rein in Verbindung mit dem Speichersubsystem auf einige Veränderungen hingewiesen

Aber am grundsätzlichen Setup, 8-Kanäle, DDR4, etc. hat sich nichts verändert und der Durchsatz steigert sich nur insofern, als dass jetzt DDR4-3200 möglich ist, sowie verbesserte (und Latenz-kompensierende) Caches (in einem Dual-Socket-System effektiv nicht ganz +10 % ggü Naples, für den Rest, s. u. ).

@Besterino: Ah, das meintest Du. An den alten TR habe ich schon gar nicht mehr gedacht a) weil technisch ungünstig gelöst (bei > 16 Kernen), aber zu der Zeit nun mal so erforderlich und b) wir gerade über Zen2 reden.
Aber das erklärt, warum Du mir eine "sportliche Ansage" unterstellst, obwohl ich zum Speicherinterface von TR (weder alt noch neu) überhaupt keine Aussage getroffen habe.

Der neue TR wird analog Epyc dessen 14nm-IOD verwenden und damit sollten sich dann alle Fragen von selbst klären, oder?

Im Detail: AMD verwendet zwei IOD-Desings, den keinen 12nm-Chip für die Consumer-Produkte und den großen 14nm-Chip (der auch flächentechnisch deutlich größer ist) für Epyc. Da AMD sehr effizient bei der Entwicklung/Fertigung ist (bzw. sein muss) werden sie bestimmt keine kaum/selten benötigte Funktionalität in den Consumer-IOD implementieren (bspw. 4-Kanal-Speicher, und vielfache Anschlussmöglichkeiten von CCDs), zumal diese Implementation doppelte Arbeit darstellen würde, da sie diese bereits im größeren IOD implementiert haben. (Würde man das annehmen, hätten sie sich ein zweites Design von vornherein sparen können, denn auch einen IOD zu entwickelten kostet beträchtliche Ressourcen. ) Zudem stellt sich die Frage ob man flächentechnisch an den kleinen IOD überhaupt so viele Leitungen heranführen kann, sodass 4 - 8 CCDs *) angeschlossen werden könnten; sieht man sich den Package-Shot von Ryzen an, wurde ich sagen nein, das geht nicht.
Also, TR nutzt den 14nm-IOD von Epyc, man deaktiviert vier Speichercontroller und einige andere Kleinigkeiten, wie bspw. SEV und schon hat man einen TR, der in der Zen2-Iteration noch einmal mehr einem Epyc gleicht. Wie bei Zen2 grundsätzlich, läuft jedwedes I/O über den IOD und damit entfallen auch die Probleme, die man bei der letzten Generation bei der Verwendung von > 16 Kernen beobachten konnte.
Von daher sind Spekulationen zur TR-Performance auch wenig "erquickend", da man sie (bis auf den Takt, das hatten wir schon zuvor) vom Epyc ableiten kann. Die Rechenleistung der Kerne ist bekannt (Ryzen, Epyc, alles das gleiche CCX-Design inkl. L3), die Kommunikation läuft per IF über den IOD und hier sind lediglich 4 Speicherkanäle zu subtrahieren (ggü. Epyc oder 2 Kanäle hinzuzuaddieren im Vergleich zu Ryzen; es verbleiben vielleicht noch Fragen zu den PCIe-Lanes und der sonstigen Konnektivität).
Trivia am Rande: AMD verwendet den 14nm-IOD auch für den Epyc-Chipsatz/PCH. Hier deaktviert man lediglich einige Funktionen wie bspw. die Speichercontroller und schon hat man den PCH. Das kann man wirklich effizient nennen. Wie es beim TR aussehen wird, bleibt abzuwarten, denn die Frage ist, ob AMD mit Weitsicht und Blick auf TR den IOD mit umfangreichem USB/SATA-Support ausgestattet hat (ganz ohne kommt auch ein Epyc nicht aus) oder ob man hier vielleicht den X570 zum X599 umarbeitet oder gar nur umbennent. **)

*) Da ein Chiplet (CCD) bestenfalls zwei CCXe aufweist, muss ein TR bereits mindestens 4 CCDs an seinem IOD anbinden können und wäre damit immer noch auf 32 Kerne beschränkt, sodass L.Su's Aussage "if Ryzen goes up, TR also has to go up" nicht zutreffen würde. Für mehr als 32 Kerne sind also auch mehr als 4 CCDs erforderlich und das ist schlicht zu viel Platzbedarf am IOD, siehe die weißen Kontaktierungen des IF bei AnandTech (unten) mit nur zwei CCDs (3900X oder 3950X). Am 12nm-IOD bleibt einfach kein Platz für ein solches Vorhaben.
Hinzu kommt der Punkt, dass AMD zumindest bei Epyc auch Modellvarianten anbietet, die ein deutlich abweichendes Chiplet/Kernverhältnis aufweisen, so zu sehen an den 128 MiB-Varianten 7262 und 7302. Letzterer besitzt bspw. "nur" 16 Kerne, verwendet jedoch vier CCDs, sodass er 128 MiB L3 hat, d. h. hier haben die CCXe nur jeweils zwei aktive Kerne. Im Gegensatz dazu verwendet der 7282 mit ebenfalls 16 Kernen nur zwei CCDs und ist auch gleich deutlich günstiger (650 US$ ggü. 978 US$ laut Listenpreis).
Epcy und TR könnten durchaus aus Stabilitätsgründen bzgl. des CPU-Packages wieder aus min. 4 CCDs/Chiplets bestehen. Für den 7282 würde das bedeuten, dass auf diesen vier CCDs irgendwo vier vollständige CCXe aktiv sind, während alle übrigen CCXe komplett deaktiviert sind.

**) Schlussendlich eine Frage der anfänglichen Planung. Wo kann man die die Funktionalität, die die Plattformen unterscheidet, am effizientesten unterbringen? Unterm Strich würde ich gar eher zum Die tendieren, das jetzt schon für den X570 genutzt wird. Vielleicht wurde dieses gleich von Beginn an mit Blick auf TR konzipiert und es gibt gar keine nennenswerten Unterschiede am PCH. Wie die MB-Hersteller die zur Verfügung gestellten Ressourcen nutzen, bleibt ihnen eh überlassen. Hinzu kommt auch die Möglichkeit, dass man einige, wenige Spezialfunktionen mittels zusätzlicher Chips anbinden kann (zu viele Zusatzchips und das Boarddesign wird zu teuer; andererseits, wenn man sich die Preise der X570er Boards ansieht, spielt das wohl kaum eine Rolle, den 170 €-Boards sind hierbei schon die absoluten Schnäppchen

)

Besterino · Aug 11, 2019

Jo, sag ich doch.

Hoffe das bestätigt sich halt auch wirklich beim TR und idealerweise bleiben halt die Boards noch kompatibel.

Igor Wallossek · Aug 11, 2019

Ich habe mir die Serverboards angesehen und auch Hersteller gefragt - Epyc 2 wird auch auf alten Boards Dank BIOS Update die volle PCIe 4.0 Funktionalität erhalten. Man kann nur hoffen, dass X399 gleichermaßen gepampert wird

Besterino · Aug 11, 2019

Nooiiice! PCIe4 auf alten Epyc Boards! DAS sind mal geile Infos! Ist doch gut, dass ich quasi das komplette Forum hier stalke...

@Igor Wallossek Aber du hast keine, auch keine klitzekleine Info zur TR4-Plattform? Kannst AMD sagen, wenn Du da was plaudern darfst, verkaufen Sie indirekt sofort ein Board, direkt einen alten TR und wenn er raus ist wahrscheinlich direkt nen 3000er... *hust*

Igor Wallossek · Aug 11, 2019

zero info

Besterino · Aug 11, 2019

Mistmistmist...

m2d2 · Aug 16, 2019

Erstmal Hallo zusammen!
Vllt. ein wenig Off-Topic, aber... kann es sein, dass bei den meissten Benchmarks der CPUs die wenigsten Spectre/ Meltdown und sontige Patches der letzten Monate eingespielt sind?! Unter OpenBSD kann Intel nichtmal mehr HT - sind also eigentlich totale Performance Krücken, wenn man alle Patches wirklich nutzt um das System "sicher" zu machen. Möglicherweise irre ich mich auch, das mir die Zeit zum lesen der meissten Artikel schlichtweg fehlt.
Grüße

Tante Edith: sowas z.B. Bench extremeTech

Deridex · Aug 16, 2019

@m2d2
Die Tests der Rome-Server-CPUs die ich bisher gelesen habe, waren mit den zum Test aktuellen Fixes aber mit HT. Die Tests sind auch so schon einseitig genug

Edit: Tippfehler

gerTHW84 · Aug 17, 2019

m2d2 hat gesagt. :
... bei Benchmarks der CPUs die wenigsten Spectre/ Meltdown und sontige Patches der letzten Monate eingespielt sind?!

Warum (und wie) sollten die ohne Patches testen? AMD hat nahezu alles aktuell bekannte bei Zen2 in Hardware gefixt, an einigen Stellen flankiert durch das OS. Das einzige was (mir) bei AMD fehlt (siehe AMD und auf dem entspr. Zen2-Sec-Sheet fehlt es ebenfalls), ist eine verlässliche Aussage zum in Nov'18 veröffentlichten Meltdown-BR (bounds check bypass), das die Sicherheitsforscher auch explizit auf einem Threadripper 1920X nachweisen konnten.

Bei Intel ist das meiste in aktuelleren Prozessor-Revisionen auch in Hardware gepatcht (siehe Intel), insbesondere beim aktuellen 2nd Gen Scaleable-Server Cascade Lake. Der hierbei zu beachtende Punkt ist, dass diese "Mitigations" bei der aktuellen Architektur natürlich Performance-Beschränkungen unterliegen und keine Wunder im Vergleich zu den zuvor ausgegebenen Microcode-Updates vollbringen können, da die Eingriffsmöglichkeiten in eine bestehende Architektur gering sind. Von daher dürften diese Hardware-Lösungen in den meisten Fällen bestenfalls geringfügig performanter als die anfänglich via Firmware ausgegebenen Microcode-Updates sein. (Die konkreten Performance-Einbußen sind sehr stark Workload-abhängig.)
Eine signifikante Besserung ist erst mit Intels neuer Mikroarchitektur Sunny Cove in Sicht, die in 4Q19 erstmals in Form von Ice Lake Y/U (Mobile) in den Markt kommt. Sunny Cove fixt alle aktuellen Probleme (bis inkl. MDS) in Hardware und wird, wie auch bei AMD, bzgl. Spectre v2 & v4, von OS-Schutzmaßnahmen flankiert.
(Intel wird parallel auch Comet Lake als weitere Iteration der Skylake-Mikroarchitektur in 14nm+++ veröffentlichen (Desktop & Mobile), wobei anzunehmen ist, dass zuvor Gesagtes zur alten Architektur auch hier zutrifft.)

Unter Windows 10 besteht nahezu keine Möglichkeit ein "ungepatchtes" Windows zu verwenden. Hier müsste man ein Image von einem alten Build haben, denn mit einer aktuellen Installation hat man auch immer alle OS-Schutzfunktionen auf dem System. (Wie praxisrelevant so ein älterer Build wäre, ist eine andere Frage.)

Mit Linux 5.2 (und backportet) gibt es den Kernel-Switch "mitigations=", mit dem man einige Schutzfunktionen deaktivieren oder explizit setzen kann. Diese sollten jedoch im Normalzustand in den meisten Distros i. d. R. aktiviert sein.

Die Situation bzgl. OpenBSD ist etwas speziell. OpenBSD nimmt für sich in Anspruch ein besonders sicheres OS zu sein und das Projektteam hat sich Mitte 2018 dafür entschieden HT generell zu deaktivieren (u. a. auch, weil etliche, heutige BIOSe diese Möglichkeit gar nicht mehr anbieten, d. h. die MB-Hersteller machen es sich hier einfach).
Entgegen ersten Vermutungen bzgl. HT auf Intel-CPUs sprechen die Release-Notes von OpenBSD 6.4 im Okt'18 jedoch nun undifferenziert von einer generellen Deaktivierung von SMT: "Because Simultaneous MultiThreading (SMT) uses core resources in a shared and unsafe manner, it is now disabled by default. It can be enabled with the new hw.smt sysctl(2) variable." (Entsprechend der Note ist eine nachträgliche Aktivierung bei Bedarf durchaus möglich.)

Den Original-Artikel zu dem Screenshot in Deinem Link findets Du hier: phoronix.com. (Bei den dort zum Test verwendeten Intel-CPUs handelt es sich leider durchgehend um ältere CPU-Revisionen, sodass man nicht prüfen kann, ob Intels Hardware-Mitigations auf der alten/aktuellen Skylake-Architektur zumindest etwas besser abschneiden, als die ursprünglichen MCUs via Firmware/BIOS.)

yummycandy · Aug 18, 2019

Die Folie wird leider selten gezeigt, deshalb hier nochmal die HW-Fixes.

AMD Server-CPUs Epyc 7002: Mit Zen 2 an Intel vorbei

Serverprozessoren der Epyc-7002-Baureihe verdoppeln mit einem Schlag die Leistung in Dual-Socket-Servern und lassen dabei auch Intels Xeon-CPUs hinter sich.

www.heise.de

AMD AMD EPYC Rome offiziell vorgestellt: 7nm Server-CPUs mit vielen Kernen und höheren Transferraten

Jakob Ginzburg

Urgestein

Deridex

Urgestein

Besterino

Urgestein

gerTHW84

Veteran

Besterino

Urgestein

Igor Wallossek

Format©

Besterino

Urgestein

Igor Wallossek

Format©

Besterino

Urgestein

m2d2

Mitglied

Deridex

Urgestein

gerTHW84

Veteran

yummycandy

Mitglied

AMD Server-CPUs Epyc 7002: Mit Zen 2 an Intel vorbei