News Intel stellt das komplette Xeon-W-Lineup auf Basis von Cascade Lake vor

Paul Stanik

Veteran
Mitglied seit
Nov 29, 2018
Beiträge
227
Bewertungspunkte
33
Punkte
27
Xeon-W-logo.jpg


Paul Stanik submitted a new blog post

Continue reading the Original Blog Post.
 
Das Flaggschiff, der ablösen soll? Davon ab: ich nehme an, das 'leider' bezieht sich darauf, dass das neue Topmodell statt der verdoppelten 36 nur mit 28 Kernen daherkommt und nicht, wie es sich fälschlicherweise liest, mit deren 8. Oder so ähnlich, das ist ziemlich konfus.
 
Zeichnete sich in der Tat ab, als namhafte Hersteller aus dem Profi-Segment nun Workstation Boards für 3647 rausbrachten bei einer TDP von „nur“ 205W - nur für den Workstation-Exoten W-3175X hätte das nichts gebracht, denn der hat sogar 255W.

Damit könnte die Krücke 2066 als Zwischending wohl mittelfristig Geschichte sein. Preislich und in Sachen Performance haut der Threadripper die eh aus der Bahn.
 
cascade-lake brauch cascade-cooling... :D
 
Mal generell und ganz unabhängig vom Hersteller: Bei den ganzen Kernenmassen, wie sehr wird denn da die Speicherschnittstelle zum Flaschenhals? Es sind ja weiterhin "nur" vier Speicherkanäle.
 
Beim Xeon SP und den neuen Ws sind es 6. Epyc hat 8. Die Zwischendinger (2066/Threadripper) haben 4.

Plus man geht bei Takt hoch auf 2933 (bei Intel).

Spannender ist m.E. eher, wie dieser Speicher im Chip angebunden ist - da scheint Intel konzeptionell noch die Nase vorn zu haben, zumindest liest man da über die üblichen NUMA-Themen hinaus nichts wie zu AMD (insb. Threadripper).

EDIT & Nachtrag: im Home-Use und üblichen Multi-Purpose Use ist das m.E. eh voll zu vernachlässigen. Da zählt im Server an erster, zweiter und dritter Stelle stumpf Menge und Preis. :D Drum hab ich trotz 6-Channel CPU nur 2 2400er 32GB stecken.

Was anderes ist das natürlich bei wirklich rechenintensiven Anwendungen (number crunching & Co.).
 
Zuletzt bearbeitet :
Gibt es eine Faustformel, wie viele Kerne und RAM es pro Speicherkanal im Idealfall (und ohne extreme Taktraten) sein sollten? Bei Z390 funktionieren ja theoretisch 128GB die mit zwei Kanälen an 8 Kernen hängen. Gigabyte gibt für X570 auch 128GB an, die mit zwei Kanälen an bis zu 16 Kernen hängen.
 
Gibt es eine Faustformel ...

Im Idealfall würde natürlich gelten: je mehr desto besser, jedoch bestimmt auch bereits zu einem wesentlichen Teil die Art der laufenden Prozesse die optimalerweise zur Verfügung stehende Speicherbandbreite. I/O-lastige Tasks brauchen recht viel, während rechenlastige Tasks mit deutlich weniger I/O wenig oder kaum ausgebremst werden. (Bspw. das gerne zu benchmarkzwecken genutzte Prime95 skaliert hier ideal, während dagegen Videoencoding und Dateikomprimierung sehr I/O-lasting sind und daher auch eine deutliche Abhängigkeit zum Speicherinterface aufweisen.) In der Praxis scheitert eine maximale Bandbreite an der beschränkten PIN-Zahl am CPU-Package und am beschränkten Platz auf dem Board. Die Anbindung der DIMMs benötigt sehr viele Leiterbahnen, die zudem zu einem Modul auch möglichst geringen Längenunterschiede auf dem Board aufweisen müssen, sodass Signallaufzeiten möglichst wenig voneinander abweichen. Ein durchaus ernstes Problem, das z. T. auch den höheren Preis von Server-Boards erklärt, die u. a. aus diesem Grund über mehr Layers verfügen, als einfache Consumer-Boards und daher teuerer in der Herstellung sind.

Die Server versuchen den Bandbreitenflaschenhals zum RAM durch große L3-Caches abzufangen. Bei Intel sah man bisher typischerweise zwischen 1,5 bis bestenfalls 2,5 MiB L3 pro CPU-Kern. AMD hat mit Epyc 2 nun hier überproportional aufgerüstet, denn es werden 32 MiB pro Chiplet mit 8 Kernen verbaut, d. h. 4 MiB L3 pro Kern. Für Zen2 ist diese Erhöhung, die auch deutlich mehr Transistoren auf dem Die beansprucht, offensichtlich notwendig, da man die 64 Kerne ansonsten nicht optimal auslasten kann. (Ähnliche Effekte konnte man ja beim Threadripper 2990WX bei I/O-lastigen Tasks beobachten.)

Für den Heimgebrauch fällt mir kein wirklicher Einsatzzweck von 128 MiB RAM ein, zumal man hier auch auf teuere 32 GiB-Module zurückgreifen muss und etwaige Kompatibilitätsprobleme bei einem solchen Maximalausbau noch am ehesten zu erwarten wären, sodass man unbedingt die Board-Empfehlungen beachten sollte. (Hier kommt mir am ehesten noch ein FreeNAS-Server in den Sinn, dessen ZFS beträchtliches RAM zum Caching verwendet, was jedoch bei umfangreicher Nutzung dann auch wieder die Fragestellung bzgl. der Datenintegrität aufwirft, sodass man ggf. doch eher über ECC nachdenken sollte ... ein Teufelskreis ;))

Steigende Kernzahlen und höherer Durchsatz in den Kernen (u. a. mit AVX) macht jedoch auch hier eine Anpassung notwendig. Beispielsweise Ice Lake SP (2Q20) wird neben PCIe 4.0 auch ein 8-Kanal-Speicherinterface implementieren, was auch ein Grund für AMD ist, mit Zen3 am Ball zu bleiben, da Intel mit dieser neuen Plattform bereits wesentliche Vorteile von Zen2 nivelliert und bereits im 1HJ21 soll Sapphire Rapids SP zudem auf DDR5-Speicher umsteigen (zzgl. PCIe 5.0).
 
Ich stelle mir den möglichen Ryzen 16 Kerner als prima Workstation für Videoediting/-encoding vor: viele Kerne und hoher Takt. Wenn der dann aber an der Speicherbandbreite bei Vollausbau mit 64GB (oder gar wie von Gigabyte beworben 128GB) verhungert, wäre das imho schon ein wesentlicher Kritikpunkt. Als reine Gaming-CPU kann man das Teil wohl nicht ansehen.
 
Man kann nicht zu viel RAM haben. Schlimmstenfalls baut man sich ne RAMdisk für die häufigsten Programme/Spiele... ;)

Ansonsten: wer virtualisiert, mag RAM. Wer große Dateien bearbeitet, mag RAM. Wer viele Programme/Browserfenster parallel offen hat, mag RAM.

Wie immer setzten Vernunft und Budget hier die Grenzen, aber mehr als 128GB geht ja nicht... nur mit Sockel 3647, 2066 oder SP3...
 
Natürlich nützt das. Es zählen halt nicht nur Anwendungen/Gelegenheiten, wo die RAM-Speed limitiert. RAM ist immer noch ein Vielfaches schneller als SSD, auch NVMe auch im RAID... selbst im Bandbreitenlimit...
 
Ich glaube, du missverstehst mich @Besterino

Wenn ich jetzt eine CPU mit XX Kernen habe, die ihre Daten alle durch das "Nadelöhr" dual channel schicken müssen, dann müsste das, wenn extrem viele Daten zwischen CPU und RAM ausgetauscht werden, doch rein logisch betrachtet irgendwann mal dazu führen, dass die Kerne wegen der Wartezeit auf die Daten nicht mehr richtig ausgelastet werden.

Es müsste doch irgendwo eine Grenze gaben, ab wann es keinen Sinn mehr macht, CPUs mit immer mehr Kernen per dual channel ans RAM anzubinden. Oder ist das völlig egal und quad, hexa oder octa Channel gibt es nur, damit man einfach nur mehr RAM verbauen kann?
 
@Besterino: Immerhin hast Du Dich selbst mit "Vernunft" und "Budget" eingeschränkt. ;) Mit wachsender RAMdisk und der Ablage wichtiger und/oder kritischer Daten auf selbiger kommt man aber in gleicher Art zu dem Punkt Datenintegrität, wie ich ihn zuvor schon zu ZFS angerissen hatte.

Btw ... was kommen Leute eigenlich immer mit Surfen ums Eck? Das habe ich die letzten Tage schon einmal bei jemandem gelesen. Wenn ich mal etwas recherchiere habe ich vielleicht ein, bestenfalls zwei Dutzend Seiten auf, aber damit kratze ich allerbestenfalls an der 2 GiB-Grenze (und das auch nur, wenn ich überwiegend werbelastige, große News-Seiten ansteuere). Bis zu der Aussage, dass man da min. ein 32 oder gar 64 GiB RAM benötigt, ist es noch weit hin. ;) Und darüber hinaus verliert man auch bereits die Übersicht in dem Tab-Wald oder hat und/oder kann nicht Selektieren.
Und auch bei der Virtualisierung komme ich bspw. ganz gut mit 32 GiB aus, auch wenn ich mit VMware Workstation oftmals zwei VMs parallel laufen habe, eine Arbeits/Server-VM und eine größere VM mit einer Oracle XE als dediziertes DB-Entwicklungssystem. Bei viel mehr verschiebt sich die Tätigkeit dann eher schon in den beruflichen Zweig, oder?

@HerrRossi: Die übergroßen Caches bei Zen2 sind ja bereits auf den Chiplets implementiert, d. h. auch Ryzen 3xxx wird über diese verfügen. Für den 12-Kerner hat man ja zudem auch bereits volle 64 MiB L3-Cache angegeben, d. h. man schaltet jeweils 2 Kerne ab (falls nicht defekt), behält jedoch den vollen Cache der Chiplets bei, d. h. der 12-Kerner wird sogar noch über ein noch größeres Cache-Verhältnis von 5,3 MiB/Kern verfügen.

Wie schon von Besterino angemerkt, entscheiden am Ende Vernunft und Budget für einen kleinen Videoschnittplatz: Hobby, semiprofessionell oder gar beruflich, wie häufig, wie lange Videos, mit welcher Software, GPU-Unterstützung, usw.?
Beim Ryzen 3xxx bist Du jedoch voraussichtlich gut aufgehoben, da Du hier das beste P/L-Verhältnis haben dürftest.
Angemerkt sei auch, dass der konkrete Task eine Rolle spielt. Müssen lange Videosequenzen komplett transcodiert werden? Beim reinen Schnitt gibt es bspw. Apps, die recht intelligen nur an den GOP-Grenzen rekodieren, sodass nicht das ganze Video neu gerendert werden muss. Bei der Verwendung von Fabkorrekturen, Titeln und vielen Blenden sieht das ganze natürlich schon anders aus.
Die GPU ist auch noch ein Faktor, denn bspw. Maxwell kann bereits problemlos H.265 kodieren, auch wenn nvenc keine B-Frames verwendet (auch nicht auf Pascal), was aber nur geringen Einfluss auf die Encodingeffizienz hat (erst recht im privaten Bereich).

Ergänzung: In Abhängigkeit der verwendeten App(lication), des Codecs und der vorliegenden Grafikkarte (bspw. eine GTX 1080 oder gar Ti) könnte ein CPU-Upgrade bis hin zu 12 oder gar 16 Kernen u. U. auch überflüssig sein, wenn denn das Rendern über die GPU in Frage kommt und diese leistungsfähig genug ist. Und neben dem reinen Rendern unterstützt so manche App auch beim Schnitt/Editing direkt mittels CUDA. Schlussendlich alles eine Frage der konkreten Anfoderungen. (CUDA hier übrigens nur exemplarisch, jedoch vielfach präferieren App-Hersteller hier eher nVidia aufgrund von CUDA. Ob die jeweilige App auch AMD via bspw. OpenCL unterstützt muss man sich konkret ansehen, ist jedoch bisher eher seltener der Fall.)
 
Zuletzt bearbeitet :
@HerrRossi: das lässt sich m.E. kaum allgemein sagen. Das hängt wohl vom ganz konkreten Workload ab - grundsätzlich arbeitet eine CPU mit ihren Caches, und die werden befüllt bevor die CPU überhaupt anfängt. Je mehr RAM Du hast, desto mehr Daten stehen "relativ schnell" zur Verfügung, zum die Caches zu befeuern. Der Rest hängt dann von den konkret benötigten Operationen ab - je mehr die CPU z.B. zwischen verschiedenen Aufgaben wechseln muss, desto mehr "unterschiedliche" Daten braucht sie. Dabei dürfte dann neben der Kernzahl auch eine Rolle spielen, wie viele unterschiedliche Anwendungen/Operationen von der CPU abgearbeitet werden müssen.

Hier hat's mal einer mit 6 Kernen ausprobiert: https://www.pcworld.com/article/298...e-shocking-truth-about-their-performance.html

Ansonsten sind halt echte Vergleiche schwierig, kannst halt beim Ryzen nicht nach oben mehr Kanäle aufmachen. Mit Threadripper kommst Du auch nicht weiter, da der de facto technisch auch nur Dual-Channel fährt (aber dank seiner 2 Chiplets eben 2x... pseudo-Quad-Channel sozusagen). Das macht die Bestückung so doof - wenn man nicht mindestens 4 Riegel fährt, kann die Performance beim TR übel leiden. :(

Zu den Xeons findet man dazu irgendwie kaum etwas - die können ja sogar 6 Kanäle.

@gerTHW84: meine Filer fahren ALLE mit ECC... ;) Scheiss auf Speed, mit ordentlich RAM-Cache rocken die trotzdem alles weg. Und meine virtuellen Machinen werden mit Autosnaps gesichert und fröhlich mit ZFS send/receive regelmäßig noch auf eine 2. Maschine weggesichert. Da passiert so schnell nix, selbst wenn sich der Hauptserver mal himmeln sollte. :D
 
Oben Unten