Frage Welche CPU (min 10C/20T - max. 12C/24T) mit 256GB RAM und hoher Fließkommaperformance

anfreund

Mitglied
Mitglied seit
Nov 11, 2021
Beiträge
30
Bewertungspunkte
4
Punkte
8
Hallo,

das Thema steht ja im Wesentlichen schon in der Überschrift. Für meine Firma suche ich eine neuen Rechenknecht. Aufgrund der Softwarelizenzen benötige ich max. 12C/24T, da ich nur auf 10-Kernen rechnen kann. Die durchgeführten Simulationen selbst basieren hauptsächlich auf Fließkommarechnungen. Eine GPU (Titan V) wird davon einen Teil übernehmen. Allerdings hab ich auch Szenarien, wo die Programme GPGPU nicht unterstützen und ich reine CPU-Leistung brauche. Da die berechneten Modell recht groß sind, sollen 256GB RAM zum Einsatz kommen.
Im Moment nutze ich ein System aus 2x Xeon E5 2687W v2 mit 192GB RAM und bin da teilweise am Limit. Jetzt benötige ich Empfehlungen, welche CPU hier sinnvoll wäre.

Danke
 
Das Problem ist, das man nicht lineare Analysen, dann auch noch transient, nicht miteinander vergleichen sollte.

Denn die Lösungszeit pro Iteration ist meistens nicht reproduzierbar. Zum Vergleich nimmt man linear statische Analysen mit dem gleichen Solver.
Ich kann das Testcase "Case V18sp-4 Turbine Static, nonlinear, structural, 5 cumulative iteration" 10 mal wiederholen und habe 10 mal verschiedene Ergebnisse, teilweise mit doppelter Lösungszeit.
Es bringt allerdings nicht viel, Lösungen zu vergleichen, die ein völlig anderes Problem mit anders konditionierten Matrizen lösen. Wenn ich transiente nichtlineare Analysen laufen lasse, dann unterscheiden sich sowohl die Ergebnisse als auch die Rechenzeiten nur marginal (+-2%) bei gleichem Testcase. Insofern liegen die Probleme wohl eher im Solver.

Zu dem Empfehlungen der GPU-Beschleuniger. Die Tesla P100 hat nur 4,7 TFlops, wogegen die GP100 knappe 5,2 TFlops leistet (beide mit jeweils 16 BG HBM2). Die A100 bietet mit 9,7 TFlops dann schon ordentlich mehr. Die GV100 liegt mit 8,3 TFlops nicht viel schlechter. Einen Vorteil bei (P100 bzw. A100) kann ich also nicht wirklich erkennen. Allerdings einen wesentlichen Nachteil - keine Grafikausgabe und nur passiv gekühlt. D.h. hier müsste ich auf die laute Serverbelüftung umsteigen und dazu hab ich keine Lust, denn die Kiste steht unterm Tisch.

PS: die K6000 kommt immerhin auf 1,7 TFlops und das beschleunigt nochmals recht ordentlich. Für den Preis eines Kerns (Lizenzmodell über Anzahl der Kerne) reduziert sich die Rechenzeit bei 8 Kernen (auf einem 13900K) um 15...20%. Bei Modellen, die schlecht mit der Kernanzahl skalieren hilft das enorm.

Und wo wir schon mal beim Thema sind: typische Probleme bei mir sind durch Schrauben vorgespannte elastisch/plastisch reagierende Strukturen, die viele Kontakte mit Reibung aufweisen, Klebungen (Cohesivzonen) mit Schädigung, Temperaturlasten unterliegen und dann entweder quasi-statisch bis Bruch belastet werden oder nach einer Vorlast einem Impact/Crash ausgesetzt zu werden. Ansonsten Random Vibration Analysen von geschraubten und/oder geclipsten Systemen, die auch noch komprimierte Gummidichtungen haben. Und zu guter Letzt: dickwandige Faserverbundbauteile, die mit Volumenelementen aufgebaut wurden und Fertigungsverzug enthalten. Hier arbeite ich mit einem eigenen Werkstoffmodell via Subroutine, zur Abbildung der progressiven Schädigung.
 
Zuletzt bearbeitet :
@anfreund

Mag alles sein. Das aber ein E5 2xxx V2 gleich oder schneller als ein Naples Epyc sein soll, glaube ich einfach nicht. Da würde ich dann schon gerne mal einen Beweis sehen, meine Test (nicht nur Ansys) zeigen ein deutlich anderes Bild.

Ob Quadro oder Tesla ist Geschmackssache. P100 hat eigentlich das beste Preisleistungsverhältnis und ist nur um 50% langsamer als ein A100. Problematisch ist eben nur der geringe Speicher von 16 GB.
Für Tesla Karten gibt es Delta Lüfter:


Oder Radial
 
@anfreund

Mag alles sein. Das aber ein E5 2xxx V2 gleich oder schneller als ein Naples Epyc sein soll, glaube ich einfach nicht. Da würde ich dann schon gerne mal einen Beweis sehen, meine Test (nicht nur Ansys) zeigen ein deutlich anderes Bild.

Ob Quadro oder Tesla ist Geschmackssache. P100 hat eigentlich das beste Preisleistungsverhältnis und ist nur um 50% langsamer als ein A100. Problematisch ist eben nur der geringe Speicher von 16 GB.
Für Tesla Karten gibt es Delta Lüfter:


Oder Radial
Die geposteten Ergebnisse stammen aus dem von Dir verlinkten Thread. Für mich erscheint Naples nicht als geeignete Alternative. Siehe auch: https://community.amd.com/t5/server-gurus-discussions/epyc-slow-for-fea/td-p/66116

Die P100 ist zwar echt billig, aber die Deltalüfter sind Kacke. Schweinelaut! Und eine zusätzliche Graka brauchts dann u.U. auch. Da ist der Preisvorteil dahin.
 
Zuletzt bearbeitet :
Ich hab mich mal um eine paar Benchmarks bemüht, um wenigstens innerhalb der Intel CPUS etwas Klarheit zu bekommen. Verglichen werden:
1. 2x Intel Xeon Scalable 6226R processors (Cascade Lake Refresh) (2 x 16C = 32C w/o HT)
2. 2x Intel Xeon Scalable 8380 processors (Ice Lake) (2 x 16C = 32C w/o HT)
3. 1x Intel core i9 13900K (8C/16T)
4. 1x Intel core i9 13900K (8C/16T) + 1x K6000
5. 2x Intel Xeon E5-2687W v2 (2 x 8X = 16C w/o HT)

Auf beiden Xeonsystemen (1. & 2.) wurden alle 32 Kerne genutzt. Auf dem 13900K (3. & 4.) wurden nur 8 Kerne verwendet. Die E5-2687Wv2 wurden einmal mit 8 Kernen und einmal mit 10 Kernen verwendet. Dabei wurden die Threads willkkürlich auf Kerne beider Sockel verteilt, d.h. die Verluste durch Sockelübergreifende Kommunikation sind in beiden Varianten enthalten.

Das Modell ist das s4b (https://www.totalcae.com/learn/firs...n-scalable-processor-performance-with-abaqus/)

WALLCLOCK TIME

1 (32C): 309s
2 (32C): 203s
3 (8C): 318s
4 (8C+G): 226s
5 (8C): 678s
5 (10C): 605s

Und jetzt soll nochmal jemand erzählen, dass die K6000 nix bringt - 29% Rechenzeitverkürzung! Gigantisch finde ich die Performance des 13900K. Mit nur 8 genutzten Kernen ist er vergleichbar mit dem Dual Xeons der letzten und vorletzten Generation. Insbesondere mit GPGPU erreicht er die Peformance des 2x Xeon Gold 8380. Das finde ich einen fetten Schritt nach vorn.
Interessant ist auch der fehlende Vorteil vieler Kerne. Gerade die Rechnungen auf 32 Kernen mit nicht ganz so alten Plattformen zeigen, dass das Modell offenbar nicht gut mit der Kernanzahl skaliert. Auf 4x so vielen Kernen ist Cascade Lake nur 2,2x so schnell wie Ivy Bridge. Achso, bei Ivy Bridge bringen 10 Kerne statt 8 Kerne einen Zeitvorteil von knapp 11%. Das ist soweit noch okay...

Fazit:
- K6000 = billiger Leistungsschub
- Ivy Bridge auf 8 bzw. 10 Kernen etwa halb so schnell wie Cascade Lake bzw. Ice Lake auf 32 Kernen!
- Alder Lake ist ein Monster --> im Benchmarkfall mit 8 Kernen nahezu gleichwertig wie Cascade bzw. Ice Lake mit viefacher Kernanzahl.
 
Oben Unten