News AMD äußert sich zu dem drastischen Unterschied bei der DDR4-Speicherbandbreite zwischen Ryzen R9 3900X und R7 3700X

Jakob Ginzburg

Urgestein
Mitglied seit
Jun 17, 2018
Beiträge
843
Bewertungspunkte
290
Punkte
63
ryzen_3000_cpus_lede_2.101-893x595.jpg


3-way submitted a new blog post
Beim Testen der neuen AMD Ryzen 3000 CPUs stellten wir in den Speicher-Benchmarks von AIDA64 einen deutlichen Unterschied in den Schreibraten zwischen dem R9 3900X und dem R7 3700X fest. Nach anfänglicher Verwunderung und theoretischen Annahmen hat AMD mittlerweile bestätigt, dass es sich tatsächlich um eine bewusste Wahl der Architektur handelt.

Continue reading the Original Blog Post.
 
Wurde das auch mit dem 3800X getestet?
Wenn es bei dem 3600X funktioniert und bei dem 3700X nicht, dann könnte es bei dem 3800X wieder funktionieren. Dann würde der auch etwas mehr Sinn machen.
 
Der 3600X hat das Speicherfeature auch. Im Luxx hat einer AIDA gepostet, schreiben is ca. auch halbiert. Beim 3900X sind alle 3 Caches aber auch deutlich schneller. Hat das auch was damit zu tun, oder liegt das einfach am höheren CPU-Takt?
 
Der 3600X hat das Speicherfeature auch. Im Luxx hat einer AIDA gepostet, schreiben is ca. auch halbiert. Beim 3900X sind alle 3 Caches aber auch deutlich schneller. Hat das auch was damit zu tun, oder liegt das einfach am höheren CPU-Takt?

CPU takt
 
Um die bescheidenen Latenzen zwischen den CCX in Kauf zu nehmen?...

Wieso? Imho haben die Ryzen 3000er CPUs eh 2 CCXes pro Chiplet und weshalb man dann eben jeweils einen pro Chiplet ausschalten könnte. Übrig blieben nach wie vor 2 benutzte CCXes, halt nur auf unterschiedlichen Chiplets.
 
Zuletzt bearbeitet :
@SpiritWolf448: Ein Threadripper "3" auf Basis von Zen2 wurde von Lisa Su schon bestätigt. Unklar ist nur der Veröffentlichungszeitpunkt und wenn der im 1HJ20 liegen sollte, wird er dennoch TSMCs 7FF und nicht etwa 7FF+ verwenden (und erst recht nicht 5FF oder 6FF).

@a2b4: AMD hat diese Designentscheidung nicht ohne Grund getroffen. Der 3700X hält dennoch recht gut mit, schlicht, weil der schreibende Durchsatz in typischen Anwendungen nicht so wichtig ist. AIDA64 misst hier theoretische Maximalwerte, mehr nicht. (Ein DB-Szenario mit einem halbwegs hohen, schreibenden Anteil bei den Queries wäre zweifelsfrei nachteilig für den Ryzen. Beim H.265-Encoding (Igor) ist der 9900K nur +4,6 % schneller und im Cinebench R15 MT (AnandTech) ist der 3700X +2,8% schneller. Hier werden ordentlich Daten umhergeschoben, dennoch ist der schreibende Teil zurück ins RAM unwesentlich im Vergleich zum rechentechnischen Aufwand in den Kernen.)
Darüber hinaus weist auch der 3600(X) natürlich dieses Schreib/Leseverhältnis auf, da es sich um ein Single-CCD-Design handelt und das Vorgehen von AMD eine grundlegende Designentscheidung darstellt (siehe AIDA-Benchmarks; andernfalls wäre AMDs offizielles und hier zitiertes Statement schlichtweg falsch ;)).

Chiplets mit nur 4 aktiven Cores wird man voraussichtlich nicht sehen. So schlecht wird der Yield dann doch nicht sein und man wird nicht freiwillig die Chiplets hierfür derart kastrieren und die Fertigungskosten hochtreiben. Ein 8-Kerner mit zwei CCDs ist daher höchst unwahrscheinlich. AMD hat auch gar keinen Grund sich seine Produktpalette zu verkomplizieren und wer wirklich meint, dass er unbedingt die Schreibrate braucht, kann ja problemlos zum 3900X greifen (wobei dann i. d. R. eher die TR4-Plattform die bessere Wahl wäre, bzw. für bspw. schreiblastige DBs die SP3-Plattform).

@sys64738: Doppelte Leserate mit zwei CCDs? Wie in den Diagrammen von Igor leicht zu sehen ist, beschränkt der 2-Kanal-Speicher nach oben hin. Die Leserate liegt schon nahe dem theoretischen Maximum; Abhilfe schafft hier nur ein Quad- oder Octa-Channel-Interface, wie auf TR4 oder SP3.

@SpiritWolf448 / @Chiara: Einen Threadripper mit 64 Kernen wird man wahrscheinlich ebensowenig zu Gesicht bekommen, schließlich soll die HEDT-Plattform nicht dem Epyc konkurrenz machen; ich tippe hier auf maximal 48 Kerne. Abgesehen davon sind die 64-Kerner deutlich im Takt reduziert (inkl. Boost-Takt). Ein 64-Kerner mit den aktuell typischen 3,6 GHz würde wohl im Bereich von 450 - 500 W liegen und damit selbst Cascade Lake-AP in den Schatten stellen. Zum Vergleich, der Epcy 7601 mit 32C taktet nur mit 2,2/2,7 GHz bei 180 W TDP.

@k0k0k0 / @a2b4: Ein CCD (Chiplet) besteht aus zwei CCX-Funktionsblöcken, jeweils mit 16 MiB L3-Cache und vier Kernen (somit in Summe 8 Kerne mit insgesamt 16+16 MiB L3-Cache pro Chiplet). Lediglich die Kerne auf einem CCD können direkt untereinander kommunizieren. CCDs sind untereinander leitungstechnisch nicht verbunden, d. h. sämtliche Kommunikation über CCD-Grenzen hinweg verläuft über den IOD (I/O-Chip), was zusätzliche Latenzen mit sich bringt.
 
Zuletzt bearbeitet :
@k0k0k0 / @a2b4: Ein CCD (Chiplet) besteht aus zwei CCX-Funktionsblöcken, jeweils mit 16 MiB L3-Cache und vier Kernen (somit in Summe 8 Kerne mit insgesamt 16+16 MiB L3-Cache pro Chiplet). Lediglich die Kerne auf einem CCD können direkt untereinander kommunizieren. CCDs sind untereinander leitungstechnisch nicht verbunden, d. h. sämtliche Kommunikation über CCD-Grenzen hinweg verläuft über den IOD (I/O-Chip), was zusätzliche Latenzen mit sich bringt.

Betroffen wären allerdings erst Anwendungen mit mehr als 4 gleichzeitig benutzten Kernen (die hierfür richtige Auswahl der dabei angesprochenen Kerne mal vorausgesetzt). Und zur Gegenkompensation dieser zusätzlichen Latenzen: Mit der besseren Kühlbarkeit des Chips, wegen der dann großflächigeren Verteilung der Kerne, könnte man ja wiederum den Boost-Takt um 200-400MHz erhöhen. Und wenn dann noch das zusätzliche Chiplet zum reinen Selbstkostenpreis von sagen wir mal 5€??? einfach durchgereicht würde, könnte es sich event. u.U. doch noch lohnen. Zumindest für den 3800X, dessen Takt man dann gleich insgesamt (Base- u. Boost-mäßig) um ein dementsprechendes erhöhen könnte. In dessen ohnehin höherem Preis wäre dann das zweite Chiplet automatisch schon drin, und Saft genug dafür hätte der mit seinen 105W ja zufälligerweise auch schon.
 
Betroffen wären allerdings erst ...

Ganz so einfach dürfte Deine Rechnung nicht sein, insbesondere was den Kostenpunkt angeht. Mit "5 € Selbstkostenpreis" für ein Chiplet wirst Du nicht mal ansatzweise hinkommen. Bei einer groben Überschlagsrechnung komme ich hier eher auf einen Betrag von 50 - 100 € pro 7nm-Chiplet. *)

Auch die Leistungsrechnung ist nicht ganz so trivial. Bei gleicher Auslastung und gleichem Takt bleibt die Wärmeabgabe pro Chipfläche (CCX, 31,3 mm2) natürlich konstant. Eine bessere "Wärmeverteilung" erreicht man also nur, indem Kerne stillgelegt oder nicht genutzt werden. Der 3900X hat mit seinen zwei CCDs im Mittel eine um +55 % höhere Kernlatenz im Vergleich zu den Intel-CPUs. Reduziert man die Kernzahlen pro CCD gar auf 4 Kerne (4+0, noch schlechter wäre 2+2), würde sich der Wert gar noch weiter verschlechtern.
Hinzu kommt die Abhängigkeit zu den konkreten Tasks, sodass AMD abwägen muss. **) Beispielsweise Rendeing-Tasks wäre diese (zusätzliche) Latenz relativ egal, da die Interprozesskommunikation hier auf ein Minimum beschränkt ist. Einzelne Threads bzw. Render-Buckets sind autonome Rechenblöcke, die am Ende lediglich das Endergebnis zurückmelden (auch mit ein Grund, warum GPU-unterstütztes Rendering so gut funktioniert). Moderne Game-Engines sind dagegen viel komplexer und hier gibt es vielfältige Abhängigkeiten zwischen den diversen Subsystemen der Renderpipeline, sowie der Physik, KI, Audio und den Eingabenschnittstellen, usw., d. h. der Bedarf für Interprozesskommunikation und -Synchronisation ist hier deutlich höher, sodass auch die Empfindlichkeit bzgl. höherer Latenzen hier ansteigt.


*) Die von mir geschätzte Spanne der Fertigungskosten ist mit 50 - 100 € natürlich recht groß, was daran liegt, dass die Hersteller (vornehmlich AMD und TSMC) wesentliche Kenndaten zurückhalten. Zudem kommt hinzu, dass es sich grundsätzlich um eine Mischkalkulation handelt. Teildefekte oder die Validierung nicht ganz erfolgreich durchlaufende Chiplets treiben die Fertigungskosten in die Höhe und bspw. AMD wird in den verschiedenen Segmenten (6- bis 16-Kerner) auch mit unterschiedlichen Margen arbeiten.
Hinzu kommen die grundsätzlich hohen Produktions- und Entwicklungskosten. Für eine moderne Fab kann man derzeit 7 - 17 Mrd. US$ Baukosten veranschlagen. Die bei TSMC für 2020 im Bau befindliche Fab 18 kostet bspw. 17 Mrd. US$. Nur diese eine einzige Fab entspricht also bereits 50 % AMDs gesamter Marktkapitalisierung. Und auch das Chipdesign ist in den letzten Jahren mit der zunehmenden Strukturverkleinerung immer komplexer und teuerer geworden. Wärend aktuelle Schätzungen für ein großes 16/14nm-Design (CPU/GPU) noch von rund 100 Mio. US$ Entwicklungskosten ausgehen, liegen diese für ein 7nm-Design mittlerweile bei rund 300 Mio. US$ und steigen auch für kleinere Nodes weiter an.
Irgendwie müssen diese immensen Investitionen ja wieder eingefahren werden und der Zeitraum dafür ist vergleichsweise kurz, da die Marktpreise in ein paar Monaten bereits zu sinken beginnen.

Anmerkung: Mit Deinen "5 € pro Chiplet" käme ich bereits beim Ryzen 3600 auf grob 1000 % Marge und beim 3700X gar schon bis zu 1500 % Marge für AMD. Mit derartigen Werten würde AMDs Bilanz deutlich anders aussehen; zudem widersprechen diese den Aussagen von Lisa Su.

**) Zudem könnte man auch noch weiter Differenzieren und festhalten, dass einige Tasks eher von großen Caches profitieren. Ein 2+2 CCD mit 16+16 MiB L3 wäre also ggf. vorteilhafter als ein 4+0 CCD mit 16+0 MiB L3. Die Rechnung kippt hier aber ganz schnell, wenn die Interprozesskommunikation zunimmt, da nun die Latenzen im Mittel weiter zunehmen aufgrund der nur noch 2 Kerne pro CCX.
Schlussendlich eine schwierige Abwägung, die nur der Konsument mit Blick auf sein spezielles Anwendungsgebiet sinnvoll beantworten könnte. Das würde jedoch eine hochdifferenzierte und komplexe Produktpalette erforderlich machen, die AMD aufgrund seiner noch vergleichsweise kleinen Größe derzeit jedoch nicht anbieten kann.
 
64 Kerne bei 4,6GHz ... Egal wieviel Watt, dafür würde ich mein rechtes ** hergeben oder wie heißt der unsinnige Spruch... Und für die Watts gibbet Netzteile!
 
4,6 GHz auf allen Kernen sind mit normaler Kühlung nicht erreichbar. Da muss man schon unter den Gefrierpunkt gehen. (Trockeneis oder so)
 
4,6 GHz auf allen Kernen sind mit normaler Kühlung nicht erreichbar. Da muss man schon unter den Gefrierpunkt gehen. (Trockeneis oder so)

sind doch nur 800W(ausgehend von dem 12C), das geht auch noch mit ner fetten wakü :)
 
Der Chiller von Igor schafft die 800W problemlos.
Nur die Chiplets von AMD erreichen die 4,6 GHz nicht.
Der maximale Takt auf allen Kernen liegt bei 4,2 bis 4,3 GHz mit Wakü beim 3900X.
 
Der Chiller von Igor schafft die 800W problemlos.
Nur die Chiplets von AMD erreichen die 4,6 GHz nicht.
Der maximale Takt auf allen Kernen liegt bei 4,2 bis 4,3 GHz mit Wakü beim 3900X.

Stell es dir vor, selbst DASS wäre bei 64C ein Träumchen...
 
Der Chiller von Igor schafft die 800W problemlos ...

Bei dieser Milchmädchenrechnung kämst Du gemäß Igors 3900X-Diagramm schon bei gut 890 W an, denn es macht wohl kaum Sinn extra viele Cores zu kaufen, wenn man diese dann grundsätzlich nur zu 70 % auslastet.
Darüber hinaus bist Du dann auch erst, abgeleitet vom 3900X, bei 4,0 bis max. 4,1 GHz angekommen, d. h. Du brauchst noch einmal min. 500 MHz zusätzlich auf dem Heizbrikett.

Hier final 1000 W anzunehmen, wäre wohl optimistisch. Dennoch, mit zwei CCDs wären das mal eben 676 W/cm2.
Zum Vergleich: Der reguläre 3900X hat etwa 113 W/cm2 und ein Schnellkochfeld auf dem Herd arbeitet mit um die 9,5 W/cm2.
Rechnet man noch eine Radeon VII hinzu, weil man was Exorbitantes in 4K auf allen Kernen spielen will, wären das 1,3 kWh. Das reicht um die trockene Luft in einem mäßig großen 4x5m-Raum von 20 C in einer Stunde auf 97 C aufzuheizen. Wenn man gute Fenster und eine gut schließende/dichte Tür hätte, würde man gar 128 C erreichen und hätte ein leicht drückendes Gefühl auf der Brust ob der 1,38 bar im Raum. ;-)
 
Hab kurz „gelolt“, danke für den Praxisvergleich @gerTHW84! :D

Ich Sitz hier gerade bei strahlend blauem Himmel, nicht luftdicht eingeschlossen sondern im Gegenteil recht luftig, leichter Brise, knapp über 30 Grad im Schatten (und gefühlt ca. 480 Grad in der Sonne), den Füßen im Sand und von der lokalen Wakü rauschen die Wellen sanft im Hintergrund... *grübel* glaub die 1,3 kWh wären hier mit Solarzellen gerade easy darstellbar... ;)
 
Na ja, kein Ding, des 1,5KW Netzteil habe ich, einen MoRa mit 9x120mm Lüftern und 2xLaing DDC+ (oder so ähnlich) mit passender Steuerung usw. wäre da.
Wie sieht die Rechnung bei ca. 70m2 Wohnzimmer aus? Wo läge da die habitable Zone? Könnten dort Teppich-Porsche (Yorkies) überleben?

Die Rechnung ist echt gut, hab da nach langer Zeit wieder mal richtig geschmunzelt. Ich frage mich nur warum AMD da nicht hingeht und sagt: OK, 64C wollt ihr? Und 4,6 GHz? Kein Ding, hier gibbet ein Prozessor-Set, bestehend aus 4 Stk. 16-Kernern. Die laufen NUR auf der XYZ-Plattform. Also ein Board mit 4 Sockets. Fertig.
Die Anwärme wird auf 4 Flächen verteilt und DANN passt es...
Und diese Entusiasten-Plattform kann doch so aussehen, warum EIN 64C Monster mit 2GHz, wenn es auch so gehen könnte. Die Grundlagen sind doch da, Epyc Multiproz. Systeme gibt es ja auch. Sperrt man ECC und was weiß ich setzt die auch keiner als WS ein. Und Stromverbrauch? Wayne. Wer sowas will, der weiß auch was der Unterhalt kostet. Ich kenne das, siehe Einleitung...

Also AMD, 4xR9-3950X als R9-Extreme Kit und hier auch neue Wege gehen! So ein Kit um 2.000€ (wie der große TR) und es bleibt sicher genug “hängen“! Wird das Mainboard zum großen Interposer.... Und weil ich euch die Idee geliefert habe dürft ihr mir für meine Frau und mich jeweils ein System zur Verfügung stellen. Und für die Stromrechnung nun ja, wofür bekommt man Rente...
 
Du könntest ja auch 4 Rechner mit 3950X bauen und die dann als Cluster zusammenschalten, überall noch 3 Stk, Radeon 7 rein und du hast deinen eigenen kleinen Supercomputer:cool:
 
Lach nicht aber der 32C für den FluSi wäre schon der Kracher... Da laufen so viel Sachen parallel... ATC, Wetter, FluSi an sich mit A320 und noch ca. 5 weitere Programme die dem FluSi zuarbeiten...
Deshalb, mehr Kerne und richtig Dampf braucht Papa... Und ja, diverse Programme kann man auf 2., 3. PC auslagern, ist aber recht aufwändig.
Also lieber ein einziges Monster, egal wie...
 
Welche Flusim machst du denn? XPlane? Wie schlägt sich da der 2990WX, kennst du Benchmarks?
 
Ja, X-Plane 11 und der FlightFactor A320. Des Teil Simuliert ca. 10.000 Systeme des A320. Das ist der Hammer. Leider habe ich über den 2990WX noch nichts an Benchmarks gefunden. Ist aber alles relativ. Ich “fliege“ auf 3 x FHD + 2 x 4:3 für Flugdisplays. Eigentlich sollte der vernünftig abschneiden, gerade mit 64GB RAM. Das ist fast wichtiger als Takt. Ich warte ja im Prinzip nur auf den TR, also den “neuen“.
 
Na ja, kein Ding, des 1,5KW Netzteil habe ich ...

Rein aus Interesse ... hat sich bei X-Plane was bzgl. der MP-Implementation/Kernausnutzung getan? Denn wenn ich mir so halbwegs aktuelle Infos und Benchmarks dazu ansehe, scheint bei sechs bis allerbestenfalls acht Kernen das Ende erreicht zu sein (und FlightFactor-A320Ultimate weist auch keine zusätzlichen Anforderungen aus.)

Dein angedachtes "R9-Extreme Kit" wird es wohl nicht ganz so günstig, da vier reguläre 3950X zusammen bereits mindestens 3000 € kosten werden. Vergisst man den Umstand, dass AMD aktuell bestenfalls Dual-Socket-Systeme anbietet, würde zudem die Plattform/das Board deutlich teuerer werden. (Serverboards spielen preislich nicht umsonst in einer ganz anderen Liga. Zudem scheint es so, als wenn die Dual-SP3-Boards im Schnitt teuerer sind als Dual-LGA3647-Boards, was ggf. dem Fertigungsvolumen und den -kosten geschuldet ist. Quad-Socket-Boards legen noch einmal eine Schippe drauf, so bspw. ein Supermicro X10QRH+ für 1280 US$.)

Bei Deinen 1,5 kW schlägt Dein größeres Wohnzimmer mehr ins Gewicht, da sich das Luftvolumen (das Interieur ignorierend) ggü. meiner ersten Beispielrechnung etwas mehr als verdreifacht. Ein Flug Düsseldorf-München würde Dir 46 C (isobar) bzw. 56 C (isocor) bescheren. Das dürfte Deine Wadenbeißer schon an ihre Grenzen bringen. Ein Flug Düsseldorf-Barcelona würde dagegen mit 91 C (isocor) auch Dich niederstrecken.
(Die Rechnung ignoriert natürlich den Umstand, dass die an die Luft abgegebene Energie nachfolgend auf das Interieur, Boden, Decke, Wände und Dich übertragen wird. Entsprechend heizt sich die Luft in einem realen Raum nicht so stark auf.
Weiterhin würde die Heizleistung mit der Zeit abfallen, da die Kühlleistung mit zunehmend wärmerer Luft abnimmt, sodass CPUs und GPUs immer weiter drosseln würden.
;) )
 
Oben Unten