News Gerücht: Intels 10nm Willow Cove CPU sollen 25% IPC-Steigerung gegenüber Skylake CPUs bringen, Golden Cove 50% und Ocean Cove in 7 nm sogar satte 80%

gerTHW84

Veteran
Mitglied seit
Mai 21, 2019
Beiträge
274
Punkte
42
Ich erkläre jetzt mal, warum ich es für nicht realistisch halte [...]
Wie es aktuell um den 10nm-Yield bestellt ist, weiß niemand. Es gab Aussagen von Intel hierzu Ende 2018 mit dem Eingeständnis von Problemen diesbezüglich und dass man diese bereits identifiziert hat, jedoch hält man sich dort mittlerweile sehr bedekt, sodass man nur raten oder eine Münze werfen kann. Zum Fakt werden etwaig aktuelle (schwerwiegende) Yield-Probleme damit aber nicht. Das einzige, was man noch mitnehmen kann, ist, dass Tiger Lake U offensichtlich mit deutlich besserem Yield produziert wird als noch Ice Lake U im vergleichbaren Zeitraum damals, wobei Intel diese Aussage jedoch nicht mit harten Zahlen unterfüttert hat.
Darüber hinaus wird etwa um den Quartalswechsel 3Q20/4Q20 Ice Lake SP in 10nm++ mit bis zu 38 Kernen verfügbar, ein weiterhin monolithisches Chipdesign.

Deine 8-Kern-Aussage, voraussichtlich mit Blick auf Consumer-Chips, halte ich übrigens für eher unzutreffend. Die Ausbeute dürfte bei 8 Kernen das weitaus geringere Problem sein, denn Intels Designs waren hier flächentechnisch gesehen immer relativ effizient unterwegs. *)
Beispielsweise der 9900(K(S)) und damit wohl auch der 10700(K) benötigen gerade mal 87 % der Wafer-Fläche eines Ryzen 3600/3700/3800 und das, obwohl diese noch zusätzlich eine 24 EUs umfassende iGPU mit auf dem Die haben. **)

Wesentlicher dürften hier die beiden nachfolgenden Punkte sein:
a) Fertigungskapazitäten: Intels Priorität gilt derzeit dem Datacenter und hier muss man die OEMs und Großkunden mit ausreichenden und stabilen Stückzahlen beliefern können. Intel fertigt jetzt schon etliche Produkte in 10nm und bis zum Jahresende werden noch mehr hinzukommen und es wird immer noch an dem Prozess gefeilt. Da bleibt voraussichtlich schlicht keine Kapazität für Consumer-Desktop-Produkte übrig, insbesondere, da diese auch noch geringere Margen abwerfen. ***)
b) Der Prozess lässt noch keine hohen Taktraten zu und man hat mittlerweile den 14nm-Prozess so hochgradig optimiert, dass der schon 4,7/4,8 GHz AllCore und bis zu 5,0 bzw. gar 5,3 GHz Turbo ermöglicht. Damit klafft jedoch eine beträchtliche Lücke zwischen den Fertigungsprozessen, die auch die deutlichen IPC-Zugewinne von Sunny Cove nicht ausgleichen können. Nimmt man vereinfachend die 18 % IPC-Zugewinn von Sunny Cove als pauschale Leistungssteigerung an und setzt ebenso eine lineare Takt/Leistungsskalierung voraus, dann erzielt man hier mit bspw. 4,1 GHz maximalem Takt bestenfalls ein Leistungsäquivalent von rd. 4,8 GHz ggü. den Bestands-CPUs, hätte also unterm Strich nichts gewonnen, sondern lediglich wertvolle (und auch teuere) 10nm-Kapazitäten verschwendet und sich gleichzeitig vermarktungstechnisch in eine nachteilige Position manövriert.

*) Ein Sunny Cove-Kern ist natürlicherweise (relativ) etwas größer als ein Comet Lake-Kern. Jedoch im Vergleich zu Coffee Lake benötigt ein Ice Lake U-Core inkl. L3 nur etwa 65 % Wafer-Flache.

**) Rechnet man die iGPU raus, dann benötigt Intel für ihre aktuellen 8-Kerner in 14nm+++ gar nur ~ 60 % der Waferfläche, die AMD aktuell für ihre 6/8-Kerner benötigt.

***) Und wenn man sich ansieht, welche Preise Intel aktuell (immer noch) für seine Server-CPUs nehmen kann (auch wenn OEMs sicherlich ein signifikanter Mengenrabatt gewährt wird), dann ist das auch eine leichte Rechenaufgabe, denn mit einem Wafer großer Xeon's machen die unterm Strich mehr Gewinn als mit einem Wafer 8-Kern-Consumer-Chips.
 
Zuletzt bearbeitet :

Deridex

Urgestein
Mitglied seit
Dez 2, 2018
Beiträge
1.231
Punkte
82
Also mir wird es jetzt echt zu blöd. Akzeptiere meine Meinung (!) zu diesem Gerücht (!) oder las es. Aber diese Art der Diskussion verdirbt mir den Spaß am Forum ganz gewaltig.
 

Igor Wallossek

Format©
Mitarbeiter
Mitglied seit
Jun 1, 2018
Beiträge
3.872
Punkte
114
Alter
55
Standort
Labor
Pssst. Niemand braucht hier Missionare ;) So, der so.
 

HerrRossi

Urgestein
Mitglied seit
Jul 25, 2018
Beiträge
4.054
Punkte
112
Ich finde es auch wenig sinnvoll, sich über Gerüchte die Köppe heißzureden, meistens kommt es doch anders.
 

zeutan

Mitglied
Mitglied seit
Jul 23, 2018
Beiträge
29
Punkte
3
Ich kann den Zahlen schon was abgewinnen. IPC sagt ja nichts über die Anzahl der beteiligten Kerne aus.

Plus 80% IPC kann also auch heißen, von 10 auf 32 Kerne und 44% Effizienz verlieren. Das geht schon!

Und über den beim Vergleich ausgeführten Code wissen wir ja auch nichts. Also: Abwarten und Tee trinken;-)
 

geist4711

Veteran
Mitglied seit
Jul 22, 2018
Beiträge
114
Punkte
29
Alter
55
Standort
Hamburg
schätzungsweise werden es 20 vieleicht 30% mehr IPC werden, maximal.
mehr ist shlicht marketing-bullshit.
meine meinung.
und jetzt wieder hinsetzen, teetrinken und schauen was tatsächlich dann am markt ankommt ;-) ........
 

Kellerklausi

Mitglied
Mitglied seit
Sep 10, 2018
Beiträge
17
Punkte
1
Deine 8-Kern-Aussage, voraussichtlich mit Blick auf Consumer-Chips, halte ich übrigens für eher unzutreffend. Die Ausbeute dürfte bei 8 Kernen das weitaus geringere Problem sein, denn Intels Designs waren hier flächentechnisch gesehen immer relativ effizient unterwegs. *)
Beispielsweise der 9900(K(S)) und damit wohl auch der 10700(K) benötigen gerade mal 87 % der Wafer-Fläche eines Ryzen 3600/3700/3800 und das, obwohl diese noch zusätzlich eine 24 EUs umfassende iGPU mit auf dem Die haben. **)
Man kann sich auch alles schön reden, wenn man aber folgendes bedenkt:

Ryzen 3800 --> 8x 512kB L2 + 32MB L3 Cache
Intel 9900k --> 8x256kB L2 + 16MB L3 Cache

Der Intel hat zwar eine iGPU mit an Board, der Ryzen aber den doppelten Cache ...

Also Äpfel und Birnen und so ...
 

HerrRossi

Urgestein
Mitglied seit
Jul 25, 2018
Beiträge
4.054
Punkte
112
An Rocket Lake/Willow Cove wird man ja schon nächstes Jahr sehen, ob Intel die +25% zu Skylake bringen kann und ob die CPUs dann noch so hoch takten, das soll ja noch der 14nm Prozess sein. Mehr IPC bei weniger Takt bringt unter dem Strich ja auch nicht viel, also sollten schon 5 GHz drin sein.
 

QuFu

Mitglied
Mitglied seit
Jul 22, 2018
Beiträge
87
Punkte
7
Standort
Leipzig
Eine höhere IPC-Steigerung als bisher wirds auf jedenfall werden, aber ob die mutmaßlich angepeilten 180% vs Skylake in 3-4 Jahren wirklich Realität werden, bleibt abzuwarten. Wie Deridex scchon sagte, es müsste alles optimal laufen, und das über 3 - 4 Jahre. Aber bei solchen "Veröffentlichungen" wird ja auch immer mit dem Optimalfall gerechnet. Was anderes ist keiner gewöhnt und will auch keiner hören. ;)
 

Bambina

Mitglied
Mitglied seit
Jun 14, 2019
Beiträge
41
Punkte
7
Ich glaub schon das intel den Vorstoß von AMD nicht auf sich sitzen läßt und kräftig Gas gibt. In Punkto Forschungsbudget liegt intel weiter WEIT vor AMD. Und höhere IPC ist nicht soo schwer zu machen: intern bestehen CPU Kerne aus mehreren parallelisierten Einheiten, z.B. integer und floating point units. Man baut innerhalb eines Kern einfach mehr in die Breite. Im Extremfall werden die Rechenwerke von bisher 5 CPU kernen dann in nur 4 verbaut und man hat 20..25% IPC Gewinn.
 

Thy

Urgestein
Mitglied seit
Jul 23, 2018
Beiträge
951
Punkte
44
Alter
43
Standort
Bergstraße
Das ist ja genial. Warum macht Intel das nur nicht?

Vielleicht, weil die Archtektur eben nicht so trivial zu ändern ist und man nicht mal so eben deutlich mehr Transistoren auf der gleichen Fläche unterbringen kann?
 

Denniss

Veteran
Mitglied seit
Nov 8, 2018
Beiträge
349
Punkte
27
Es bringt nichts eine sagenhaft schnelle CPU zu haben wenn die Fertigung nicht aus dem Quark kommt und immer noch bei 14nm festhängt. Ebenso bringt die beste Fertigung nichts wenn man keine guten CPU hat.
Intel muß mit seinem riesigen Forschungsbudget beide Baustellen hinbekommen, speziell aber bei der Fertigung.
 

Bambina

Mitglied
Mitglied seit
Jun 14, 2019
Beiträge
41
Punkte
7
Das ist ja genial. Warum macht Intel das nur nicht?

Vielleicht, weil die Archtektur eben nicht so trivial zu ändern ist und man nicht mal so eben deutlich mehr Transistoren auf der gleichen Fläche unterbringen kann?
Genaudeswegen waren SunnyCove/Willow Cove ja für 10nm vorgesehen. WillowCove nun doch in 14nm ist ein backporting um AMD nicht das Feld zu überlassen. Vermutlich wegen der Fläche kommt WillowCove ja nur bis 8 Kerne und nicht mit 10. Im übrigen hatte intel bisher kein Problem auch große DIEs zu produzieren, z.B. schon 2014 die Haswell-E mit 8 Kernen in 22nm.
 

Thy

Urgestein
Mitglied seit
Jul 23, 2018
Beiträge
951
Punkte
44
Alter
43
Standort
Bergstraße
größerer Die = geringere Ausbeute = teurerer Chip = weniger konkurrenzfähig
 
Zuletzt bearbeitet :

PlayerOne

Mitglied
Mitglied seit
Jan 30, 2020
Beiträge
18
Punkte
2
Ich kann den Zahlen schon was abgewinnen. IPC sagt ja nichts über die Anzahl der beteiligten Kerne aus.
Also IPC-Angaben sind normalerweise Single-Thread pro Kern.


Man kann sich auch alles schön reden, wenn man aber folgendes bedenkt:

Ryzen 3800 --> 8x 512kB L2 + 32MB L3 Cache
Intel 9900k --> 8x256kB L2 + 16MB L3 Cache

Der Intel hat zwar eine iGPU mit an Board, der Ryzen aber den doppelten Cache ...
Äpfel mit Birnen Vergleich stimme ich dir zu.
Aber beim richtigen Äpfel mit Äpfel Vergleich, also 9900K vs. Renoir schaut es für Intel trotzdem verdammt gut aus.

Renoir 8 Kerne, 8x 512kiB L2, 1x 8MiB L3 + IGPU ca. 150mm²
9900K 8Kerne, 8x 256kiB L2, 1x 16MiB L3 + IGPU ca. 180mm²

Trotz TSMC 7nm gegen Intels 14nm sind die beiden recht Nahe beieinander und das obwohl Intel insgesamt bedeutend mehr Cache verbaut.
 

Igor Wallossek

Format©
Mitarbeiter
Mitglied seit
Jun 1, 2018
Beiträge
3.872
Punkte
114
Alter
55
Standort
Labor
Intels 14 nm+++ sind ja eher wie GloFos 12 nm+ und TSMCs N7 ist eher eine 10er Mogelpackung ;)
Man kann die Nodes echt nicht vergleichen, das geht immer schief.
 

zeutan

Mitglied
Mitglied seit
Jul 23, 2018
Beiträge
29
Punkte
3
Also IPC-Angaben sind normalerweise Single-Thread pro Kern.
Das dachte ich auch lange. Tatsächlich ist das aber so nirgends niedergeschrieben.

Und wenn man sich die Translation Stages in den Pipelines der einzelnen Cores ansieht, dann geben die den aktuell möglichen Wert von mittlerweile weit über 10 gar nicht her. Ohne jetzt nachzulesen glaube ich, die schaffen bis zu 4 Instructions per Cycle. Mit Branch Prediction und Out Of Order Execution kann man die Pipelines darunter nicht beliebig in die Breite bauen, ohne dass einem die Komplexität des Schedulers um die Ohren fliegt. Das alles ist mit SIMD in den ganzen SSE-Rechenwerken gut ausgereizt.

Darum haben die CPU-Hersteller ja überhaupt erst mit Multicore begonnen, denn bei der Taktfrequenz geht ja im Grunde seit 15 Jahren auch nichts nennenswertes mehr.

Edit: Bei ZEN ist der Instruction Decoder tatsächlich für 4 Instructions per Cycle dimensioniert.
 
Zuletzt bearbeitet :

PlayerOne

Mitglied
Mitglied seit
Jan 30, 2020
Beiträge
18
Punkte
2
Intels 14 nm+++ sind ja eher wie GloFos 12 nm+ und TSMCs N7 ist eher eine 10er Mogelpackung ;)
Die Diskrepanz kommt zustanden weil man uns 20nm gleich mehrfach verkauft hat. Obwohl Intel bereits 22nm mit FINFET-Transistoren gebaut hat, wollte der Rest unbedingt noch 20nm planar bauen. Der Prozess war natürlich ein totaler Fail, fast so schlimm wie Intels 10nm, also musste man 20nm mit FINFETs komplett neu designen und kam dann auf die glorreiche Idee den Prozess 16/14nm zu nennen.
Und auch 12nm ist in Wirklichkeit immer noch eine Art 20nm+++. Intels 14nm ist eher mit 10nm von TSMC/Samsung vergleichbar, definitiv deutlich fortschrittlicher als alles was von den 20nm Prozessen von TSMC/Samsung abstammt.

7nm TSMC sollte dann einigermaßen mit Intels 10nm vergleichbar sein. Dass man bei Intel von der DIE-Size mit 14++++ gegenüber 7nm nicht wirklich weit zurückliegt ist also doch etwas überraschend.
 

PlayerOne

Mitglied
Mitglied seit
Jan 30, 2020
Beiträge
18
Punkte
2
Das dachte ich auch lange. Tatsächlich ist das aber so nirgends niedergeschrieben.
Stimmt schon, IPC heißt ja nur mal Instructions per Cycle, ob man diese Cycles jetzt pro DIE oder pro Kern definiert ist ja nicht wirklich festgelegt.
Üblicherweise werden diese aber trotzdem pro Thread angegeben, weil es anders auch eher wenig Sinn macht. SMT ist ja beispielsweise nichts anderes als die IPC durch die Ausnutzung von TLP (Thread-Level-Paralelism) zu erhöhen.
Alles andere als die IPC verschiedener Architekturen pro Thread zu vergleichen macht kaum Sinn, da diese dann viel zu stark von der verwendeten Software abhängig wären, und nicht von der Architektur selbst.
Es ist natürlich nicht auszuschließen, dass manche Marketinggenies trotzdem auf solche Ideen kommen, bis jetzt war das aber zumindest bei Intel/AMD nie der Fall und alle IPC-Angaben die direkt von den Herstellern kamen waren immer pro Thread.

Und wenn man sich die Translation Stages in den Pipelines der einzelnen Cores ansieht, dann geben die den aktuell möglichen Wert von mittlerweile weit über 10 gar nicht her. Ohne jetzt nachzulesen glaube ich, die schaffen bis zu 4 Instructions per Cycle. Mit Branch Prediction und Out Of Order Execution kann man die Pipelines darunter nicht beliebig in die Breite bauen, ohne dass einem die Komplexität des Schedulers um die Ohren fliegt. Das alles ist mit SIMD in den ganzen SSE-Rechenwerken gut ausgereizt.
Gerade diese Komplexität kann man ja erhöhen, wenn man mit neuen Prozessen höhere Transistorbudgets zur Verfügung hat.
Wobei es hier natürlich nicht nur um Transistorbudgets sondern auch um Energiebudgets geht, und OOE schlägt sich in der Regel durchaus aufs Energiebudget.

Edit: Bei ZEN ist der Instruction Decoder tatsächlich für 4 Instructions per Cycle dimensioniert.
Hier musst du allerdings zwischen "High-Level" IA32/AMD64 Instruktionen und den eigentlich in den ALUs ausgeführte Micro-Ops unterscheiden.
Der Decoder in Zen2 kann pro Takt 4 IA32/AMD64 Instruktionen dekodieren. Eine dieser Instruktionen kann aber in mehreren Micro-Ops resultieren.

Der Kern selbst kann pro Takt bis zu 6 Micro-Ops ausführen. Die weiteren Instruktionen können wie erwähnt daher kommen, wenn eine IA32/AMD64 Instruktion in mehreren Micro-Ops resultiert, oder aus dem Micro-Op-Cache, der ähnlich wie schon damals der Trace-Cache im Pentium 4 bereits dekodierte Micro-Ops enthält.

Damit kann prinzipiell der Kern schon recht gut ausgelastet werden, wenn man Load/Store weglässt (und bei Load/Store-Lastigem Code hat man nie eine durchgehend gute Auslastung, weil man irgendwann Zwangsläufig auf Cache oder sogar RAM warten muss) gibt es 4 Integer-ALUs und 2 FPUs, wobei die FPUs in 4 Pipes aufgespalten sind die prinzipiell parallel arbeite könnten, aber jede nur beschränkte Instruktionen verarbeiten kann.

Da könnte man also durchaus noch etwas in die Breite gehen, Ice-Lake macht das übrigens schon, hier können 7 Micro-Ops pro Takt verarbeitet werden.
 
Oben Unten