News Gerücht: Intels 10nm Willow Cove CPU sollen 25% IPC-Steigerung gegenüber Skylake CPUs bringen, Golden Cove 50% und Ocean Cove in 7 nm sogar satte 80%

@PlayerOne Ich glaube, an der Stelle wird die Debatte akademisch...

Prinzipiell bin ich voll bei Deiner Argumentation.

Mein Gefühl legt sich nur krumm bei dem Gedanken, dass oben 4 Instructions rein wandern, dann maximal 6 Ops dispatched werden, unten aber fast 11 "Weiß-nicht-was" rausfallen. Selbst unter der Annahme, es wären die Micro-Ops, dann sind da nur 10 ALUs+AGUs+ADDs+MULs. Welche "kalbt" da zweimal pro Takt?

Und den Nerv, jetzt allemöglichen white papers zu wälzen, hab ich auch nicht.

Und Erklärung, wie man das um noch mal 80% verbessern können will, würde ich dort wohl auch nicht finden.

Das ist dann wohl auch der Grund, warum ich keine CPUs designe;-)
 
Es können unten auch nicht durchgehend pro Takt 11 Ergebnisse rauskommen, wenn oben pro Takt maximal 6 Micro-Ops reinkommen.

Es wäre jetzt allerdings auch kein großes Problem Decoder und Scheduler entsprechend zu verbreitern und damit das Backend mit mehr Instruktionen zu füttern.
Man macht das nur nicht, bzw. hat es bis jetzt nicht gemacht, weil es einfach nur recht wenig bringen würde.
Parallel ausführen kann man immer nur voneinander unabhängige Instruktionen, voneinander abhängige Instruktionen brauchen immer einen bestimmten Abstand an Takten in denen die Ausführung gestartet werden kann, was man teilweise auch in den Dokumentationen der CPUs beispielsweise als Load-Use-Latenz und diverse andere Latenzen findet.

Um die Auslastung zu erhöhen kann man beispielsweise das Instruction Window, also die Anzahl der Instruktionen welche die CPU "in die Zukunft" anschauen kann, um eben unabhängige Instruktionen zu finden erhöht. Das wurde beispielsweise auch bei Ice Lake gemacht.
Bei Skylake können beispielsweise beispielsweise 224 Instruktionen gleichzeitig in irgendeinem Zustand der Bearbeitung sein, bei Ice Lake sind es bis zu 352.

Das zweite ist natürlich wie immer der Branch Predictor. Je größer wir unser Instruction Window machen, desto wichtiger wird auch der Branch Predictor. Denn eine falsche Vorhersage wird natürlich immer teurer (in Bezug auf den Energieverbrauch) wenn die Vorhersage des Branch Predictors falsch ist, je größer unser Instruction Window ist.
 
Tiger Lake scheint aber schon einiges zu bringen: https://www.computerbase.de/2020-06/cpu-intel-tiger-lake/ Der schlafende blaue Riese ist anscheinend aufgewacht.

Bekommt Intel den 10nm Prozess vielleicht doch noch vernünftig hin?

Bisher ist ja Intels 10nm in der Energieeffizienz bestenfalls gleichwertig zum 14nm Prozess, eine Steigerung von 1,3 auf 2,8GHz beim Basetakt wäre massiv, weil der Basetakt muss sich nun mal an PL1 und damit die TDP halten.
 
Oben Unten