Zum Infinity Fabric und zurück
Die Prozessoren der ersten Generation von AMD zeigten eine höhere Speicherlatenz als erwartet, was sich in speichersensiblen Anwendungen auf die Performance auswirkt. AMD behauptet, dass man die Speicherlatenz um 11% reduziert habe, zusammen mit mehreren signifikanten Verringerungen bei den L1-, L2- und L3-Cache-Latenzen für die Prozessoren der 2000er-Serie. Zuvor noch einmal AMDs eigene Aussage als Tabelle:
AMDs Messergebnisse | L1-Latenz | L2-Latenz | L3-Latenz |
Speicher-Latenz |
---|---|---|---|---|
Latenzverbesserungen | 13% | 34% | 16% | 11% |
Wir beginnen mit dem Speicher und den Infinity Fabric-Subsystemen und gehen dann zu den IPC-Tests über.
Wir haben mit Sandra von SiSoftware die Cache- und Speicherlatenz mit drei verschiedenen Zugriffsmustern gemessen, was uns mehr Granularität gibt als ein einzelner Test. Sequentielle Zugriffsmuster werden fast vollständig in die TLB vorgeladen, so dass der sequentielle Test ein gutes Maß für die Prefetcher-Performance ist.
Der seiteninterne Zufalls-Test misst zufällige Zugriffe innerhalb derselben Speicherseite. Es misst auch die TLB-Leistung und stellt die beste zufällige Leistung dar (dies ist die Messung, die von den Anbietern für offizielle Datenblätter verwendet wird). Der vollständige Stichprobentest bietet eine Mischung aus TLB-Hits und -Fehlern mit einer hohen Wahrscheinlichkeit von Fehlern, so dass er die Worst-Case-Latenz quantifiziert.
L1 |
L2 |
L3 |
Hauptspeicher |
|
---|---|---|---|---|
Bereich | 2KB – 32KB | 512KB – 8MB | 512KB – 8MB | 8MB – 1GB |
Unabhängig vom Speicherzugriffsmuster passen die kleinsten Datenblöcke in den L1-Cache. Und je größer die Daten werden, desto größer werden die Caches, wie wir in der obigen Tabelle beschrieben haben.
Wir haben sowohl den Ryzen 7 1800X als auch den Ryzen 7 2700X auf dem gleichen X470 Mainboard getestet, um die Verbesserungen aus erster Hand zu sehen. Wir enthalten Testergebnisse mit dem Ryzen 7 2700X bei DDR4-2933 für die Standardkonfiguration, DDR4-3466 für die übertaktete Konfiguration und DDR4-2666 für die Normalisierung mit dem Ryzen 7 1800X.
Um es einfach auszudrücken: wir sehen auf der ganzen Linie große Verbesserungen bei der Speicherlatenz. Mit normalisierten DDR4-2667 Speicherfrequenzen und Timings erzielt der Ryzen 7 2700X beeindruckende Gewinne gegenüber dem Ryzen 7 1800X, unabhängig vom Datenzugriffsmuster. Die Verbesserungen des 2700X liegen bei 11,49% für volle Zufallszahlen, 6,64% für In-Page und 9,35% für das sequentielle Zugriffsmuster.
Diese Zahlen sind beeindruckend, aber der Infinity Fabric nimmt so richtig Fahrt auf, wenn wir den Speicher des 2700X auf DDR4-2933 erhöhen. Der Fabric verbindet ja den IMC und die Kerne, so dass wir dann sogar noch größere Verbesserungen von 18% im Full Random Test, 13,4% bei einem Full Random Access Pattern und 12,9% beim Sequenztest sehen.
AMD hat die Schritte zur Verbesserung der Speicherlatenz nicht genau quantifiziert, aber wir vermuten, dass das Unternehmen sowohl den Infinity Fabric als auch den integrierten Speichercontroller selbst noch einmal deutlich verbessert hat.
% Steigerung zum 1800X |
L1 |
L2 |
L3 |
---|---|---|---|
In-Page |
11.11% | 51.72% | 26.38% |
Full-Random |
11.11% | 53.5% | 25.64% |
Sequential |
11.11% | 13.3% | 13.3% |
Wir haben große Cache-Latenzzeitverkürzungen gemessen, die die Prognosen von AMD sogar noch sehr deutlich übertreffen, obwohl das Unternehmen möglicherweise andere Zugriffsmuster zum Testen verwendet. In beiden Fällen sind die Ergebnisse, die wir in der Tabelle dargestellt haben, beeindruckend. Wir sehen auch einen deutlichen Anstieg der Cache-Bandbreite auf breiter Front. Die Versorgung der Kerne mit geringerer Latenz und höherem Durchsatz ist ein Gewinn für alle Beteiligten. Intels Prozessoren der S-Serie haben immer noch einen großen Einkern-L1-Bandbreitenvorteil, aber der L2-Cache von AMD ist sowohl in Single- als auch in Multi-Thread-Tests messbar schneller. AMD hat in mehreren Tests sogar eine bessere L2- und L3-Cache-Latenz als Intels Prozessoren.
Das komplexe Zen+ Design verschmilzt zwei vierkernige CCX mit dem Infinity Fabric, einem Verbindungselement, das auch den IMC-, Northbridge- und PCIe-Traffic verarbeitet. Daher ist die Latenzzeit dieser Komponente ein entscheidender Faktor, um sicherzustellen, dass die beobachteten Speicherlatenzgewinne auch tatsächlich auf die Kerne übertragen werden können.
SiSoftware Sandra’s Processor Multi-Core Efficiency hilft uns, die Leistung des Infinity Fabric zu veranschaulichen. Wir verwenden die Multi-Threaded-Metrik mit der Einstellung “best pair match” (niedrigste Latenz). Das Dienstprogramm misst die Ping-Zeiten zwischen den Threads, um die Latenzzeit der Fabric in jeder möglichen Konfiguration zu quantifizieren. Wir haben diese Metriken auf Latenzmittelwerte für die verschiedenen Pfade heruntergerechnet, um verständlicher zu bleiben.
AMD reduzierte die Latenzzeit des Ryzen 7 2700X um 11,8% und die kritische Cross-CCX-Latenz um 8,3%. Wir konnten zudem feststellen, dass der Ryzen 7 2700X die Fabric-Bandbreite deutlich verbessert hat. Intels Ringbus und Mesh haben hingegen nach wie vor den Vorteil der niedrigeren Gesamtlatenzzeit von Kern zu Kern.
Instructions Per Clock (IPC)
Aus Zeitgründen haben wir eine Reihe von IPC-orientierten Benchmarks durchgeführt. Es ist möglich, dass weitere Optimierungen oder eine größere Anzahl von Workloads zu anderen Ergebnissen führen könnten, aber das werden wir in den nächsten Tagen herausfinden. Für die folgenden Tests stellen wir eine statische 3 GHz Taktfrequenz ein.
Unser Single-Core Cinebench-Test zeigt eine 1,61%ige IPC-Verbesserung für den Ryzen 7 2700X, und während AMD sich verbessert hat, hat Intel immer noch einen deutlichen IPC-Durchsatzvorteil. Die Umstellung auf den Multi-Threaded Cinebench-Test zeigt eine Verbesserung von 2,6%.
Intels Core i9 verwendet zwei 256-Bit-AVX-FMA-Einheiten pro Kern, die parallel arbeiten, während Ryzens Zen-Architektur 256-Bit-AVX-Operationen auf zwei FMA-Einheiten pro Kern verteilt. Dieser Unterschied gibt dem Skylake-X-Prozessor im y-cruncher-Test, einem Single- und Multi-Thread-Programm, das Pi mit Hilfe von AVX-Befehlen berechnet, eine souveräne Führung. Wir sehen einen Anstieg der Multi-Threaded Y-Cruncher-Ergebnisse des 2700X um 3,9% im Vergleich zum Ryzen 7 1800X, aber die Gewinne bei der Single-Threaded-AVX-Leistung sind marginal.
Wir sehen auch ähnliche Ergebnisse in unseren Single-Core-Kryptographie-Tests, obwohl der Ryzen 7 2700X einen großen Vorsprung gegenüber dem 1800X in der Multi-Threaded AES-256-ECB-Verschlüsselung hat. Die Zen-Architektur enthält zwei kryptographische AES-Beschleuniger für jeden Kern, daher ist es nicht verwunderlich, dass die neuen Ryzens die Modelle der Intel S-Serie in den AES-256-ECB-Tests so dominiert.
- 1 - Ryzen Reloaded
- 2 - Das X470 Chipset und Ryzen Master 1.3
- 3 - Cache und Speicher-Performance, IPC
- 4 - Overclocking, Spectre und Test-Setup
- 5 - Gaming: CPU Performance
- 6 - Gaming: Ashes of the Singularity Escalation
- 7 - Gaming: Civilization VI
- 8 - Gaming: Warhammer 40K: DoW III
- 9 - Gaming: Grand Theft Auto V
- 10 - Gaming: Hitman (2016)
- 11 - Gaming: Middle-earth: Shadow of War
- 12 - Gaming: Project Cars 2
- 13 - Gaming: Far Cry Primals
- 14 - Workstation: GPU Performance
- 15 - Workstation: CPU Performance
- 16 - XFR2 vs. manuelle Übertaktung
- 17 - Leistungsaufnahme
- 18 - Temperaturen und Lautstärke
- 19 - Zusammenfassung und Fazit
Kommentieren