Gaming Grafikkarten Grundlagenartikel Praxis Testberichte VGA

Flaschenhals bei NVIDIA und DirectX 12? MSI GeForce RTX 3090 SUPRIM gegen MSI Radeon RX 6900XT Gaming X und die eigenen Treiber

Dem heutigen Beitrag muss ich zunächst einmal einen kleinen Absatz als Vorwort voranstellen, denn ich will dem Ganzen den Hauch der Sensation nehmen. Trotzdem muss man darüber schreiben und man muss es auch zuvor emotionslos austesten. Das Video von Hardware Unboxed hat mich da noch nicht einmal sonderlich überrascht, denn wir haben in einem aktuellen Testprojekt (Danke an Fritz Hunter!) zu Lags und Latenzen sehr ähnliche Beobachtungen machen können und sind anfangs an der Inkonsistenz mancher Messdaten geradezu verzweifelt.

Der Artikel zu den Latenzmessungen kommt natürlich noch, aber heute habe ich, auch aus aktuellem Anlass, mal eine Messreihe erstellt und diese auch sehr ausführlich dokumentiert.

Wichtige Vorbemerkung

Den Kollegen von Hardware Unboxed kann man sicher zutrauen, dass sie genau wissen, was und wie sie das alles getestet haben. Deshalb habe ich eine Wiederholung und Reproduktion für mich ausgeschlossen. Das ist einfach nicht zielführend, weil es redundanter Inhalt wäre. Deshalb habe ich die Herangehensweise komplett geändert. Das habe ich in voller Absicht getan, auch wenn es vielleicht die eine oder andere Frage offen lässt. Aber ich bin nicht der einzige Tester auf der Welt und überlasse den Rest aus Zeitgründen gern anderen.

Einheitliche Test-Plattform
Um alle möglichen Einflüsse durch unterschiedliche Motherboards, CPUs, Speichermodule und Betriebssysteminstallationen ausschließen zu können, habe ich alle Benchmarks mit einem exemplarisch im Vorfeld speziell herausgesuchten DirectX12-Spiel auf ein und derselben Plattform erstellt, welches von 2 bis hin zu 8 Kernen (jeweils SMT on) noch sauber über 4 bis 16 Threads skaliert. Zum Einsatz kommen zwei in diesem Spiel bei WQHD-Auflösung in etwa gleich schnelle Grafikkarten von NVIDIA und AMD sowie ein Ryzen 7 5800X, den ich zur Erzeugung des CPU-Flaschenhalses stufenweise auf bis zu 2 Kerne / 4 Threads reduziert habe. Es sind aktuelle Treiber installiert und das Spiel wurde komplett gepatcht. Die Bildschirmauflösung reicht von 720p, 1080p und 1440p bis hin zu 2160p.
Horizon Zero Dawn samt Asynchronous Compute
Als Spiel nutze ich absichtlich Horizon Zero Dawn, denn meine Vermutung, warum es vielleicht zu diesen dokumentierten Leistungseinbrüchen kommt, geht in eine leicht andere Richtung als ein bloßer Treiber-Overhead. Das Spiel nutzt ziemlich extensiv Asynchronous Compute, also eine Art Multithreading, mit dessen Hilfe es möglich sein soll, Workloads besser auf die GPU verteilen zu können. Außerdem kommt in der Engine ein sogenannter Single Pass Downsampler zum Einsatz, welcher die asynchrone Berechnung zur Beschleunigung des Textur-Mappings ermöglichen soll. Wenn es Nachteile beim Asynchronous Compute geben sollte, dann wird genau dieses Spiel es auch sehr gut repräsentieren können.
 

Kommen wir nun zum Testaufbau. Zum Einsatz kommt ein wassergekühlter Ryzen 7 5800X ohne manuelle Übertaktung, PBO ist jedoch aktiv. Dazu gesellen sich auf dem MSI MEG X570 Godlike noch 2x 16 GB Corsair Vengeance RGB Pro DDR4 4000, die jedoch aus Stabilitätsgründen seit einigen AGESA-Versionen mit 3800 MHz laufen (FCLK 1900 MHz). Als Grafikkarten verwende ich zwei werksübertaktete Custom-Modelle in Form der MSI Radeon RX 6900XT Gaming X Trio und der MSI GeForce RTX 3090 SUPRIM.  Ausgewertet wird danach in der vollen Bandbreite meiner verfügbaren Metriken, einschließlich Varianzen (sehr aufschlussreich!), Leistungsaufnahme und logischerweise auch Effizienz. Ihr werdet noch staunen!

Analyse der Mindestkonfiguration und Limits

Zunächst habe ich getestet, ab wann die CPU-Limitierung über alle vier Auflösungen durchschlägt. Das passierte erst beim Einsatz von 2 Kernen / 4 Threads und es spielt fast keine Rolle, ob man nun 4 Kerne ohne SMT oder 2 Kerne mit SMT nutzt, das Ergebnis ist in etwa immer gleich (schlecht). Die in 720p schnellste Karte erreicht mit 8 Kernen knapp 200 FPS, bei dieser Minimalkonfiguration ist es dann jedoch nur noch die Hälfte. Aber nur bei der Reduzierung auf diese zwei Kerne konnte ich in 2160p (Ultra-HD) überhaupt einen signifikanten Unterschied messen.

Somit ergibt sich für mich, dass ich alle vier Auflösungen mit 2, 4, 6 und 8 Kernen absolvieren muss, also insgesamt 16 Benchmarks pro Karte. Diese insgesamt 32 Runs habe ich allerdings zu meiner Sicherheit jeweils fünf Mal laufen lassen, wobei die ersten beiden Runs im Aufwärmvorgang gestrichen wurden. Aus den verbleibenden drei Ergebnissen habe ich dann immer den Datensatz mit der Performance genommen, die dem Durchschnitt der drei gewerteten Runs am ehesten entsprach.

Also insgesamt ergibt dies stolze 5 x 32 x 177 Sekunden (also knapp 8 Stunden) reine Benchmark-Zeit, dazu kommen Umbau und BIOS-Konfiguration, das Speichern und Auswerten der ganzen Daten sowie die ganzen Chartsgrafiken. Das dauert schon ein wenig und gilt für die, die immer meinen, es wäre schon besser, gleich 10 Spiele zu komplett benchmarken. Eines, wenn es das richtige ist, reicht nämlich völlig aus und spart zudem bis zu drei günstige Volontäre, die ich leider nicht einmal habe.

Wir sehen sehr schön die konstante Limitierung beider Grafikkarten im kompletten CPU-Limit und einheitlicher Testumgebung. Daraus kann man bereits zwei erste Schlüsse ziehen:

Erkenntnis 1: Limit der Radeon bei hohen Auflösungen
Das signifikante Limit der Radeon RX 6900XT in Ultra-HD bei der noch in WQHD sogar um 7 Prozentpunkte schnelleren Karte tritt auch dann auf, wenn bereits ein CPU-Flaschenhals messbar ist. Der Nachteil der Radeon in 2160p gegenüber der GeForce ist prozentual in etwa gleich groß wie der ohne Limit bei 8 Kernen! Es wurde ja oft kolportiert, das wäre kein Nachteil, sondern die GeForce würde in WQHD und darunter nur überdurchschnittlich besser performen. Das wiederum stimmt so nämlich nicht.
 
Erkenntnis 2: Limit der GeForce im CPU-Limit
Das wiederum ist reproduzierbar, denn auflösungsunabhängig tritt bei der 2-Kern-Messung ab WQHD ein konstantes Limit auf. Die GeForce ist dann bei gleichen Bedingungen konstant (!) sieben Prozentpunkte langsamer.

 

Test System and Equipment
Hardware:
AMD Ryzen 7 5800X
MSI MEG X570 Godlike
2x 16 GB Corsair Vengeance RGB Pro DDR4 4000 (@3800)
1x 2 TB Aorus (NVMe System SSD, PCIe Gen. 4)
1x 2 TB Corsair MP400 (Data)
1x Seagate FastSSD Portable USB-C
Be Quiet! Straight Power 11 1000 Watt Platinum
MSI GeForce RTX 3090 SUPRIM 24 GB
MSI Radeon RTX 6900XT Gaming X Trio 16 GB
Cooling:
Alphacool Eisblock XPX Pro
Alphacool Eiszeit 2000 Chiller, 20l Reservoir
Case:
Banchetto 101
Monitor: BenQ PD3220U
Thermal Imager:
1x Optris PI640 + 2x Xi400 Thermal Imagers
Pix Connect Software
Type K Class 1 thermal sensors (up to 4 channels)
OS: Windows 10 Pro (all updates, current certified or press drivers)

143 Antworten

Kommentar

Lade neue Kommentare

Case39

Urgestein

2,484 Kommentare 920 Likes

Guten Morgen und Danke für den aufklärenden Artikel. Ich behaupte mal, dieser wird mit sehr viel Aufmerksamkeit durch das Netz gehen!
Der fulminante Wochenstart ist schon mal gesichert👍

Antwort 3 Likes

Igor Wallossek

1

10,104 Kommentare 18,589 Likes

Kannst ihn ja mal teilen ;)

Antwort 1 Like

Case39

Urgestein

2,484 Kommentare 920 Likes

Erledigt....3DC, PCGH, CB.

Antwort 5 Likes

Igor Wallossek

1

10,104 Kommentare 18,589 Likes

PCGH und CB sehe ich nichts, haben die das schon wieder weggelöscht? Das 3DC besuche ich nicht mehr. Zu klein und unbedeutend, deren Reichweite ist komplett abgeschmiert. Was mich aber auch nicht wundert. Elitärer Sebstbeweihräucherungsverein. Die echten Urgesteine und interessanten User haben sie mittlerweile alle vergrault oder weggebissen. Es ist wirklich erschreckend, wie 4-5 Leute ein gesamtes Forum ruinieren können und die Mods noch seelenruhig dabei zuschauen. ;)

View image at the forums

Antwort 5 Likes

G
Guest

Vielen Dank für den überaus arbeitsintensiven und aufschlussreichen Artikel!

Im Prinzip bestätigt er, was eigentlich von Anfang in den Benchmarks zu RDNA2 und Ampere offensichtlich geworden ist: Ampere ist deutlich CPU abhängiger und kann seine theoretischen Vorteile an Rechenleistung erst ab 4k so richtig ausspielen.

Deine Theorie mit dem Async Computing ist interessant. Aber das würde ja bedeuten, dass entweder das Setup von diesem Feature bei Ampere mehr CPU Zeit braucht - oder dessen Ausführung. Bei letzterem kann ich mir das kaum vorstellen, denn die Ausführung muss ja die GPU erledigen. Also kann es doch nur das Setup sein. Eventuell muss da was umorganisiert oder sortiert werden, damit die GPU optimale Ergebnisse liefert?

Nicht desto trotz...

Häme incoming in 3... 2... 1...

Antwort 1 Like

konkretor

Veteran

293 Kommentare 300 Likes

War nicht mal das Spiel Ashes of Singularity der Test für async compute. Um alle Graks zu knechten? Mit dem Spiel hatte AMD damals gezeigt besser von DX12 zu profitieren zu können als Nvidida.

Sollte das Spiel nochmals durch den Benchmark gejagt werden?

Antwort Gefällt mir

Igor Wallossek

1

10,104 Kommentare 18,589 Likes

Da haben die Teams die Treiber mittlerweile sicher totoptimiert. :D
Horizon Zero Dawn ist da viel subtiler und hinterhältiger.

Antwort 1 Like

s
summit

Veteran

150 Kommentare 73 Likes

Du skalierst also wirklich nur die Kerne?
Bei HU sieht man ja ( ryzen 1600,2600,3600) dass es vorallem auch an der IPC liegt.

Antwort 1 Like

Case39

Urgestein

2,484 Kommentare 920 Likes
Case39

Urgestein

2,484 Kommentare 920 Likes

Ich hab es einfach in nen passenden Thread gepostet. Ja, 3DC ist richtig in die Bedeutungslosigkeit gerutscht....

Antwort Gefällt mir

Igor Wallossek

1

10,104 Kommentare 18,589 Likes

Hast Du bitte einen CB-/PCGH-Link? Oder ich bin zu blöd zum Suchen? :D

Antwort Gefällt mir

O
Oberst

Veteran

332 Kommentare 129 Likes

Sollte das in der Erkenntnis 1 auf Seite 1 nicht Radeon heißen? Denn die ist ja in WQHD und darunter überdurchschnittlich besser. Die Charts erinnern mich irgendwie immer an Vega, nur dieses mal mit umgedrehten Herstellern. NVidia kann die deutliche Mehrleistung von grob 36TFlop (gegenüber 23TFlop der 6900XT) erst ab 4k wirklich nutzen.

Antwort 1 Like

Case39

Urgestein

2,484 Kommentare 920 Likes

raff von PCGH scheint ebenfalls nen Artikel vorzubereiten....

Wie schon geschrieben. Hab es einfach nur in einem passenden Thread gepostet...

Antwort 2 Likes

Klicke zum Ausklappem
BlackFireHawk

Veteran

101 Kommentare 106 Likes

Also Sehr interessanter und guter Artikel. Daumen Hoch.

ich habe jedoch eine kleine anmerkung,
du gehst hier über die Kernskalierung des Spieles.. benutzt aber bei jeden Bench Run die gleiche CPU.. einen Zen3 Prozessor der eine Hohe IPC / Leistung pro Kern hat... ich glaub momentan sogar die höchste verfügbare IPC

was mich jetzt interressieren würde ist. wie Skaliert das ganze mit weniger leistung pro Kern.. eine RTX3090/3080 oder eine RX 6900xt/6800XT wird ja oft auch mit Älteren CPUs kombiniert die nicht soviel "Leistung pro Kern" haben..
Oft sieht man diese Karten zb mit nem Ryzen 3700x/3600x oder einem Intel 10600k/9700K/8700K kombiniert.. auch ohne entsprechendes K suffix

der allgemeine konsens ist ja "spare an der CPU und kaufe dafür eine stärkere GPU, denn ab 1440p bist du ja angeblich sowieso im GPU limit"

ein 5800x hat ja in etwa 20% mehr singlecore leistung als zb ein 9900k wenn ich mir die CB20 Singlecore ergebenisse ansehe
und knapp 30% mehr als ein 3700x..

Ich würde mir jetzt zumindestens einen zusätzlichen Bench wünschen mit weniger pro Kern leistung.
1440p/8kerne skalierung und das ganze dann mit 30% weniger takt/ sprich den 5800x einfach mal fix auf 3.6ghz festgetaktet

Antwort 3 Likes

Klicke zum Ausklappem
D
Denniss

Urgestein

1,496 Kommentare 543 Likes

Bitte gebt dem Igor mal ein wenig Zeit zum Durchschnaufen, er muß ja noch Rocket Lake und die kleinen Navis quälen.
Andere CPUs kann er ja irgendwann nachtesten z.B. den 3800x/xt

Antwort 7 Likes

BlackFireHawk

Veteran

101 Kommentare 106 Likes

keine frage das IST alles arbeit.
nur seh ich hier einen sehr wichtigen aspekt in der sache, denn hardware unboxed vergleicht unterschiedlich starke "pro kern leistung" und bekommt hier extreme unterschiede zwischen AMD und Nvidia

Antwort 1 Like

FritzHunter01

Moderator

1,120 Kommentare 1,510 Likes

Hallo,

alleine die Tatsache, dass es mit der aktuellen Ryzen Generation beim Abschalten von Kernen bereits zu einem solchen Phänomen kommt, zeigt, dass Nvidia hier ein Thema hat.
Der Steve von Hardware Unboxed ist zufällig beim CPU Vergleich darauf gestoßen und mit dem Test von Igor im Vergleich, wird deutlich, dass ältere CPUs das Thema noch deutlicher hervorheben. Es liegt also sehr wahrscheinlich nicht nur an der reinen IPC.

Meine Latenzmessungen haben ein extremes Verhalten offenbart... dazu kommen noch mindestens zwei Artikel von mir!

kleiner Spoiler:

3800X 4.45 GHz all core OC

3080 vs 5700 XT

CoD MW Multplayer 1080p Low Details

Beide GPUs in etwa gleich schnell mit 247 FPS im Durchschnitt

Antwort 2 Likes

Igor Wallossek

1

10,104 Kommentare 18,589 Likes

Schenke mir bitte die Zeit ;)

Am Ende wollen wir ja auch nicht alle Arikel durcheinander vermischen :D

Antwort 2 Likes

s
summit

Veteran

150 Kommentare 73 Likes

Ist mir auch schon auf Twitch aufgefallen, die spielen meist auf 1080p low details und haben mit ihrer 3080 probleme.
Kann man mal einen älteren Treiber nutzen? Imho war dies doch nicht schon "immer" so.

Antwort Gefällt mir

Danke für die Spende



Du fandest, der Beitrag war interessant und möchtest uns unterstützen? Klasse!

Hier erfährst Du, wie: Hier spenden.

Hier kannst Du per PayPal spenden.

About the author

Igor Wallossek

Chefredakteur und Namensgeber von igor'sLAB als inhaltlichem Nachfolger von Tom's Hardware Deutschland, deren Lizenz im Juni 2019 zurückgegeben wurde, um den qualitativen Ansprüchen der Webinhalte und Herausforderungen der neuen Medien wie z.B. YouTube mit einem eigenen Kanal besser gerecht werden zu können.

Computer-Nerd seit 1983, Audio-Freak seit 1979 und seit über 50 Jahren so ziemlich offen für alles, was einen Stecker oder einen Akku hat.

Folge Igor auf:
YouTube   Facebook    Instagram Twitter

Werbung

Werbung