Basics Gaming GPUs Graphics Practice Reviews

NVIDIA and DirectX 12 Bottleneck? MSI GeForce RTX 3090 SUPRIM vs. MSI Radeon RX 6900XT Gaming X and its own drivers

I have to preface today’s post with a little paragraph first, as I want to take the whiff of sensationalism out of it. Nevertheless, you have to write about it and you also have to test it out emotionlessly beforehand. The video from Hardware Unboxed didn’t even surprise me that much, because we were able to make very similar observations about lags and latencies in a current test project (thanks to Fritz Hunter!) and were almost despaired by the inconsistency of some measurement data in the beginning.

The article about the latency measurements is still to come, of course, but today I created a series of measurements and documented them in detail.

Important preliminary remark

The colleagues at Hardware Unboxed can certainly be trusted to know exactly what and how they tested it all. Therefore, I have ruled out repeating and reproducing it for myself. It’s just not purposeful because it would be redundant content. That’s why I changed the approach completely. I did that with full intent, even though it may leave a question or two unanswered. But I’m not the only tester in the world and I’m happy to leave the rest to others due to time constraints.

Uniform test platform
In order to be able to exclude all possible influences by different motherboards, CPUs, memory modules and operating system installations, I created all benchmarks with an exemplary DirectX12 game on one and the same platform, which scales from 2 up to 8 cores (SMT on each) still cleanly over 4 to 16 threads. The game uses two graphics cards from NVIDIA and AMD that are roughly equally fast at WQHD resolution, as well as a Ryzen 7 5800X that I’ve gradually reduced to 2 cores / 4 threads to create the CPU bottleneck. Current drivers are installed and the game has been fully patched. The screen resolution ranges from 720p, 1080p and 1440p to 2160p.
Horizon Zero Dawn including Asynchronous Compute
As a game, I’m intentionally using Horizon Zero Dawn because my guess as to why there might be these documented performance drops is in a slightly different direction than a mere driver overhead. The game makes fairly extensive use of asynchronous compute, which is a type of multithreading that is supposed to make it possible to better distribute workloads to the GPU. In addition, a so-called single pass downsampler is used in the engine, which is supposed to enable asynchronous computation to accelerate texture mapping. If there should be disadvantages in Asynchronous Compute, then exactly this game will be able to represent it very well.
 

Now let’s move on to the test setup. A water-cooled Ryzen 7 5800X without manual overclocking is used, but PBO is active. In addition 2x 16 GB Corsair Vengeance RGB Pro DDR4 4000 join on the MSI MEG X570 Godlike, which however run since some AGESA versions with 3800 MHz (FCLK 1900 MHz) for stability reasons. As graphics cards I use two factory overclocked custom models in the form of the MSI Radeon RX 6900XT Gaming X Trio and the MSI GeForce RTX 3090 SUPRIM.  Evaluated thereafter in the full range of my available metrics, including variances (very revealing!), Power consumption and, logically, efficiency. You’ll be amazed!

Analysis of the minimum configuration and limits

First, I tested at what point the CPU limiting kicks in across all four resolutions. This only happened when using 2 cores / 4 threads and it almost doesn’t matter if you use 4 cores without SMT or 2 cores with SMT, the result is always about the same (bad). The fastest card in 720p reaches just under 200 FPS with 8 cores, but with this minimum configuration it’s then only half that. But only when reduced to those two cores could I measure any significant difference at all in 2160p (Ultra-HD).

This means that I have to run all four resolutions with 2, 4, 6 and 8 cores, which means a total of 16 benchmarks per card. However, I ran these 32 runs in total five times each for my safety, with the first two runs cancelled in the warm-up. From the remaining three results, I then always took the record with the performance that most closely matched the average of the three runs scored.

So altogether this results in proud 5 x 32 x 177 seconds (thus scarcely 8 hours) pure benchmark time, in addition conversion and BIOS configuration, storing and evaluating the whole data as well as the whole charts graphics. This takes a little time and applies to those who always think it would be better to completely benchmark 10 games at once. In fact, one, if it’s the right one, is quite enough and also saves up to three cheap volunteers, which unfortunately I don’t even have.

We can see very nicely the constant limitation of both graphics cards in the complete CPU limit and uniform test environment. Two initial conclusions can already be drawn from this:

Finding 1: Limit of the Radeon in high resolution
The significant limit of the Radeon RX 6900XT in Ultra-HD with the still in WQHD even 7 percentage points faster card also occurs when a CPU bottleneck is already measurable. The disadvantage of the Radeon in 2160p over the GeForce is about the same in percentage terms as the one without limit at 8 cores! It was often said that this would not be a disadvantage, but that the GeForce would only perform better than average in WQHD and below. That, in turn, is not true.
 
Finding 2: Limit of the GeForce in the CPU limit
This, in turn, is reproducible because a constant limit occurs in the 2-core measurement from WQHD onwards, regardless of the resolution. The GeForce is then constantly (!) seven percentage points slower under the same conditions.

 

Test System and Equipment
Hardware:
AMD Ryzen 7 5800X
MSI MEG X570 Godlike
2x 16 GB Corsair Vengeance RGB Pro DDR4 4000 (@3800)
1x 2 TB Aorus (NVMe System SSD, PCIe Gen. 4)
1x 2 TB Corsair MP400 (Data)
1x Seagate FastSSD Portable USB-C
Be Quiet! Straight Power 11 1000 Watt Platinum
MSI GeForce RTX 3090 SUPRIM 24 GB
MSI Radeon RTX 6900XT Gaming X Trio 16 GB
Cooling:
Alphacool Eisblock XPX Pr0
Alphacool Eiszeit 2000 Chiller, 20l Reservoir
Case:
Banchetto 101
Monitor: BenQ PD3220U
Thermal Imager:
1x Optris PI640 + 2x Xi400 Thermal Imagers
Pix Connect Software
Type K Class 1 thermal sensors (up to 4 channels)
OS: Windows 10 Pro (all updates, current certified or press drivers)

143 Antworten

Kommentar

Lade neue Kommentare

Case39

Urgestein

2,577 Kommentare 985 Likes

Guten Morgen und Danke für den aufklärenden Artikel. Ich behaupte mal, dieser wird mit sehr viel Aufmerksamkeit durch das Netz gehen!
Der fulminante Wochenstart ist schon mal gesichert👍

Antwort 3 Likes

Igor Wallossek

1

10,938 Kommentare 20,739 Likes

Kannst ihn ja mal teilen ;)

Antwort 1 Like

Case39

Urgestein

2,577 Kommentare 985 Likes

Erledigt....3DC, PCGH, CB.

Antwort 5 Likes

Igor Wallossek

1

10,938 Kommentare 20,739 Likes

PCGH und CB sehe ich nichts, haben die das schon wieder weggelöscht? Das 3DC besuche ich nicht mehr. Zu klein und unbedeutend, deren Reichweite ist komplett abgeschmiert. Was mich aber auch nicht wundert. Elitärer Sebstbeweihräucherungsverein. Die echten Urgesteine und interessanten User haben sie mittlerweile alle vergrault oder weggebissen. Es ist wirklich erschreckend, wie 4-5 Leute ein gesamtes Forum ruinieren können und die Mods noch seelenruhig dabei zuschauen. ;)

View image at the forums

Antwort 5 Likes

G
Guest

Vielen Dank für den überaus arbeitsintensiven und aufschlussreichen Artikel!

Im Prinzip bestätigt er, was eigentlich von Anfang in den Benchmarks zu RDNA2 und Ampere offensichtlich geworden ist: Ampere ist deutlich CPU abhängiger und kann seine theoretischen Vorteile an Rechenleistung erst ab 4k so richtig ausspielen.

Deine Theorie mit dem Async Computing ist interessant. Aber das würde ja bedeuten, dass entweder das Setup von diesem Feature bei Ampere mehr CPU Zeit braucht - oder dessen Ausführung. Bei letzterem kann ich mir das kaum vorstellen, denn die Ausführung muss ja die GPU erledigen. Also kann es doch nur das Setup sein. Eventuell muss da was umorganisiert oder sortiert werden, damit die GPU optimale Ergebnisse liefert?

Nicht desto trotz...

Häme incoming in 3... 2... 1...

Antwort 1 Like

konkretor

Veteran

319 Kommentare 329 Likes

War nicht mal das Spiel Ashes of Singularity der Test für async compute. Um alle Graks zu knechten? Mit dem Spiel hatte AMD damals gezeigt besser von DX12 zu profitieren zu können als Nvidida.

Sollte das Spiel nochmals durch den Benchmark gejagt werden?

Antwort Gefällt mir

Igor Wallossek

1

10,938 Kommentare 20,739 Likes

Da haben die Teams die Treiber mittlerweile sicher totoptimiert. :D
Horizon Zero Dawn ist da viel subtiler und hinterhältiger.

Antwort 1 Like

s
summit

Veteran

150 Kommentare 73 Likes

Du skalierst also wirklich nur die Kerne?
Bei HU sieht man ja ( ryzen 1600,2600,3600) dass es vorallem auch an der IPC liegt.

Antwort 1 Like

Case39

Urgestein

2,577 Kommentare 985 Likes
Case39

Urgestein

2,577 Kommentare 985 Likes

Ich hab es einfach in nen passenden Thread gepostet. Ja, 3DC ist richtig in die Bedeutungslosigkeit gerutscht....

Antwort Gefällt mir

Igor Wallossek

1

10,938 Kommentare 20,739 Likes

Hast Du bitte einen CB-/PCGH-Link? Oder ich bin zu blöd zum Suchen? :D

Antwort Gefällt mir

O
Oberst

Veteran

350 Kommentare 143 Likes

Sollte das in der Erkenntnis 1 auf Seite 1 nicht Radeon heißen? Denn die ist ja in WQHD und darunter überdurchschnittlich besser. Die Charts erinnern mich irgendwie immer an Vega, nur dieses mal mit umgedrehten Herstellern. NVidia kann die deutliche Mehrleistung von grob 36TFlop (gegenüber 23TFlop der 6900XT) erst ab 4k wirklich nutzen.

Antwort 1 Like

Case39

Urgestein

2,577 Kommentare 985 Likes

raff von PCGH scheint ebenfalls nen Artikel vorzubereiten....

Wie schon geschrieben. Hab es einfach nur in einem passenden Thread gepostet...

Antwort 2 Likes

Klicke zum Ausklappem
BlackFireHawk

Veteran

109 Kommentare 115 Likes

Also Sehr interessanter und guter Artikel. Daumen Hoch.

ich habe jedoch eine kleine anmerkung,
du gehst hier über die Kernskalierung des Spieles.. benutzt aber bei jeden Bench Run die gleiche CPU.. einen Zen3 Prozessor der eine Hohe IPC / Leistung pro Kern hat... ich glaub momentan sogar die höchste verfügbare IPC

was mich jetzt interressieren würde ist. wie Skaliert das ganze mit weniger leistung pro Kern.. eine RTX3090/3080 oder eine RX 6900xt/6800XT wird ja oft auch mit Älteren CPUs kombiniert die nicht soviel "Leistung pro Kern" haben..
Oft sieht man diese Karten zb mit nem Ryzen 3700x/3600x oder einem Intel 10600k/9700K/8700K kombiniert.. auch ohne entsprechendes K suffix

der allgemeine konsens ist ja "spare an der CPU und kaufe dafür eine stärkere GPU, denn ab 1440p bist du ja angeblich sowieso im GPU limit"

ein 5800x hat ja in etwa 20% mehr singlecore leistung als zb ein 9900k wenn ich mir die CB20 Singlecore ergebenisse ansehe
und knapp 30% mehr als ein 3700x..

Ich würde mir jetzt zumindestens einen zusätzlichen Bench wünschen mit weniger pro Kern leistung.
1440p/8kerne skalierung und das ganze dann mit 30% weniger takt/ sprich den 5800x einfach mal fix auf 3.6ghz festgetaktet

Antwort 3 Likes

Klicke zum Ausklappem
D
Denniss

Urgestein

1,635 Kommentare 611 Likes

Bitte gebt dem Igor mal ein wenig Zeit zum Durchschnaufen, er muß ja noch Rocket Lake und die kleinen Navis quälen.
Andere CPUs kann er ja irgendwann nachtesten z.B. den 3800x/xt

Antwort 7 Likes

BlackFireHawk

Veteran

109 Kommentare 115 Likes

keine frage das IST alles arbeit.
nur seh ich hier einen sehr wichtigen aspekt in der sache, denn hardware unboxed vergleicht unterschiedlich starke "pro kern leistung" und bekommt hier extreme unterschiede zwischen AMD und Nvidia

Antwort 1 Like

FritzHunter01

Moderator

1,273 Kommentare 1,718 Likes

Hallo,

alleine die Tatsache, dass es mit der aktuellen Ryzen Generation beim Abschalten von Kernen bereits zu einem solchen Phänomen kommt, zeigt, dass Nvidia hier ein Thema hat.
Der Steve von Hardware Unboxed ist zufällig beim CPU Vergleich darauf gestoßen und mit dem Test von Igor im Vergleich, wird deutlich, dass ältere CPUs das Thema noch deutlicher hervorheben. Es liegt also sehr wahrscheinlich nicht nur an der reinen IPC.

Meine Latenzmessungen haben ein extremes Verhalten offenbart... dazu kommen noch mindestens zwei Artikel von mir!

kleiner Spoiler:

3800X 4.45 GHz all core OC

3080 vs 5700 XT

CoD MW Multplayer 1080p Low Details

Beide GPUs in etwa gleich schnell mit 247 FPS im Durchschnitt

Antwort 2 Likes

Igor Wallossek

1

10,938 Kommentare 20,739 Likes

Schenke mir bitte die Zeit ;)

Am Ende wollen wir ja auch nicht alle Arikel durcheinander vermischen :D

Antwort 2 Likes

s
summit

Veteran

150 Kommentare 73 Likes

Ist mir auch schon auf Twitch aufgefallen, die spielen meist auf 1080p low details und haben mit ihrer 3080 probleme.
Kann man mal einen älteren Treiber nutzen? Imho war dies doch nicht schon "immer" so.

Antwort Gefällt mir

Danke für die Spende



Du fandest, der Beitrag war interessant und möchtest uns unterstützen? Klasse!

Hier erfährst Du, wie: Hier spenden.

Hier kannst Du per PayPal spenden.

About the author

Igor Wallossek

Editor-in-chief and name-giver of igor'sLAB as the content successor of Tom's Hardware Germany, whose license was returned in June 2019 in order to better meet the qualitative demands of web content and challenges of new media such as YouTube with its own channel.

Computer nerd since 1983, audio freak since 1979 and pretty much open to anything with a plug or battery for over 50 years.

Follow Igor:
YouTube Facebook Instagram Twitter

Werbung

Werbung