Basics Gaming GPUs Graphics Practice Reviews

NVIDIA and DirectX 12 Bottleneck? MSI GeForce RTX 3090 SUPRIM vs. MSI Radeon RX 6900XT Gaming X and its own drivers

What is behind Asynchronous Compute?

I have already written a longer version about this more than 5 years ago, but I would like to refresh it a little bit, because it is important. What exactly is this about? Many of the in-game effects such as shadow casting, lighting, artificial intelligence, physics, and lensing effects often require several computational steps before even determining what will be rendered to the screen by a GPU’s graphics hardware. In DirectX 11 these steps had to be done sequentially.

Step by step, the graphics card now followed the process of the API to render something from start to finish. And you know it from a traffic jam on a motorway: every delay at an early stage of the congestion would then mean an ever-increasing wave of delays in the future as a consequence. These delays in the pipeline are also somewhat flippantly referred to as “bubbles” and then represent a certain moment in which a part of the GPU hardware has to pause to wait for new instructions.

The following graphic shows the visual representation of DirectX 11 threading. All graphics, memory, and computational operations are combined into a long sequence of processing (“pipeline”) that is extremely susceptible to delays:

These so-called “pipeline bubbles” happen all the time, of course, and on every graphics card as well, because no game in the world can really take perfect advantage of all the power or hardware a GPU has to offer. And no game can consistently avoid creating such bubbles when the user moves and acts freely in the game world. And now comes the trick with the “Asynchronous Compte”. What if instead of waiting, you could fill those bubbles with other tasks to make better use of the hardware so that less processing power is idle?

For example, if there is a rendering bubble when rendering complex lighting, you could let the AI compute in the meantime. So you can do several things in parallel or simply bring forward pending, suitable tasks. The next graphic is the visual representation of the flow of asynchronous computations under DirectX 12. The graphics, memory, and compute operations are decoupled into independent task packages that can then even be executed in parallel:

Summary and conclusion

As a consequence of the decreasing resolution, the number of rendered frames increases and the latency decreases in return. But what does this have to do with the CPU and the limit set by it? Many things run on CPU and the number of drawcalls alone increases dramatically with decreasing resolution. The CPU must always deliver so that the graphics hardware is also always optimally utilized. Here, however, the saw seems to be a bit stuck with NVIDIA’s drivers. I wouldn’t go so far as to suggest that NVIDIA still has issues with asynchronous pipeline processing, but it’s probably still not optimal. Especially when engines are optimized for AMD’s hardware (e.g. the single pass downsampling in HZD)

The dependency of game and engine actually demands a more detailed investigation of this problem, but as a lone warrior with two upcoming launches at the moment I don’t have the time for it. I would actually want to exclude a general performance loss of the GeForce drivers at lower resolutions due to a flatly declared “overhead”, because even if the programmers of both teams like to be a bit scatterbrained once in a while, NVIDIA is certainly not that brutally wrong.

Whether it was Horizon Zero Dawn or Watch Dogs Legion, whenever the FPS dropped on the GeForce (especially in the measurements with only 2 cores), the slower popping of content, delayed loading of textures, or errors with lighting and shadows were less bad on the Radeon than on the GeForce. This is also an indicator that the pipeline was simply tight (bubbles) and the multi-threading on the GPU was not really optimal. This is supported by the fact that the percentage gaps between the two cards are always the same when increasing the core count and decreasing the CPU limit (see page two). Because I see the problem rather less with the CPU, but the processing of the pipelines on the GPU. A limiting CPU only makes the process more obvious, but is not the real reason.

Of course, there must be solid reasons why all this is happening, software- or maybe even hardware-related. But then not in a general way with generally bad drivers, but very specific and limitable, maybe even platform-dependent with older systems as a sum of negative factors. After all, we have also seen that one cannot find such big differences in tests on one and the same, current platform with PCIe 4.0 as it was the case with the colleagues.

The current conclusion is that the graphics hardware should match the rest of the system and of course the used screen resolution, and that you won’t win anything with such potent cards like the GeForce RTX 3080 or RTX 3090 on (older) systems with rather weak CPUs in low resolutions anyway. No matter if with or without limits. Unless you want to mine cryptic black money on the side. But that’s not my problem anymore.

143 Antworten

Kommentar

Lade neue Kommentare

Case39

Urgestein

2,484 Kommentare 920 Likes

Guten Morgen und Danke für den aufklärenden Artikel. Ich behaupte mal, dieser wird mit sehr viel Aufmerksamkeit durch das Netz gehen!
Der fulminante Wochenstart ist schon mal gesichert👍

Antwort 3 Likes

Igor Wallossek

1

10,104 Kommentare 18,594 Likes

Kannst ihn ja mal teilen ;)

Antwort 1 Like

Case39

Urgestein

2,484 Kommentare 920 Likes

Erledigt....3DC, PCGH, CB.

Antwort 5 Likes

Igor Wallossek

1

10,104 Kommentare 18,594 Likes

PCGH und CB sehe ich nichts, haben die das schon wieder weggelöscht? Das 3DC besuche ich nicht mehr. Zu klein und unbedeutend, deren Reichweite ist komplett abgeschmiert. Was mich aber auch nicht wundert. Elitärer Sebstbeweihräucherungsverein. Die echten Urgesteine und interessanten User haben sie mittlerweile alle vergrault oder weggebissen. Es ist wirklich erschreckend, wie 4-5 Leute ein gesamtes Forum ruinieren können und die Mods noch seelenruhig dabei zuschauen. ;)

View image at the forums

Antwort 5 Likes

G
Guest

Vielen Dank für den überaus arbeitsintensiven und aufschlussreichen Artikel!

Im Prinzip bestätigt er, was eigentlich von Anfang in den Benchmarks zu RDNA2 und Ampere offensichtlich geworden ist: Ampere ist deutlich CPU abhängiger und kann seine theoretischen Vorteile an Rechenleistung erst ab 4k so richtig ausspielen.

Deine Theorie mit dem Async Computing ist interessant. Aber das würde ja bedeuten, dass entweder das Setup von diesem Feature bei Ampere mehr CPU Zeit braucht - oder dessen Ausführung. Bei letzterem kann ich mir das kaum vorstellen, denn die Ausführung muss ja die GPU erledigen. Also kann es doch nur das Setup sein. Eventuell muss da was umorganisiert oder sortiert werden, damit die GPU optimale Ergebnisse liefert?

Nicht desto trotz...

Häme incoming in 3... 2... 1...

Antwort 1 Like

konkretor

Veteran

293 Kommentare 300 Likes

War nicht mal das Spiel Ashes of Singularity der Test für async compute. Um alle Graks zu knechten? Mit dem Spiel hatte AMD damals gezeigt besser von DX12 zu profitieren zu können als Nvidida.

Sollte das Spiel nochmals durch den Benchmark gejagt werden?

Antwort Gefällt mir

Igor Wallossek

1

10,104 Kommentare 18,594 Likes

Da haben die Teams die Treiber mittlerweile sicher totoptimiert. :D
Horizon Zero Dawn ist da viel subtiler und hinterhältiger.

Antwort 1 Like

s
summit

Veteran

150 Kommentare 73 Likes

Du skalierst also wirklich nur die Kerne?
Bei HU sieht man ja ( ryzen 1600,2600,3600) dass es vorallem auch an der IPC liegt.

Antwort 1 Like

Case39

Urgestein

2,484 Kommentare 920 Likes
Case39

Urgestein

2,484 Kommentare 920 Likes

Ich hab es einfach in nen passenden Thread gepostet. Ja, 3DC ist richtig in die Bedeutungslosigkeit gerutscht....

Antwort Gefällt mir

Igor Wallossek

1

10,104 Kommentare 18,594 Likes

Hast Du bitte einen CB-/PCGH-Link? Oder ich bin zu blöd zum Suchen? :D

Antwort Gefällt mir

O
Oberst

Veteran

332 Kommentare 129 Likes

Sollte das in der Erkenntnis 1 auf Seite 1 nicht Radeon heißen? Denn die ist ja in WQHD und darunter überdurchschnittlich besser. Die Charts erinnern mich irgendwie immer an Vega, nur dieses mal mit umgedrehten Herstellern. NVidia kann die deutliche Mehrleistung von grob 36TFlop (gegenüber 23TFlop der 6900XT) erst ab 4k wirklich nutzen.

Antwort 1 Like

Case39

Urgestein

2,484 Kommentare 920 Likes

raff von PCGH scheint ebenfalls nen Artikel vorzubereiten....

Wie schon geschrieben. Hab es einfach nur in einem passenden Thread gepostet...

Antwort 2 Likes

Klicke zum Ausklappem
BlackFireHawk

Veteran

101 Kommentare 106 Likes

Also Sehr interessanter und guter Artikel. Daumen Hoch.

ich habe jedoch eine kleine anmerkung,
du gehst hier über die Kernskalierung des Spieles.. benutzt aber bei jeden Bench Run die gleiche CPU.. einen Zen3 Prozessor der eine Hohe IPC / Leistung pro Kern hat... ich glaub momentan sogar die höchste verfügbare IPC

was mich jetzt interressieren würde ist. wie Skaliert das ganze mit weniger leistung pro Kern.. eine RTX3090/3080 oder eine RX 6900xt/6800XT wird ja oft auch mit Älteren CPUs kombiniert die nicht soviel "Leistung pro Kern" haben..
Oft sieht man diese Karten zb mit nem Ryzen 3700x/3600x oder einem Intel 10600k/9700K/8700K kombiniert.. auch ohne entsprechendes K suffix

der allgemeine konsens ist ja "spare an der CPU und kaufe dafür eine stärkere GPU, denn ab 1440p bist du ja angeblich sowieso im GPU limit"

ein 5800x hat ja in etwa 20% mehr singlecore leistung als zb ein 9900k wenn ich mir die CB20 Singlecore ergebenisse ansehe
und knapp 30% mehr als ein 3700x..

Ich würde mir jetzt zumindestens einen zusätzlichen Bench wünschen mit weniger pro Kern leistung.
1440p/8kerne skalierung und das ganze dann mit 30% weniger takt/ sprich den 5800x einfach mal fix auf 3.6ghz festgetaktet

Antwort 3 Likes

Klicke zum Ausklappem
D
Denniss

Urgestein

1,496 Kommentare 543 Likes

Bitte gebt dem Igor mal ein wenig Zeit zum Durchschnaufen, er muß ja noch Rocket Lake und die kleinen Navis quälen.
Andere CPUs kann er ja irgendwann nachtesten z.B. den 3800x/xt

Antwort 7 Likes

BlackFireHawk

Veteran

101 Kommentare 106 Likes

keine frage das IST alles arbeit.
nur seh ich hier einen sehr wichtigen aspekt in der sache, denn hardware unboxed vergleicht unterschiedlich starke "pro kern leistung" und bekommt hier extreme unterschiede zwischen AMD und Nvidia

Antwort 1 Like

FritzHunter01

Moderator

1,120 Kommentare 1,510 Likes

Hallo,

alleine die Tatsache, dass es mit der aktuellen Ryzen Generation beim Abschalten von Kernen bereits zu einem solchen Phänomen kommt, zeigt, dass Nvidia hier ein Thema hat.
Der Steve von Hardware Unboxed ist zufällig beim CPU Vergleich darauf gestoßen und mit dem Test von Igor im Vergleich, wird deutlich, dass ältere CPUs das Thema noch deutlicher hervorheben. Es liegt also sehr wahrscheinlich nicht nur an der reinen IPC.

Meine Latenzmessungen haben ein extremes Verhalten offenbart... dazu kommen noch mindestens zwei Artikel von mir!

kleiner Spoiler:

3800X 4.45 GHz all core OC

3080 vs 5700 XT

CoD MW Multplayer 1080p Low Details

Beide GPUs in etwa gleich schnell mit 247 FPS im Durchschnitt

Antwort 2 Likes

Igor Wallossek

1

10,104 Kommentare 18,594 Likes

Schenke mir bitte die Zeit ;)

Am Ende wollen wir ja auch nicht alle Arikel durcheinander vermischen :D

Antwort 2 Likes

s
summit

Veteran

150 Kommentare 73 Likes

Ist mir auch schon auf Twitch aufgefallen, die spielen meist auf 1080p low details und haben mit ihrer 3080 probleme.
Kann man mal einen älteren Treiber nutzen? Imho war dies doch nicht schon "immer" so.

Antwort Gefällt mir

Danke für die Spende



Du fandest, der Beitrag war interessant und möchtest uns unterstützen? Klasse!

Hier erfährst Du, wie: Hier spenden.

Hier kannst Du per PayPal spenden.

About the author

Igor Wallossek

Editor-in-chief and name-giver of igor'sLAB as the content successor of Tom's Hardware Germany, whose license was returned in June 2019 in order to better meet the qualitative demands of web content and challenges of new media such as YouTube with its own channel.

Computer nerd since 1983, audio freak since 1979 and pretty much open to anything with a plug or battery for over 50 years.

Follow Igor:
YouTube Facebook Instagram Twitter

Werbung

Werbung