CPU Latest news

Intel Arc A770 outperforms AMD and NVIDIA in DirectStorage 1.1 performance benchmark

After Microsoft released DirectStorage 1.1 for PC systems with Windows as well as for current GPUs and NVMe SSDs, you can now also see the first performance benchmarks of the latest GPUs from AMD, Intel and NVIDIA compared to each other. The decompression of graphics files is improved by DirectStorage 1.1, which works equally well for Intel, AMD and NVIDIA, but the blue team performs a bit better in the end. The latest benchmark test, developed by the website Compusemble, shows the technology’s performance first-hand and on the website’s YouTube channel. We have simply embedded the video once below for easy viewing :

The API allows the CPU to reduce the number of critical cycles needed for large tasks, and it decompresses game assets through “highly parallel” graphics cards without the OS doing the work, using the CPUI at a higher level to do so. DirectStorage 1.1 from Microsoft thus limits the load on the processor when the NVMe storage requests data. The algorithms used in DirectStorage’s asset compression and decompression allow it to move higher amounts of data than the NVMe SSD could normally handle natively.

Source: Tom’s Hardware
Source: Tom’s Hardware

 

PC Games Hardware, for example, pitted three very fast graphics cards on the market against each other for Compusemble’s benchmark test to see which handled data decompression best. The three GPUs tested by the website were:

  • AMD Radeon RX 7900 XT
  • Intel Arc A770
  • NVIDIA GeForce RTX 4080

All three graphics cards were paired with the Intel Core i9-12900K processor from the Alder Lake generation. All three graphics cards processed decompression almost 2.5 times faster than the Intel processor. The Intel Arc A770 GPU performs better than AMD and NVIDIA in “asset decompression”. The results show that the Intel Arc A770 can transfer and decompress assets at 16.8 GB/s, while the AMD RX 7900 XT processes the same information at 14.6 GB/s, or a difference of thirteen percent.

However, since the load times were reduced from five seconds to less than one second, all three graphics cards decompressed the data in a similar way, which means that both configurations would still perform better with DirectStorage 1.1 than the CPU ever could.

Source: TomsHardware, Compusemble, PC Games Hardware (PCGH)

Kommentar

Lade neue Kommentare

mer

Veteran

228 Kommentare 127 Likes

Gibts schon irgendein Spiel mit Direct Storage?
Also Released, oder wenigstens im Early Access?

Antwort Gefällt mir

t
thereal1

Mitglied

14 Kommentare 1 Likes

Forspoken erscheint am 24.01.

Antwort Gefällt mir

mer

Veteran

228 Kommentare 127 Likes

Dann freu ich mich mal auf Realworld Ladezeit Benchmarks.
Auf Spiel an sich eher nicht so ....

Antwort Gefällt mir

Y
Yumiko

Urgestein

773 Kommentare 359 Likes

Mal zum Verständnis:

Im Gegensatz zur PS5 (AFAIR hat die einen eigenen Chip) werden hier doch die Recheneinheiten der GPU genutzt. Also anstatt die maximale Datenübertragung zu feiern, sollte doch gleichzeitig ein Benchmark laufen, um den Rechenverlust (was ja am Ende FPS weniger sind - wir erinnern uns an die nicht-trivialen FPS-Einbrüche beim angeschalteten Raytracing) zu quantifizieren.
Gibt es da auch "echte" Benchmarks?

Soweit ich das gesehen habe nutzt Forspoken es aber es "benutzt" es nicht, sprich es läuft auch ohne problemlos, braucht es also nicht. Im Gegensatz zu Returnal, wo schon der geringe Einsatz mit massig RAM als Cache auf dem PC ausgeglichen werden muss.

Antwort Gefällt mir

S
Staarfury

Veteran

258 Kommentare 206 Likes

Typischerweise sollte die GPU genug INT32 Reserven für die Dekomprimierung haben, aber natürlich ist das nicht gratis.

Aber es ist ja auch nicht so, dass es bis jetzt gratis ist. Ohne DirectStorage werden CPU und RAM belastet, was ja auch auf die Performance schlägt (und da die CPU Variante eine Grössenordnung langsamer ist, auch um Faktor 10+ länger).

Ich rechne eher damit, dass es mit Direct Storage weniger "Nachlade"-Ruckler geben sollte.

Antwort Gefällt mir

J
Jules

Neuling

2 Kommentare 3 Likes

Zunächst ist festzustellen, welcher Teil der Grafikkarte für die Dekompression herangezogen wird. Es wurde sicher irgendwann einmal berichtet, aber wenn, dann habe ich es vergessen und Nvidias Landing Page ist da auch nicht sehr aussagekräftig. (In die Entwicklerdokumentation habe ich nicht geschaut.) Abhängig davon ist natürlich, mit welchem anderen Prozess die Dekompression konkurriert.

Davon abgesehen müsste man, denke ich, für einen Vergleich bezüglich einem etwaigen Leistungsverlust die beiden anderen Möglichkeiten, Daten zu laden, heranziehen:

  1. Man speichert die Daten unkomprimiert. Offensichtlich ist dann das einzige, was glüht, der Speichercontroller. Dieses Szenario begrenzt aber den maximalen Durchsatz auf das, was PCIe ×4 (in welcher Generation auch immer) hergibt. Die Problematik hier ist: Um den kleinsten gemeinsamen Nenner (XBox Series) zu erreichen, ist auf PC-Seite in etwa PCIe 4.0×4 notwendig. Kann man das guten Gewissens in die minimalen Systemanforderungen schreiben? Da kein Spiel Daten zwei Mal speichern wird, dürfte es abseits generischer Tests schwierig sein, hier zu vergleichen.
  2. Man dekomprimiert auf der CPU. Hier ist dann die Frage, was zum Zeitpunkt des (Nach-)Ladens schlimmer ist: CPU-Auslastung oder GPU-Auslastung. Ich weiss nicht, ob diese Frage generell beantwortet werden kann. Möglich, dass dies situationsabhängig ist, in welchem Fall man mit der Problemstellung viel Spass haben kann. Insbesondere unter dem Aspekt das Dekomprimierung vermutlich keine Dauerbelastung darstellt: bei einem Datendurchsatz von grob 10 GiB/s, wie lange wird man eine GPU mit einem Spiel wohl beschäftigt halten können?

Zum Thema: Mir ist aufgefallen, dass in den Quellen nirgends der Benchmark verlinkt ist (oder ich habe es übersehen). Falls jemand sucht: https://github.com/microsoft/DirectStorage/tree/main/Samples/BulkLoadDemo

Antwort Gefällt mir

Klicke zum Ausklappem
SchmoWu

Veteran

107 Kommentare 33 Likes

Ich steh grad bischen auf dem Schlauch, oder braucht die 770 echt weniger als 1Sekunden um ihren kompletten VRAM voll zu schreiben bei PCIe4?
Vermutlich verwechsel ich grad nur Bezeichnungen. GByte=GB?

Antwort Gefällt mir

Y
Yumiko

Urgestein

773 Kommentare 359 Likes

Die Idee bei der Einführung mit der PS5 war ja, das man nur das im Speicher hat was man gerade sieht und etwas drumherum, so dass beim Drehen der Figur/Sichtfeld genau das geladen wird, was eien Millisekunde später im Sichtbereich erscheint (und entsprechend den Platz für den ausgeblendeten Rest freigibt). Problem ist hier dass damit Umsetzungen für XBox und PC flach fallen, zumindest bis auch der kleinste Laptop auf dem PC diese Technologie unterstützt und schnell genügende Massenspeicher hat.
Sony hat ungünstigerweise die Eigenproduktionen da ausgebremst, da sonst ein PC-Port nicht möglich wäre (was inzwschen ja durch "Politikumschwung" eingeplant wird). Müssen wir wohl wieder eine Generation warten - PCs bremsen jeden technologischen Sprung aus :p

PS: Bie PS5 hat rechnerisch ca. 11 GB/s, allerdings ohne die Recheneiheiten zu belasten. Das geht tatsächlich noch nicht ohne DS (oder entsprechende Technologien) auf anderen Systemen.

Antwort Gefällt mir

S
Staarfury

Veteran

258 Kommentare 206 Likes

Theoretisch ja. In dem Test war's etwa der halbe VRAM in einer halben Sekunde.

Du musst auch bedenken, dass die Daten komprimiert auf der SSD gespeichert sind und via RAM ins VRAM geladen werden. Mit einer typischen PCIe3 SSD kannst du also etwa 3.5GB/s komprimierte Daten hochladen, mit einer PCIe4 SSD das doppelte. Erst auf der GPU werden die Daten dekomprimiert und im VRAM gespeichert. So kommt man dann auf die 14-16 GB Nutzdaten pro Sekunde.

Antwort Gefällt mir

S
Staarfury

Veteran

258 Kommentare 206 Likes

Sony hat bisher noch bei jeder PS viele revolutionäre Ideen gehabt und vermarktet.

Aber schön, dass sie so nett auf die Konkurrenz Rücksicht nehmen :ROFLMAO:

Antwort 1 Like

SchmoWu

Veteran

107 Kommentare 33 Likes

@Staarfury danke erstmal.
Beim Spielstart kann ich mir das schon hilfreich vorstellen, aber wann wird es nötig den VRAM im ernstfall mehrfach pro Sekunde komplett neu zu laden? Entfallen im optimalfall dann die Nachladeruckler?
Dann wird als nächstes interessant ob PCIe3 reicht oder es PCIe4 sein muss und die Nachladeruckler komplett zu elemenieren.

Das alles klingt für mich mit den 3,5GB meiner Gurke erstmal Banane:rolleyes:

Antwort Gefällt mir

grimm

Urgestein

3,289 Kommentare 2,220 Likes

Wenn alle drei um eine Sekunde pendeln, freu ich mich schon auf die Fanboy Diskurse, welches Team weniger Nano-Ruckler produziert. Und dass die sehr wohl wahrnehmbar sind, wenn man nur lange genug hinschaut.
Es sind luxuriöse Zeiten: Während man bei X-Wing noch CDs wechseln musste, um Missionen zu starten, danach DVD 2 einlegen musste, wenn man z. B. von Khorinis ins Minental wechselte und schließlich die ratternd nachladende HDD durch SSDs ersetzte, nähern wir uns jetzt im Prinzip wieder dem Zeitalter der Steckmodule (NES, Master System & Co.). Allerdings mit ganz anderen Datenmengen.

Antwort 3 Likes

grimm

Urgestein

3,289 Kommentare 2,220 Likes

Naja, die AAA-Titel sind mittlerweile >100GB, jede Menge Standard-Games kommen immer noch mit 40-70 GB hin. Wenn du da in 5 Sekunden (theoretisch) die halbe Datenmenge laden kannst, ist das doch fein. Man darf halt nicht vergessen, dass die Kiste die Infos noch übersetzen (=rendern) muss. Denn sooo ruckelfrei rennt die PS5 dann auch nicht in UHD ;)

Antwort Gefällt mir

S
Staarfury

Veteran

258 Kommentare 206 Likes

Im allerschlimmsten Fall (wenn der limitierende Faktor die SSD ist und nicht die Dekomprimierung) ist es mit einer PCIe3 SSD halt nur noch halb so schnell wie PCIe4.

Aber im Benchmark lag man mit einer PCIe3 SSD bei etwa 85% der Leistung der PCIe4 SSD und es gab immer noch die gleichen Unterschiede zwischen den GPUs. Das spricht dafür, dass es nicht (nur) an der maximalen Leserate der PCIe3 SSD scheitert.

Antwort Gefällt mir

grimm

Urgestein

3,289 Kommentare 2,220 Likes

Das klingt so, als ob man jetzt zwingend PCIe4 und dann auch flottestens PCIe5 benötigt. Merkt irgendwer Nachladeruckler, wenn das Game auf ner NVMe SSD liegt? Ich muss beim Start in der Regeln 5-15 Sekunden warten (je nach Titel), aber im Game selber kann ich mich seit dem Umstieg auf die SSD nicht an Nachladehemmungen erinnern.

Antwort Gefällt mir

SchmoWu

Veteran

107 Kommentare 33 Likes

Ich hätte das genau anders interpretiert. Da die PCIe4 SSD nicht doppelt liefert, muss es an etwas anderem als der max. Lesegeschwindigkeit liegen.

Da die PCIe4 SSD grade mal 15% schneller als PCIe3 ist es doch eben nicht zwingend.

Liegt dann vermutlich wohl eher an kleinen zufälligen Leseraten, dort ist der unterschied doch deutlich kleine als bei dem max.Leseraten ist.

Antwort Gefällt mir

S
Staarfury

Veteran

258 Kommentare 206 Likes

Nein, für heutige Games reicht auch eine SATA SSD. RealTime Nachladen von grossen Datenmengen ist ohne DirectStorage auch mit der schnellsten SSD schlicht keine Option. Das geschieht dann brav im Hintergrund während der Liftfahrt oder in einem besonders langweiligen Korridor.

Auf welche Ideen Entwickler in Zukunft kommen, wird sich zeigen müssen. Aber der hier gesehene Unterschied zwischen PCIe3 und 4 spricht nicht dafür, dass die alte NVMe SSD bald veraltet sein wird. Ob dann eine SATA SSD noch für ruckelfreies Nachladen reicht ist eine andere Frage.

Gut möglich. Ich sagte ja auch "Worst case = halb so schnell"
Hängt wohl auch von den Assets auf der Disk ab. Vielleicht geht auch auf der GPU nicht mehr als die 15-16 GB/s. Da bräuchte es aber sicher auch mehr Tests.

Allzu praxisrelevant dürften aber die Unterschiede zwischen GPU Herstellern und PCIe Standards aber sicher nicht sein.

Antwort 1 Like

Ifalna

Veteran

443 Kommentare 366 Likes

Naja bis wir das dann wirklich mal in Software sehen und es weiter verbreitet wird vergehn sicher noch nen paar Jahre.

Antwort Gefällt mir

e
eastcoast_pete

Urgestein

2,008 Kommentare 1,260 Likes

Das jetzt etwas OT, aber auch On Topic: @Igor Wallossek, könntest Du Dir die ARC 770 nochmal vorknöpfen? Ja, die Treiber usw sind ja immer noch eine Dauerbaustelle, aber würde mich schon interessieren, was sich hier geändert hat, und in welche Richtung. Und wenigstens scheint Intel hier weiterhin am Machen und Ausbessern zu sein, was für uns Endkunden nur gut sein kann. Gerade im Bereich unter € 400 gibt's ja sonst nur Karten, die entweder schon längst pensioniert sein sollten, oder fragwürdig sind. Sowohl AMD als auch NVIDIA ignorieren die Marktsegmente in den Preisklassen, bzw. die Karten die angeboten werden sind, wie es im Englischen so schön heißt, "gimped". 4 GB RAM und so. Was soll man damit anstellen?

Antwort 2 Likes

Danke für die Spende



Du fandest, der Beitrag war interessant und möchtest uns unterstützen? Klasse!

Hier erfährst Du, wie: Hier spenden.

Hier kannst Du per PayPal spenden.

About the author

Samir Bashir

Werbung

Werbung