Intel Arc A770 übertrifft AMD und NVIDIA im DirectStorage 1.1-Leistungsbenchmark

Redaktion

Artikel-Butler
Mitarbeiter
Mitglied seit
Aug 6, 2018
Beiträge
1.748
Bewertungspunkte
8.478
Punkte
1
Standort
Redaktion
Nachdem Microsoft DirectStorage 1.1 für PC-Systeme mit Windows sowie für aktuelle Grafikprozessoren und NVMe-SSDs veröffentlicht hat, kann man nun auch erste Leistungsbenchmarks der neuesten Grafikprozessoren von AMD, Intel und NVIDIA im Vergleich zueinander sehen. Die Dekomprimierung von Grafikdateien wird durch DirectStorage 1.1 verbessert, das klappt bei Intel, AMD und NVIDIA zwar gleichermaßen, aber das blaue (den ganzen Artikel lesen...)
 
Gibts schon irgendein Spiel mit Direct Storage?
Also Released, oder wenigstens im Early Access?
 
Dann freu ich mich mal auf Realworld Ladezeit Benchmarks.
Auf Spiel an sich eher nicht so ....
 
Mal zum Verständnis:

Im Gegensatz zur PS5 (AFAIR hat die einen eigenen Chip) werden hier doch die Recheneinheiten der GPU genutzt. Also anstatt die maximale Datenübertragung zu feiern, sollte doch gleichzeitig ein Benchmark laufen, um den Rechenverlust (was ja am Ende FPS weniger sind - wir erinnern uns an die nicht-trivialen FPS-Einbrüche beim angeschalteten Raytracing) zu quantifizieren.
Gibt es da auch "echte" Benchmarks?

Soweit ich das gesehen habe nutzt Forspoken es aber es "benutzt" es nicht, sprich es läuft auch ohne problemlos, braucht es also nicht. Im Gegensatz zu Returnal, wo schon der geringe Einsatz mit massig RAM als Cache auf dem PC ausgeglichen werden muss.
 
Mal zum Verständnis:

Im Gegensatz zur PS5 (AFAIR hat die einen eigenen Chip) werden hier doch die Recheneinheiten der GPU genutzt. Also anstatt die maximale Datenübertragung zu feiern, sollte doch gleichzeitig ein Benchmark laufen, um den Rechenverlust (was ja am Ende FPS weniger sind - wir erinnern uns an die nicht-trivialen FPS-Einbrüche beim angeschalteten Raytracing) zu quantifizieren.
Gibt es da auch "echte" Benchmarks?

Soweit ich das gesehen habe nutzt Forspoken es aber es "benutzt" es nicht, sprich es läuft auch ohne problemlos, braucht es also nicht. Im Gegensatz zu Returnal, wo schon der geringe Einsatz mit massig RAM als Cache auf dem PC ausgeglichen werden muss.
Typischerweise sollte die GPU genug INT32 Reserven für die Dekomprimierung haben, aber natürlich ist das nicht gratis.

Aber es ist ja auch nicht so, dass es bis jetzt gratis ist. Ohne DirectStorage werden CPU und RAM belastet, was ja auch auf die Performance schlägt (und da die CPU Variante eine Grössenordnung langsamer ist, auch um Faktor 10+ länger).

Ich rechne eher damit, dass es mit Direct Storage weniger "Nachlade"-Ruckler geben sollte.
 
Zunächst ist festzustellen, welcher Teil der Grafikkarte für die Dekompression herangezogen wird. Es wurde sicher irgendwann einmal berichtet, aber wenn, dann habe ich es vergessen und Nvidias Landing Page ist da auch nicht sehr aussagekräftig. (In die Entwicklerdokumentation habe ich nicht geschaut.) Abhängig davon ist natürlich, mit welchem anderen Prozess die Dekompression konkurriert.

Davon abgesehen müsste man, denke ich, für einen Vergleich bezüglich einem etwaigen Leistungsverlust die beiden anderen Möglichkeiten, Daten zu laden, heranziehen:
  1. Man speichert die Daten unkomprimiert. Offensichtlich ist dann das einzige, was glüht, der Speichercontroller. Dieses Szenario begrenzt aber den maximalen Durchsatz auf das, was PCIe ×4 (in welcher Generation auch immer) hergibt. Die Problematik hier ist: Um den kleinsten gemeinsamen Nenner (XBox Series) zu erreichen, ist auf PC-Seite in etwa PCIe 4.0×4 notwendig. Kann man das guten Gewissens in die minimalen Systemanforderungen schreiben? Da kein Spiel Daten zwei Mal speichern wird, dürfte es abseits generischer Tests schwierig sein, hier zu vergleichen.
  2. Man dekomprimiert auf der CPU. Hier ist dann die Frage, was zum Zeitpunkt des (Nach-)Ladens schlimmer ist: CPU-Auslastung oder GPU-Auslastung. Ich weiss nicht, ob diese Frage generell beantwortet werden kann. Möglich, dass dies situationsabhängig ist, in welchem Fall man mit der Problemstellung viel Spass haben kann. Insbesondere unter dem Aspekt das Dekomprimierung vermutlich keine Dauerbelastung darstellt: bei einem Datendurchsatz von grob 10 GiB/s, wie lange wird man eine GPU mit einem Spiel wohl beschäftigt halten können?
Zum Thema: Mir ist aufgefallen, dass in den Quellen nirgends der Benchmark verlinkt ist (oder ich habe es übersehen). Falls jemand sucht: https://github.com/microsoft/DirectStorage/tree/main/Samples/BulkLoadDemo
 
Ich steh grad bischen auf dem Schlauch, oder braucht die 770 echt weniger als 1Sekunden um ihren kompletten VRAM voll zu schreiben bei PCIe4?
Vermutlich verwechsel ich grad nur Bezeichnungen. GByte=GB?
 
Typischerweise sollte die GPU genug INT32 Reserven für die Dekomprimierung haben, aber natürlich ist das nicht gratis.

Aber es ist ja auch nicht so, dass es bis jetzt gratis ist. Ohne DirectStorage werden CPU und RAM belastet, was ja auch auf die Performance schlägt (und da die CPU Variante eine Grössenordnung langsamer ist, auch um Faktor 10+ länger).

Ich rechne eher damit, dass es mit Direct Storage weniger "Nachlade"-Ruckler geben sollte.
Die Idee bei der Einführung mit der PS5 war ja, das man nur das im Speicher hat was man gerade sieht und etwas drumherum, so dass beim Drehen der Figur/Sichtfeld genau das geladen wird, was eien Millisekunde später im Sichtbereich erscheint (und entsprechend den Platz für den ausgeblendeten Rest freigibt). Problem ist hier dass damit Umsetzungen für XBox und PC flach fallen, zumindest bis auch der kleinste Laptop auf dem PC diese Technologie unterstützt und schnell genügende Massenspeicher hat.
Sony hat ungünstigerweise die Eigenproduktionen da ausgebremst, da sonst ein PC-Port nicht möglich wäre (was inzwschen ja durch "Politikumschwung" eingeplant wird). Müssen wir wohl wieder eine Generation warten - PCs bremsen jeden technologischen Sprung aus :p

PS: Bie PS5 hat rechnerisch ca. 11 GB/s, allerdings ohne die Recheneiheiten zu belasten. Das geht tatsächlich noch nicht ohne DS (oder entsprechende Technologien) auf anderen Systemen.
 
Zuletzt bearbeitet :
Ich steh grad bischen auf dem Schlauch, oder braucht die 770 echt weniger als 1Sekunden um ihren kompletten VRAM voll zu schreiben bei PCIe4?
Vermutlich verwechsel ich grad nur Bezeichnungen. GByte=GB?
Theoretisch ja. In dem Test war's etwa der halbe VRAM in einer halben Sekunde.

Du musst auch bedenken, dass die Daten komprimiert auf der SSD gespeichert sind und via RAM ins VRAM geladen werden. Mit einer typischen PCIe3 SSD kannst du also etwa 3.5GB/s komprimierte Daten hochladen, mit einer PCIe4 SSD das doppelte. Erst auf der GPU werden die Daten dekomprimiert und im VRAM gespeichert. So kommt man dann auf die 14-16 GB Nutzdaten pro Sekunde.
 
Die Idee bei der Einführung mit der PS5 war ja, das man nur das im Speicher hat was man gerade sieht und etwas drumherum, so dass beim Drehen der Figur/Sichtfeld genau das geladen wird, was eien Millisekunde später im Sichtbereich erscheint (und entsprechend den Platz für den ausgeblendeten Rest freigibt). Problem ist hier dass damit Umsetzungen für XBox und PC flach fallen, zumindest bis auch der kleinste Laptop auf dem PC diese Technologie unterstützt und schnell genügende Massenspeicher hat.
Sony hat ungünstigerweise die Eigenproduktionen da ausgebremst, da sonst ein PC-Port nicht möglich wäre (was inzwschen ja durch "Politikumschwung" eingeplant wird). Müssen wir wohl wieder eine Generation warten - PCs bremsen jeden technologischen Sprung aus :p
Sony hat bisher noch bei jeder PS viele revolutionäre Ideen gehabt und vermarktet.

Aber schön, dass sie so nett auf die Konkurrenz Rücksicht nehmen :ROFLMAO:
 
@Staarfury danke erstmal.
Beim Spielstart kann ich mir das schon hilfreich vorstellen, aber wann wird es nötig den VRAM im ernstfall mehrfach pro Sekunde komplett neu zu laden? Entfallen im optimalfall dann die Nachladeruckler?
Dann wird als nächstes interessant ob PCIe3 reicht oder es PCIe4 sein muss und die Nachladeruckler komplett zu elemenieren.

Das alles klingt für mich mit den 3,5GB meiner Gurke erstmal Banane:rolleyes:
 
Wenn alle drei um eine Sekunde pendeln, freu ich mich schon auf die Fanboy Diskurse, welches Team weniger Nano-Ruckler produziert. Und dass die sehr wohl wahrnehmbar sind, wenn man nur lange genug hinschaut.
Es sind luxuriöse Zeiten: Während man bei X-Wing noch CDs wechseln musste, um Missionen zu starten, danach DVD 2 einlegen musste, wenn man z. B. von Khorinis ins Minental wechselte und schließlich die ratternd nachladende HDD durch SSDs ersetzte, nähern wir uns jetzt im Prinzip wieder dem Zeitalter der Steckmodule (NES, Master System & Co.). Allerdings mit ganz anderen Datenmengen.
 
@Staarfury danke erstmal.
Beim Spielstart kann ich mir das schon hilfreich vorstellen, aber wann wird es nötig den VRAM im ernstfall mehrfach pro Sekunde komplett neu zu laden? Entfallen im optimalfall dann die Nachladeruckler?
Dann wird als nächstes interessant ob PCIe3 reicht oder es PCIe4 sein muss und die Nachladeruckler komplett zu elemenieren.

Das alles klingt für mich mit den 3,5GB meiner Gurke erstmal Banane:rolleyes:
Naja, die AAA-Titel sind mittlerweile >100GB, jede Menge Standard-Games kommen immer noch mit 40-70 GB hin. Wenn du da in 5 Sekunden (theoretisch) die halbe Datenmenge laden kannst, ist das doch fein. Man darf halt nicht vergessen, dass die Kiste die Infos noch übersetzen (=rendern) muss. Denn sooo ruckelfrei rennt die PS5 dann auch nicht in UHD ;)
 
@Staarfury danke erstmal.
Beim Spielstart kann ich mir das schon hilfreich vorstellen, aber wann wird es nötig den VRAM im ernstfall mehrfach pro Sekunde komplett neu zu laden? Entfallen im optimalfall dann die Nachladeruckler?
Dann wird als nächstes interessant ob PCIe3 reicht oder es PCIe4 sein muss und die Nachladeruckler komplett zu elemenieren.

Das alles klingt für mich mit den 3,5GB meiner Gurke erstmal Banane:rolleyes:
Im allerschlimmsten Fall (wenn der limitierende Faktor die SSD ist und nicht die Dekomprimierung) ist es mit einer PCIe3 SSD halt nur noch halb so schnell wie PCIe4.

Aber im Benchmark lag man mit einer PCIe3 SSD bei etwa 85% der Leistung der PCIe4 SSD und es gab immer noch die gleichen Unterschiede zwischen den GPUs. Das spricht dafür, dass es nicht (nur) an der maximalen Leserate der PCIe3 SSD scheitert.
 
Im allerschlimmsten Fall (wenn der limitierende Faktor die SSD ist und nicht die Dekomprimierung) ist es mit einer PCIe3 SSD halt nur noch halb so schnell wie PCIe4.

Aber im Benchmark lag man mit einer PCIe3 SSD bei etwa 85% der Leistung der PCIe4 SSD und es gab immer noch die gleichen Unterschiede zwischen den GPUs. Das spricht dafür, dass es nicht (nur) an der maximalen Leserate der PCIe3 SSD scheitert.
Das klingt so, als ob man jetzt zwingend PCIe4 und dann auch flottestens PCIe5 benötigt. Merkt irgendwer Nachladeruckler, wenn das Game auf ner NVMe SSD liegt? Ich muss beim Start in der Regeln 5-15 Sekunden warten (je nach Titel), aber im Game selber kann ich mich seit dem Umstieg auf die SSD nicht an Nachladehemmungen erinnern.
 
Aber im Benchmark lag man mit einer PCIe3 SSD bei etwa 85% der Leistung der PCIe4 SSD und es gab immer noch die gleichen Unterschiede zwischen den GPUs. Das spricht dafür, dass es nicht (nur) an der maximalen Leserate der PCIe3 SSD scheitert.
Ich hätte das genau anders interpretiert. Da die PCIe4 SSD nicht doppelt liefert, muss es an etwas anderem als der max. Lesegeschwindigkeit liegen.

Das klingt so, als ob man jetzt zwingend PCIe4 und dann auch flottestens PCIe5 benötigt.
Da die PCIe4 SSD grade mal 15% schneller als PCIe3 ist es doch eben nicht zwingend.

Liegt dann vermutlich wohl eher an kleinen zufälligen Leseraten, dort ist der unterschied doch deutlich kleine als bei dem max.Leseraten ist.
 
Das klingt so, als ob man jetzt zwingend PCIe4 und dann auch flottestens PCIe5 benötigt. Merkt irgendwer Nachladeruckler, wenn das Game auf ner NVMe SSD liegt? Ich muss beim Start in der Regeln 5-15 Sekunden warten (je nach Titel), aber im Game selber kann ich mich seit dem Umstieg auf die SSD nicht an Nachladehemmungen erinnern.
Nein, für heutige Games reicht auch eine SATA SSD. RealTime Nachladen von grossen Datenmengen ist ohne DirectStorage auch mit der schnellsten SSD schlicht keine Option. Das geschieht dann brav im Hintergrund während der Liftfahrt oder in einem besonders langweiligen Korridor.

Auf welche Ideen Entwickler in Zukunft kommen, wird sich zeigen müssen. Aber der hier gesehene Unterschied zwischen PCIe3 und 4 spricht nicht dafür, dass die alte NVMe SSD bald veraltet sein wird. Ob dann eine SATA SSD noch für ruckelfreies Nachladen reicht ist eine andere Frage.

Ich hätte das genau anders interpretiert. Da die PCIe4 SSD nicht doppelt liefert, muss es an etwas anderem als der max. Lesegeschwindigkeit liegen.


Da die PCIe4 SSD grade mal 15% schneller als PCIe3 ist es doch eben nicht zwingend.

Liegt dann vermutlich wohl eher an kleinen zufälligen Leseraten, dort ist der unterschied doch deutlich kleine als bei dem max.Leseraten ist.
Gut möglich. Ich sagte ja auch "Worst case = halb so schnell"
Hängt wohl auch von den Assets auf der Disk ab. Vielleicht geht auch auf der GPU nicht mehr als die 15-16 GB/s. Da bräuchte es aber sicher auch mehr Tests.

Allzu praxisrelevant dürften aber die Unterschiede zwischen GPU Herstellern und PCIe Standards aber sicher nicht sein.
 
Naja bis wir das dann wirklich mal in Software sehen und es weiter verbreitet wird vergehn sicher noch nen paar Jahre.
 
Das jetzt etwas OT, aber auch On Topic: @Igor Wallossek, könntest Du Dir die ARC 770 nochmal vorknöpfen? Ja, die Treiber usw sind ja immer noch eine Dauerbaustelle, aber würde mich schon interessieren, was sich hier geändert hat, und in welche Richtung. Und wenigstens scheint Intel hier weiterhin am Machen und Ausbessern zu sein, was für uns Endkunden nur gut sein kann. Gerade im Bereich unter € 400 gibt's ja sonst nur Karten, die entweder schon längst pensioniert sein sollten, oder fragwürdig sind. Sowohl AMD als auch NVIDIA ignorieren die Marktsegmente in den Preisklassen, bzw. die Karten die angeboten werden sind, wie es im Englischen so schön heißt, "gimped". 4 GB RAM und so. Was soll man damit anstellen?
 
Oben Unten