News AMD kontert mit der Radeon RX 6900XT, 6800X und 6800 Nvidias GeForce RTX 3070, 3080 und 3090

gastello

Veteran
Mitglied seit
Aug 28, 2018
Beiträge
288
Punkte
28
Nein, Nachteile entstehen keine - dadurch nicht, aber "Insellösungen" in der Entwicklung die diese verteuern. Man sollte sich in dem Fall fragen (und wenn man dabei mal weiter denkt und was ich dazu schon geschrieben habe), ob der Herstellersupport auf Basis einer/meiner Renderpipeline - meiner Partner (und das für einen gewissen Zeitraum) in jedem Fall erhalten bleibt oder der einer API eher überlebt? Ein Hersteller wird immer dann den Support einstellen und dbzgl. auch Einsparungen erzielen wollen (Support), wenn er seine Interessen ausreichend gewahrt/gesichert sieht.

DLSS in ein dedizierter Algorithmus den man gezielt auf seine Renderpipeline und damit Engine anpassen muss, er ist kein Teil von DX, sondern Gameworks/OtpiX for Games. DirectML ist Teil der API. Und nun vergleiche man PhysX, GSync usw. -> usf., Multiadapter und SLI/Crossfire? Solange optionale Feature zulässig sind, sind sie auch optional nutzbar. Ob sie günstiger zu implemtieren sind, ist fraglich, ob die Codebasis jederzeit und sachgerecht zu Verfügung steht, auch.

Im Bereich einer API habe ich auf die open source Basis Zugriff und damit auf alles, was ich dbzgl. brauche und plane sowie entwickle Lösungsansätze meine eigene Codebasis betreffend selbst, es geht dabei um gemeinsame Standards nicht Optionalität, selbst wenn es Tools braucht. Und mehr braucht man dbzgl. auch nicht wissen, um 1 + 1 abzuzählen. Was ist letztlich für den Gamer besser? Ich kaufe das Zeug ein und gebe den Preis dafür weiter, oder?

Es wird immer den harten Kern eines Lagers geben, der anders argumentiert, nur weiß die Vergangenheit und Zukunft, also die Zeit die Frage selbst zu beantworten.

*Spoilerspekulatuis...und zurück zum Thema.:)
ML ist auf DX12 fähiger Hardware lauffähig (Nvidia, Intel, AMD), das war eine der spezifizierten Vorgaben in der Entwicklung. Vllt. noch neben her - ist RDNA2 unter RTRT und im dirketen Vergleich der Mitbewerber ohne DLSS schneller (also in nativer Auflösung bietet die Architektur eine höhere Power fürs Raytracing), die Bombe wird bald platzen. Klar warum man jetzt wie wild auf DLSS als Zukunfttechnologie umherreitet -> habe nichts anderes erwartet! Besonders nicht von bestimmten Leuten.
 
Zuletzt bearbeitet :

Valti

Mitglied
Mitglied seit
Sep 18, 2019
Beiträge
98
Punkte
8
@Taxxor
Japp. Sicher. Folien sind toll, aber das gesagte war halt wichtiger und passt in kein Screenshot.
Weil: https://www.3dcenter.org/news/amd-zeigt-weitere-benchmarks-zu-radeon-rx-6800-6800-xt-6900-xt
+https://www.amd.com/de/gaming/graphics-gaming-benchmarks#gpuBenchmarks

Ohne SAM versteht sich.
Es geht im Kern darum, was ich meinte, dass ohne SAM gleichstand ist. Allerdings werden die Customs das allein durch Mehrtakt sowieso nochmals anheben. SAM kommt da noch oben drauf.
Und da Zen3 Intel vom Tron geholt hat, ist Zen3 ohnehin das non-Plus Ultra um dem CPU Limit weiter nach hinten zu drücken, was das offizielle testen mit Garantierten Aufbau betrifft.

Mal davon ab, dass man dieses Feature im kleinen Rahmen bereits schon verwenden kann.
Benötigt wird zwingend das Bios Feature 4G decoding und Mining Treiber, wo man den CM aktiviert.
 
Zuletzt bearbeitet :

derGhostrider

Mitglied
Mitglied seit
Jul 22, 2018
Beiträge
57
Punkte
18
Funkt für DLSS die Karte eigentlich die ganze Zeit nach Hause oder wie funktioniert das?
Nein, das ist nicht nötig. Die Modelle (korrekter: DAS Modell seit DLSS 2.0) werden vorher von NVidia auf hochauflösenden Bildern trainiert und mit den Treibern ausgeliefert. Auf der Graka läuft dann das trainierte Modell und versucht ein passendes Bild anhand des KI-Modells zu erzeugen.

Neue Befehlssätze sind halt nunmal Hardwareabhängig. zB. MMX2 lief auch auf keiner CPU der Generation vor Einführung.
Wie gesagt: Ich hätte gerne einen Beleg für neue Befehlssätze in den CPUs. AFAIK wurde da NICHTS angekündigt.
Das ist ja gerade mein Problem mit dieser Abhängigkeit! Wenn es einen neuen Befehlssatz gibt, dann ist es nachvollziehbar. Wieso sollte der Befehlssatz, also das Rückgrat von SAM nicht angekündigt werden, wenn SAM angekündigt wird? Das ist nicht logisch.

@Grestorn: Erst ein paar Deiner Zitate, Antwort darunter
Selbst das nicht. Es wird nichts runtergeladen. Was für DLSS benötigt wird - wenn da überhaupt noch etwas von "großen Rechnern" berechnet wird, was ich eigentlich seit DLSS 2 nicht mehr glaube - ist in d

Ja. Aber ich glaube das nicht. Aus dem einfachen Grund, dass für die Funktion von DLSS in einem Spiel keine bestimmte Treiberversion vorausgesetzt wird.

Das war vermutlich mal der Plan, aber es hat sich anders entwickelt mit DLSS 2

Das bezweifle ich inzwischen. Da ich mir auch nicht vorstellen kann, wie das gehen soll. Ein Spiel ist viel zu dynamisch um da irgendwas vorzurendern.

Da man nie etwas davon gehört hat, dass DLSS schlechter funktioniert, wenn man keinen GameReady Treiber hat, glaube ich das nicht.

Meine Meinung: Die Folien sind allesamt zu einem Zeitpunkt entstanden, wo man das noch so geplant hatte, also DLSS1.

DLSS 2 funktioniert anders. Und zwar komplett autark. Der Algorithmus muss nicht für ein Spiel konkre trainiert werden, sondern er rechnet alleine auf Basis der Daten des Spiels selbst und verrechnet aufeinanderfolgende Frames um alle Details zu erfassen, die eigentlich zu fein wären für die Auflösung.

AI bzw. neuronales Netz wird schon zum Einsatz kommen, aber eben ein statisches, bzw. autark lernendes.

Dadurch ist es auch zunehmend einfacher für Spiele DLSS 2 zu integrieren.
Das hier ist keine Glaubensfrage!

Ich zitiere für Dich von NVidia:
Bewegungsvektoren sagen uns, in welche Richtung sich Objekte in der Szene von Frame zu Frame bewegen. Diese Vektoren können wir auf die letzte hochauflösende Frame-Ausgabe des Netzwerks anwenden, um zu schätzen, wie der nächste Frame aussehen wird.
Quelle: https://www.nvidia.com/de-de/geforce/news/nvidia-dlss-2-0-a-big-leap-in-ai-rendering/
Unter "DLSS 2.0 – so funktioniert es"

Dort kannst Du nachlesen, wie es funktioniert:

1. NVidia trainiert ein KI-Model auf seinem Supercomputer anhand von extrem hochauflösenden Bildern
2. Das Modell wird in die Treiber gesteckt und ausgeliefert
3. Deine Grafikkarte nimmt das Modell und Bewegungsvektoren, um zu erraten, wie das Bild aussehen soll. Siehe auch Zitat oben: "um zu schätzen, wie der nächste Frame aussehen wird"

KI funktioniert *immer* so: Es wird ein vorher antrainiertes Modell auf gewisse Daten angewendet, um etwas passend zum Modell zu "erraten".
Verändert man das Modell, so verändert sich die Ausgabe.
Es werden LOKAL keine hochauflösenden Bilder generiert! Das ist falsch. (Hatte glaube ich hier irgendwer auch geschrieben...) Das ist die Aufgabe des Supercomputers.
Wenn unsere popeligen PCs die Frames in 16k berechnen könnten, bräuchte man kein DLSS. Nur der Supercomputer nimmt die extrem hochauflösenden Bilder und trainiert damit das Neuronale Netz. Einzig das, was dabei heruaskommt, ist das, was ausgeliefert wird. Nicht die hochauflösenden Bilder, die zum Training verwendet wurden, nicht "das nächste Frame", sondern nur das Modell, welches, unter Berücksichtigung des letzten Frames und der temporalen unterschiede (Bewegungsvektoren) dann sagt, was dabei herauskommt.
Das Modell wird jedoch von NVidia erstellt, stetig aktualisiert und ausgeliefert (als Treiber-Update, oder so). Die Grafikkarte wendet das Modell an.
Das Modell kann nicht von der Grafikkarte erstellt werden. Dafür sind die Grafikkarten viel zu schwach.


Somit bleibe ich bei meiner Aussage: Es wird (mit Hilfe eines gut trainierten KI-Models) geraten, was angezeigt wird.

NVidia stimmt mir hierbei zu. Und wenn der Hersteller es selbst so bezeichnet auf seiner eigenen Webseite, die diese Technologie erklärt, dann bin ich mir auch recht sicher, dass es stimmt. Zumal es zu dem passt, was ich über neuronale Netze und KI unabhängig von Nvidia und DLSS weiß.

Und ich finde es sportlich, wenn man sagt, dass man dem Hersteller nicht glaubt wie eine eigene Technologie funktioniert. Vor allem, wenn das, was der Hersteller selbst sagt, weniger positiv ist.
Umgekehrt (für gute PR machen manche fast alles), wäre es noch nachvollziehbar. Seine eigene Technologie auf "schätzen" zu reduzieren, ist jedoch nichts, was ein Hersteller freiwillig macht, wenn es denn etwas anderes wäre.

Bitte schau Dir die NVidia-Seite zu DLSS (Link sehe oben) an. Achte dabei genau, ob gerade vom Trainieren des Netzwerks berichtet wird, oder davon, wie es auf dem PC dann später läuft.
Hinweis: Beim Trainieren sind immer die hochauflösenden Bilder und die Vergleiche genannt.
Wie in diesem Abschnitt:
Beim Trainieren des KI-Netzwerks wird dann das Ausgabebild mit einem sehr hochwertigen, nativen um mit 16 K gerenderten Referenzbild verglichen. Der Unterschied wird wieder dem Netzwerk kommuniziert, sodass es mit den Ergebnissen weiter lernen und sich verbessern kann.
Und wenn die Algorithmen dann feststellen, dass das Netzwerk ein "hinreichend gutes" Bild errät aus den niedrigeren Auflösungen, ist das Training abgeschlossen. Die hochauflösenden 16k Bilder benötigt man dann nicht mehr.

Bei solchen KI-Modellen ist jedoch immer Vorsicht geboten:
- Wir Menschen wissen oftmals nicht mehr, was das Netzwerk überhaupt macht und an welchen Details es sich trainiert hat. Es kann also auch überraschend falsche Ergebnisse liefern, selbst wenn es in 99% aller Fälle (oder in 100% aller getesteten Fälle) genau das macht, was man erwartet.
- Sobald das Netz auf unbekannte Daten stößt, versagt es. Es ist genau da gut, wo es trainiert wurde.

Das gilt auch abseits von DLSS. Es gibt auch generierte Störmuster, die diese KI-Modelle absichtlich scheitern lassen. So kann man durch einen kleinen Aufkleber mit dem "richtigen" Muser Kamerasysteme in Autos dazu bringen, dass sie Geschwindigkeitsvektoren invertieren.
Das führt dann dazu, dass ein vorausfahrender Bus plötzlich als entgegenkommend gewertet wird und eine Notbremsung vom System eingeleitet wird.
Ist bereits bewiesen und nichts neues. AFAIK hatte Heise darüber auch einen Artikel.
Gefunden: https://www.heise.de/hintergrund/Pixelmuster-irritieren-die-KI-autonomer-Fahrzeuge-4852995.html

KI-Systeme liefern keine präzisen und exakt vorhersagbaren Berechnungen. Da existieren extrem komplizierte automatisch erstellte Vorhersagemodelle, die anhand von "irgendetwas" ein Muster zu erkennen meinen. Und das "irgendetwas" ist eben nicht ein komplettes Bild, so wie wir Menschen das sehen: Die Bilddaten werden oftmals (für einen Menschen) bis zur Unkenntlichkeit gefiltert, auf Kanten reduziert, etc. Es kann sogar sein, dass ein System sich "ausversehen" auf Bildrauschen hin trainiert. Es gibt auch "übertrainierte" Systeme, da man nicht bemerkt hat, dass z.B. in den Trainingsdaten gewisse Eigenarten (also im Grunde Fehler) waren, die durch das Netz dann erkannt und als relevant für die Erkennung eingestuft wurden.

Das ist ein irre kompliziertes Gebiet.

Kurz:
DLSS läuft zwar auf der Graka, doch es basiert auf einem Modell, welches von NVidia auf deren Supercomputer trainiert wird / wurde und mit dem Treiber ausgeliefert wird. Dieses KI-Modell versucht eine Art Mustererkennung durchzuführen und nach seinem Algorithmus anhand der (niedrig aufgelösten) Bildinhalte und Bewegungsvektoren das nächste hochauflösende Bild zu erraten.

Das funktioniert offensichtlich in Computerspielen oftmals ganz gut. "Geschultes Raten" bleibt es trotzdem. Und so sieht es auch NVidia.
 
Zuletzt bearbeitet :
G

Gelöschtes Mitglied 3446

Guest
Ich will gar nicht mehr so viel dazu schreiben, aber bezweifle viele Deiner Annahmen und auch NVidias Folien müssen an der Stelle mit "a grain of Salt" genommen werden. Marketing halt. Aber lassen wir das, für mich ist das EOD, da in diesem Thread OT und das die Thread-Teilnehmer eh nur nervt.
 

gastello

Veteran
Mitglied seit
Aug 28, 2018
Beiträge
288
Punkte
28
Sie lassen einen Teil des Image Processing über Compute laufen, weil das NN undendlich gefüttert werden müsste, was sie nicht können bzw. man nicht kann, der Abgleich würde imo viel zu viel Zeit erfordern und Fehler sind nicht auszuschließen (Artefakte). Letztlich vergleicht es mit Supersampling hochgerechnete Bildvorlagen mit und ohne AA, sowie höher aufgelöste Bilder zur Pixelrekonstruktion mit denen Nvidia das NN füttert.

Was das Thema angeht, bringen zB. die kommenden Konsolen fortschrittliche Kombiprozessoren mit, die eine im Falle der Xbox ML powered resolution unterstützen werden, Sony arbeitet an einem ähnlichen Ausführungsmodell.


Für Bignavi wird Superresolution über GPUopen und mit FidelityFX unterstützt werden, der Code ist quelloffen. Vor allem wollte AMD die Entwickler mitnehmen, man hätte schon viel früher (so Lisa Su seinerzeit) mit einem eigenen Pedant kommen können. Dabei soll es Plattform übergreifend Verwendung finden können. Eine entsprechende Erklärung gab AMD gegenüber ausgewählter Presse ab.

Dbzgl. hat man schon 2018 mit ML experimentiert und konnte eine RVII eine 2080 unter OpenCL GPGPU und Luxmark deutlich schlagen (das der Nv Ceo gegen 7nm wetterte, ist also nur die halbe Wahrheit). Man erreichte die 1,6 fache Performance unter DirectML (versus NGX), obwohl die 2080 dafür dedizierte Tensor-Cores mitbringt. Microsoft veröffentlichte dxML schon 2018, nur beachtete das kaum jemand weil DXR in aller Munde war. Die Entwicklung ging also faktisch nur auf Seiten AMD weiter, Nvidia hatte mit DLSS ja alle Hände voll zu tun. Ich vermute sie werden früher oder später auch auf ML umswitchen, DLSS ist nur eine Art Vorgängervariante. Der Name bleibt natürlich Nvidia typisch bestehen, was sonst - siehe Gsync compatible.:)

Das Gute ist, braucht man die DirectML Performance nicht, kann man sie für andere AI Modelle in Spielen verwenden, NPC oder Animation, Audio usw.. Es ist also genauso flexibel wie Nvidia-Tensor bzw. nichts anderes.

Und natürlich gehört das hier auch zum Thema, geht ja um Bignavi und AMDs Konter - wie gut sie das umsetzen werden wir dann sehen. Solange Nvidia Vorteile in dedizierten Ansätzen sieht, bleiben sie sicher bei ihrem Ursprung. Wie gehabt.
 
Zuletzt bearbeitet :

Shogano

Neuling
Mitglied seit
Nov 2, 2020
Beiträge
2
Punkte
1
Ich habe mal eine Frage.

Wieso wird eine Technik, die die CPU beschleunigt als GPU Verbesserung verkauft? SAM Beschleunigt den Speicherzugriff der CPU, weil diese auf den schnelleren Speicher der GPU zugreift. Dieser Ansatz ist meines Wissens nicht neu. Wieso wird hier also gesagt, dass eine AMD Karte dadurch schneller wird, wenn die CPU doch die schnellere Arbeit verrichtet?

SAM würde sicherlich mit anderen Grafikkarten eine gleichwertige beschleunigung bringen, nur wird diese Funktion von AMD nicht freigegeben.

Sicherlich nicht schlecht hier die Synergieeffekte von CPU und GPU zu nutzen, aber das als GPU beschleunigung verkaufen?! Ist doch eher als Komplettsystem zu betrachten. Als wenn man eine schnellere CPU und Arbeitsspeicher anstatt langsames benutzt. Die GPU hat hier nur den Einfluss, dass sie da ist, das kann jede andere auch.

Wie soll man also solche Benchmarks zukünftig bewerten, wo das gesamte System nur im gesamten betrachtet den Sieg bringt, anstatt eine einzelne Komponente ?!

Mich würde es interessieren wie SAM im Bereich FHD zu WQHD sklaliert. Ob also den Geschwindigkeitszuwachs im Bereich FHD größer kleiner oder gleich ist.

Nur mal zur Diskussion gestellt. Für zukünftige Benchmarks.

Ich denke mit den AMD Boards und den CPUs ist diese Technik mit jeder anderen Grafikkarte nutzbar. Auch mit NVIDIA.

mfg

Shogano

P.S.
Wirklich eine schöne Seite Igor, mach weiter so
 

2Chevaux

Mitglied
Mitglied seit
Sep 30, 2020
Beiträge
73
Punkte
17
Ich habe mal eine Frage.

Wieso wird eine Technik, die die CPU beschleunigt als GPU Verbesserung verkauft? SAM Beschleunigt den Speicherzugriff der CPU, weil diese auf den schnelleren Speicher der GPU zugreift. Dieser Ansatz ist meines Wissens nicht neu. Wieso wird hier also gesagt, dass eine AMD Karte dadurch schneller wird, wenn die CPU doch die schnellere Arbeit verrichtet?

SAM würde sicherlich mit anderen Grafikkarten eine gleichwertige beschleunigung bringen, nur wird diese Funktion von AMD nicht freigegeben.

Sicherlich nicht schlecht hier die Synergieeffekte von CPU und GPU zu nutzen, aber das als GPU beschleunigung verkaufen?! Ist doch eher als Komplettsystem zu betrachten. Als wenn man eine schnellere CPU und Arbeitsspeicher anstatt langsames benutzt. Die GPU hat hier nur den Einfluss, dass sie da ist, das kann jede andere auch.

Wie soll man also solche Benchmarks zukünftig bewerten, wo das gesamte System nur im gesamten betrachtet den Sieg bringt, anstatt eine einzelne Komponente ?!

Mich würde es interessieren wie SAM im Bereich FHD zu WQHD sklaliert. Ob also den Geschwindigkeitszuwachs im Bereich FHD größer kleiner oder gleich ist.

Nur mal zur Diskussion gestellt. Für zukünftige Benchmarks.

Ich denke mit den AMD Boards und den CPUs ist diese Technik mit jeder anderen Grafikkarte nutzbar. Auch mit NVIDIA.

mfg

Shogano

P.S.
Wirklich eine schöne Seite Igor, mach weiter so

Es gibt viele Daten, die CPU und GPU aneinander übergeben müssen. Der Infinity-Cache erlaubt nach meinem Verständnis die volle Koheränz, dh. beide können auf dem gleichen Speicherbereich arbeiten, ohne sich gegenseitig zu sperren und ohne Daten aus dem RAM in den VRAM und umgekehrt bewegen zu müssen.

Ich vermute übrigens, daß das in vergleichbarer Form auch mangels Cache bspw. unter Linux wahrscheinlich nicht koheränt arbeiten kann – und somit nur eingeschränkte Performance an den Tag legt, auch wenn unter Linux es das Feature geben mag, den gesamten VRAM bereits heute auf jeder Karte zu nutzen.

Ich habe das übrigens auch kommen sehen, wenn auch zu früh und (erstmal) als SoC mit HBM für HPC (und Konsolen), aber schau dir das Prinzip an, das ich 2016 hier beschrieb, das dürfte ziemlich genau S.A.M. sein, nur geht S.A.M. halt via PCIe statt via Interposer wie von mir damals geunkt. :)

> https://extreme.pcgameshardware.de/...tlich-auch-dass-wir-bald.462609/#post-8606521

Daß ich so falsch nicht geraten hatte, konnte mensch übrigens wenige Monate später sehen:

> https://www.heise.de/newsticker/mel...CPU-GPU-Kombi-fuer-Supercomputer-3632974.html

Und natürlich hat das das Potential zur Beschleunigung von GPU wie auch CPU, ja beiden gleichzeitig je nach Szenario. Und nein, eine Karte ohne Infinity-Cache oder ohne ein architektonisch gleiches, aber anders genanntes Feature kann das nach meinem Verständnis nicht koheränt und somit nicht performant: GPU und CPU müssten eben abwechselnd zugreifen, während der jeweils andere gesperrt ist, während bei AMD die CPU wahrscheinlich direkt mit dem IMC-Chiplet auf der GPU spricht, als wäre es ihr eigener IMC.

Aus meiner persönlichen Sicht ist S.A.M. jedenfalls keine große Überraschung, eher schon, daß es so spät und nicht schon mit HBM kam.

Und ich denke, daß das Prinzip zukünftig, unter welchem Namen auch immer, Teil einer jeden Architektur und somit Standard wird. Egal, ob Intel, Nvidia, AMD, wer auch immer, alle werden an diesem Feature arbeiten und es weiter entwickeln – weil es vernünftig ist.
 
Zuletzt bearbeitet :

gastello

Veteran
Mitglied seit
Aug 28, 2018
Beiträge
288
Punkte
28
Das gibt es doch von Intel in ähnlicher Form, Prefetcher die eine spekulative Datenanweisung und den damit verbunden Overhead verhindern können. Das ist Plattform abhängig. Die erhöhten Ladevorgäne erhöhen gleichzeitig Cacheladevorgänge was Latenzen minimieren kann, wenn man die Daten schon im Cache hat. Die notwendigen Daten, innerhalb eines Speicherzugriffs und auf die, in einem gemeimsamen Pool zugegriffen werden müssen, werden schon vorab angewiesen (liegen dann sozusagen schon im Cache oder werden mit höherer Priorität eingereiht (Queue)) und nicht erst wenn sie in den RAM geladen werden. Das sind so 5-10% (und vermutl. von den Konsolen abgeleitet), nichts weltbewegendes. Soweit ich weiss ist das quelloffen, nutzt aber nichts wenn man LovLewel programmiert und ist sowieso Applications abhängig.

Die Renderbefehle kommen von der CPU. Und wie mein Vorredner schreibt hat AMD den dazugeöhrigen Infinity Cache eingeführt, in den deutlich mehr Daten passen, und der als schneller Pool fungieren kann, das Caching dbzgl. angepasst um am SI zu sparen, die 16GiB VRAM und dessen Phy würden sonst deutlich mehr Energie fordern.

Die GPU wird sicherlich nur noch über diesen schenllen Cache mit dem VRAM kommunizieren und die CPU hat Zugriff auf diesen Pool. Was ja logisch ist, weil die Renderbefehle von ihr kommen (Draw Call's).

Für AMD war es immer schwierig mit dem CPU Overhead umzugehen, da hatte man gegenüber Nvidia Treiberabhängig immer Nachteile und bekommt seine GPUs nicht ausgelastet, weil die CPU schneller ins Limit rennt (vor allem GCN). Es macht Sinn, dann daran etwas zu ändern.

Nvidia scheint es mit der 3090 genauso zu gehen, die ist oft CPU limitiert.
 
Zuletzt bearbeitet :

Curiositea

Neuling
Mitglied seit
Okt 29, 2020
Beiträge
5
Punkte
1
Oben Unten