Grundlagenartikel Warum die Leistungssteigerung von Nvidias Ampere durchaus gewaltig sein könnte - die Boardpartner müssen bereits jetzt in die Übungsphase

Thy · Feb 16, 2020

Die 5 GHz taktet der Prozessor aber nur in wenigen Bereichen intern und nicht in der Peripherie. Der I/O-Takt der Speicheranbindung läuft nicht viel schneller als 2000 MHz.

Babyface · Feb 16, 2020

Ok Thy hat schonmal Recht. Die 5Ghz sind ja intern. I/O ist um die 2Ghz usw. GPUs fahren auch weitgehend einen stream von/nach Vram. Da kommt beim Zocken in 1s Welten mehr Datenbewegung als im Rechnerspeicher. Ist das damit aber viel anders als auf einem 1080 Board? GDDR6 gibts auch schon. Dafür braucht man keine Übungen.

Die beiden Kollegen davor haben genau das geschrieben was ich mir erhofft habe

Da ist alles und richtig dabei, aber auch dafür braucht man keine besonderen Übungen. Weder also beim Vram noch Hdmi/Displayport noch PCIe. Richtig? Auf den PCBs kann nicht (!) etwas anderes sein als auf den bisherigen Highends. Bis auf...

... ja was bleibt da noch? Was bleibt ist wohl nur Dual-Chip (Multichip für den Zocker wäre bisschen teuer denk ich...). (Mellanox?

) Nur macht das wirklich Sinn daheim? Die Probleme kennt man. Wurden irgendwann stark abgemildert, aber so wirklich weg gingen sie nie. Wobei grad da auch noch AMD irgendwie bessere Ideen zu hatte...

SLI on one PCB, sowas? Ok. Sagen wir, sie haben die frame-constancy jetzt soweit im Griff, daß man Ungleichmässigkeiten zwar noch messern, aber auch der Empfindliche das wenigstens nicht mehr wahrnimmt. Bestens. Was für einen Interconnect brauchen sie dafür?
NVlink auf 2080Ti/TitanRTX macht 50 GB/s und das geht immernoch über eine Brücke.

Wobei ich an die frame-consistency weiterhin nicht glaube. Das sieht auch bei den 2000ern noch nicht ansatzweise rund aus

Nvidia SLI auf 2 × Titan RTX im Test

ComputerBase testet SLI mit der Nvidia Titan RTX erstmals über NVLink und vergleicht 2 × 8 PCIe-Lanes mit 2 × 16 Lanes.

www.computerbase.de

und imho behebt man das nicht einfach nur mit noch schnelleren Verbindungen. Die Syncro muss besser sein.

Das kann schon sein, daß es 2fach und 4fach Boards mit den 3000 Titans geben wird, mit einem ganz neuen On-PCB-NVlink2 (oder sowas), und Igor von den Übungen dazu sprach und das alles richtig ist, ABER, das betrifft uns Konsumenten eher weniger oder?

Von allen erwähnenswerten deutschsprachigen NV-Freaks die ich kenne - und ich kenn sie echt fast alle (leider

) - hatten 99,9998% noch nichtmal kurz die Verpackung einer Titan in der Hand. So wirklich was über Titan hat bisher an sich nur Tobi(WanKenobi) erzählt.

Für die Industrie als Abnehmer freu ich mich natürlich

aber das ist für mich in etwa so aufregend wie Tegra.

Deridex · Feb 16, 2020

Das Problem aktuell ist: Wir wissen nur, dass die Boardhersteller Trockenübungen machen sollen. Wir wissen nicht warum genau.

Es kann eventuell ein neuer Interconnect sein. Es kann eventuell auch schnellerer RAM sein. Es kann aber genauso gut sein, dass die nächste GPU-Generation empfindlicher auf Reflektionen oder andere Störgrößen reagiert. Wir wissen es schlicht nicht

Das was ich aus Igors Aussagen entnehmen kann ist: Bei den PCBs wird auf jeden Cent geschaut und deswegen wird bisher auf einige aufpreispflichtige Extras, die bei Highspeedsignalen nicht unüblich sind, verzichtet.

Thy · Feb 16, 2020

Weiß jemand, wie dies bei Mainboards gemacht wird? Werden dort höhere, niedrigere oder gleiche Ansprüche an die Platinenqualität gestellt, als bei Grafikkarten?

gerTHW84 · Feb 16, 2020

Babyface hat gesagt. :
Ok Thy hat schonmal Recht. Die 5Ghz sind ja intern. [...]

Mit so etwas Einfachem, wie dem Transfer des bisherigen SLI/NVLink-Designs direkt auf ein einziges PCB dürften die aktuellen Multi-Chip-Bestrebungen eher weniger zu tun haben. Beispielsweise R.Koduri sagte in diesem Kontext:
"As you know, solving the multi-GPU problem is tough – it has been part of my pursuits for almost 15 years. I’m excited, especially now, because multiple things are happening. As you know, the software aspect of multi-GPU was the biggest problem, and getting compatibility across applications was tough. So things like chiplets, and the amount of bandwidth now going on between GPUs, and other things makes it a more exciting task for the industry to take a second attempt. I think due to these continual advances, as well as new paradigms, we are getting closer to solving this problem. Chiplets and advancement of interconnect will be a great boost on the hardware side."
Hier geht es eher darum die ganze Architektur auf ein Multi-Chip-Design auszurichten. (Und bei Intel kommt noch deren neues oneAPI hinzu, aber das ist ein anderes Thema.)

Mit Titans hat das übrigens voraussichtlich auch wenig zu tun, die btw, gemäß Igor, im aktuellen Ausbau bzgl. dem Board-Layout auch nichts Besonderes ist, sondern nahezu gänzlich der Quadro RTX 6000 entspricht.
Und bei Intel ist bereits absehbar, dass 2-Tile-Designs wohl eher das sein werden, was bei denen das HighEnd/Enthusiast-Consumer-Segment anspricht, also dürfte auch nichts dagegen sprechen, dass eine RTX 3080 und auch RTX 3080 Ti bereits aus mehreren Chips besteht (wenn ein Multi-Chip-Design denn tatsächlich kommt; bisher ja nur alles Vermutungen). Wenn man die (software)technischen Probleme bzgl. der Konnektivität gelöst hat, hat man zudem fertigungstechnisch die Möglichkeit auf eine effizientere/flexiblere Produktion.

Wenn die Basisarchitektur funktioniert, könnte nVidia diese sowohl für das Datacenter als auch für Consumer und Visualization (Quadros) gleichermaßen nutzen. Denkbar (immer noch alles Spekulationen

) wäre, dass man dann anstatt wie jetzt vier, fünf komplett unterschiedliche, große Chips (die diversen Turing- und Volta-Chips in unterschiedlichen Größen), nun stattdessen zwei oder bestenfalls drei unterschiedliche, kleine (Compute-)Chiplets entwickelt, auf denen man die Funktionseinheiten unterschiedlich kombiniert. Als "Funktionseinheiten" könnte man grob klassifizieren GPU (inkl. FP32), Raytracing Cores, Tensor Cores und HPC (FP64) und die Chips im Verhältnis folgendermaßen konzipieren (G : R : T : H):

Chiplet 1 = 2 : 2 : 1 : 0 (Consumer & Viz)
Chiplet 2 = 0 : 0 : 1 : 2 (Datacenter, HPC)
Chiplet 3 = 1 : 0 : 2 : 0 (ML/AI)

Abschließend kann man die GPUs aus diesen zusammensetzen und hochskalieren. Beispielsweise Consumer-GPUs verwenden dann Chiplet 1. Für die kleineren Varianten reicht ein Chiplet, ggf. gar teildeaktiviert und für Mid/HighEnd kombiniert man derer zwei und hätte gar noch die Option auf mehr Zusammenschlüsse (gar 3 oder 4, wobei es aber irgendwo zweifelsfrei ein technisch sinnvolles Limit geben wird *). Klassische Datacenter-Produkte für HPC (und ein wenig ML) verwenden Chiplet 2, der auf FP64 hin optimiert ist und für Machine Learning gibt es Chiplet 3 mit weitestgehend Tensor Cores drauf, um Anbieter wie Habana und Xilinx in Schach zu halten.
Chiplet 1 ist möglicherweise für ein GDDR6-Interface ausgelegt, während die anderen beiden auf HBM2 setzen und bspw. direkt zwei Stacks pro Chiplet mitbringen **).

Eine andere Alternative wäre die Fertigung von Chiplets pro "Funktionseinheit", jedoch erscheint mir das auf den ersten Blick komplizierter bzgl. der Lastverteilung und Synchronisation ... aber wer weiß, eh nur alles wilde Spekulationen.

*) Wobei es Intel zumindest bei HPC immerhin bis zu 16 Chips schafft. Zudem scheinen zumindest bei deren HPC-Design die primären Chiplets auch reine Compute-Chiplets zu sein, d. h. die verfügen selbst über keine Speicheranbindung.

**) Je nach der Größe eines einzelnen Chiplets könnte man diese auch tendenziell eher kleiner konzipieren und mit nur einem einzelnen HBM2-Stack kombinieren und hätte damit einen bessere Granularität. Oder man löst diese wie in *) komplett von der direkten Speicheranbindung, was aber dann zusätzliche Chips erforderlich macht.

***) Obige Aufteilung der "Funktionseinheiten" ist natürlich nur ein Gedanken(bei)spiel. Aktuell kann man bei nVidia klassische CUDA-Cores/ALUs (INT & FP32) und FP16 Tensor Cores nicht so wirklich separieren. FP16 wird in Game Engines immer wichtiger, nVidia berechnet FP16 in Turing jedoch ausschließlich über die Tensor Cores. Kleinere Chips, wie der TU116 werden daher ersatzweise explizit mit dedizierten FP16-Funktionseinheiten ausgestattet, da diese über keine Tensor Cores verfügen (das spart ggü. den Tensor Cores dennoch Wafer-Fläche auf bspw. der GTX 1660).

Babyface · Feb 16, 2020

Oh. Sorry. Ich hatte kurzzeitig Probleme was jetzt Multichip und was Multichiplet sein soll

Für mich ist Multichip eher sowas wie im MacPro...
Aber ok. @gerTHW84 , du redest davon? (September 2019)

NVIDIA® sieht keine Notwendigkeit für Chiplet-Design | #AskTheGamer – Das Online-Magazin von Mindfactory

AMD hat in vielen Bereichen mit den neuen Produkten vorgelegt. Unter anderem nutzte man bei den Zen™-2-Prozessoren etwa auch das sogenannte Chiplet-Design. Da

blog.mindfactory.de

Selbst wenn da schlicht gelogen wurde und die 3000er sowas sind, erkenne ich immernoch nicht den Grund wie das die Übungen der Boardhersteller benötigen soll. Hat wer von Trockenübungen der Mainboardhersteller gehört, als sie sich für Zen2 vorbereitet haben?

Wenn nicht, kann es auch nicht am ggf. Chiplet-Design liegen, gerTHW84. Es gibt eben nur einen guten Grund dafür:
Die Leistungssteigerung von Ampere wird gewaltig sein

Da bin ich wirklich gespannt. Die 5700XT ist bei 1440p auf Ultra in Metro Exodus ~40% schneller als Vega56. Das ist aber noch nicht gewaltig. Nun wird es spannend wieviel schneller die "3080Ti" gegenüber der 2080Ti sein wird.

RAZORLIGHT · Feb 16, 2020

2080 ti Super incoming.
Wohl auch in einer Special Edition, wohl Cyberpunk 2077.

Babyface · Feb 16, 2020

?? Das ist vom November 2019

Nvidia RTX 2080 Ti Super is coming – and it could be a monster GPU

Nvidia might even have to be careful not to stand on the Titan RTX’s toes

www.techradar.com

gerTHW84 · Feb 16, 2020

Naja, wie ich ja schon mehrfach oben schrieb, alles wüste Spekulationen. Intel ist jedem Fall mit einem entsprechend skalierbaren Design unterwegs mit Xe. Und für GDDR6 mit 16 Gbps braucht man keine "Trockenübungen", ebensowenig für PCIe 4.0, also bleibt nicht allzu viel übrig außer vielleicht für schnelle Chip-zu-Chip-Kommunikationspfade?
Und unbedingt "gelogen" haben muss nVidia auch nicht, denn man muss der Konkurrenz ja nicht alles auf die Nase binden und wie schon gesagt, präsentierten sie (ich glaube auf einer Tech-Konferenz in Tokyo letztes Jahr, wenn ich mich recht erinnere) schon ein Chiplet-HPC-Design, d. h. zumindest schon mal, dass sie auf jedem Fall an dem Thema dran sind (was auch nicht verwundert).

Am Ende kommt noch der zeitliche Faktor hinzu, denn die Karten kommen voraussichtlich erst in 3Q20, sodass noch etwas Zeit vergeht und von da ausgehend müssen diese dann eine Weile den Markt konkurrenzfähig bedienen können. Und wenn Intel tatsächlich das umsetzen kann, was man so herauszulesen meint und vermutet, dann wäre das zumindest im Datacenter durchaus konkurrenzfähig, dem nVidia dann etwas Handfestes entgegensetzen muss und da wird man nicht mal eben Mitte 2021 (also etwa rund 12 Monate nach dem jetzt bevorstehenden Launch *) ein abermals komplett neues Design hervorzaubern.

Schlussendlich muss man hier einfach abwarten, keine Frage (denn alles Spekulation) und bspw. auch bei Intel ist noch keinesfalls klar, wann bspw. ein größeres 2-Tile-Design überhaupt erscheinen wird. Aktuell mutmaßt man bzgl. erster, dedizierter Karten in 10nm++ für Ende 2020/Anfang 2021, aber man weiß noch nicht was für welches Marktsegment kommen wird. Auch Intel lässt sich hier nicht in die Karten schauen.

Btw ... der Titel des RTX 2080 Ti Super-Artikels ist ja echt reißerisch. Was sollte da für ein "Monster" rauskommen? Da geht nicht mehr viel, denn nVidia hat keinen neuen TU102-Chip. Das höchste der Gefühle wäre der Vollausbau analog Titan/Quadro, also +4 SMs und bestenfalls noch zusätzlich 16 Gbps GDDR anstelle von derzeit 14 Gbps mit dem kleinen Refresh (TU102-410?), mehr aber nicht. Und im Vergleich zu hochgezüchteten Ti-Custom-Designs kann sich die reguläre Titan RTX gar nur unwesentlich absetzen, d. h. man kann die etwa groben +10 % ggü. einer RTX 2080 Ti FE auf ein Custom-Design wie eine ROG Strix oder Xtreme 11G aufschlagen und dann weiß man in etwa, wo man rauskommt.
Jedoch sind +10 %, vielleicht bestenfalls +15 %, im Vergleich jetzt nicht unbedingt ein Hammer **), zumal die Super-Neuauflage sicherlich nicht billiger wird, sondern bestenfalls beim gleichen Preis bleiben würde.
Vielleicht ist ja dieser Ti-Super-Refresh genau das, was hinten bei der "Trockenübung" bei einigen Boardpartnern rauskommt, denn diese nur im Labor als Machbarkeitsstudie durchzuführen, garantiert noch nicht, dass man tatrsächlich die Herausforderungen auch in der Massenfertigung in den Griff bekommen wird, also lässt nVidia einige Partner vielleicht daher tatsächlich aktualisierte RTX 2080 Ti fertigen, die diese als Super-Refresh vertreiben dürfen?

Gespannt bin ich aber auf jeden Fall auch bzgl. der zweiten Jahreshälfte, weniger wg. Zen3, denn was da kommt ist weitestgehend absehbar (schlicht ein paar Prozentpunkte mehr; eine Mischung aus etwas mehr IPC mit ggf. ein klein wenig mehr Takt), aber bspw. auf das, was AMD nVidia und für später auch Intel entgegen zu setzen plant und was derzeit unter dem Begriff RDNA2 läuft.

*) Beispielsweise Intels Ponte Vecchio ist offiziell für 4Q21 angekündigt (allgemeine Verfügbarkeit) in Intels 7 nm-Prozess (P1276, einem Äquivalent zu TSMCs 5 nm). Wenn Intel mit dem Aurora schon die Top500-Juni-2021-Liste anpeilt, würde das bedeuten, sie wären schon in 2Q21 mit den Karten in Produktion, andernfalls erst im Folgequartal.

**) Dann läuft bspw. BF5 in WQHD in Ultra-Settings anstatt mit 140 mit vielleicht 161 Fps ...

Deridex · Feb 17, 2020

@Thy
Aus meiner Sicht ist es vergleichbar. Allerdings variiert das je nach Model. Ein Servermainboard mit Octachannel RAM und Haumichblauwieviele PCIe Lanes ist natürlich eine andere Nummer als ein Low-Cost-Consumer Mainboard. Selbiges gilt natürlich auch bei Grafikkarten (als Beispiel GTX1050 vs RTX2080Ti).

Thy · Feb 17, 2020

Meine Frage zielte darauf ab, dass bei einigen high-end Mainboards ja mittlerweile Speicher bis DDR4-4800 unterstützt wird (z.B. Maximus XI Apex), so dass über die Mainboardleitungen Signale mit 2400 MHz laufen müssen. Wird hierbei dann auch ein spezielles Verfahren, wie Backdrill, verwendet, um Signalreflexionen zu minimieren? Das wäre ja dann vielleicht ein weiterer Fingerzeig, dass bei Ampere höhere Signalfrequenzen auf dem Grafikkarten-PCB anstehen, was auch immer Nvidia damit verbinden möchte. Schnellerer Speicher kanns ja eigentlich nicht sein.

Deridex · Feb 17, 2020

Ah ok, das habe ich dann falsch verstanden.
Um deine Frage zu beantworten, müsste man diese Mainboards mal genauer ansehen. Backdrill kann man relativ gut optisch feststellen. Bei den anderen Möglichkeiten (Blind Via, Buried Via usw.) wird es ungemein schwerer.

Ich selbst habe solche Mainboards allerdings nicht zur Hand. Eventuell hat @Igor Wallossek eines oder kann nachfragen.

Babyface · Feb 17, 2020

Die Beiträge die meinen folgten, da ich meine damit die Überlegungen gut angekurbelt zu haben

, gefallen mir irgendwie alle. Eine ordentliche Disksusion. Bestens.

Wenn man da aber 1x durch ist kann man sich irgendwie des Eindrucks nicht erwehren, daß der Ursprungspost

so wie er ist, nicht wirklich einen tieferen Sinn ergeben kann. Oder geht es nur mir so?

p.s.:

Und unbedingt "gelogen" haben muss nVidia auch nicht

Doch. In dem Fall wäre das so. Warum sollte man das ausgerechnet diesmal nicht beim Namen nennen?

Thy · Feb 18, 2020

Igor weißt in seinem Artikel darauf hin, dass die Grafikkarten-PCBs für die nächste Generation wahrscheinlich unter anderem mit Backdrill hergestellt werden und dass dadurch die Signalintegrität verbessert werden soll. Dann spekuliert er, was mögliche Ursachen für diesen Mehraufwand sein könnten. Wo fehlt dir da der tiefere Sinn?

Igor Wallossek · Feb 18, 2020

Ich zitiere mal eine Original-Quelle von mir:

... well, actually they ask us to test back drill PCB on 2080 Ti in preparation for next gen products ...

Ich muss auch auf den Quellenschutz achten und überlegen, was und wie viel ich am Ende wirklich schreibe, obwohl es hätte deutlich mehr sein können. Allerdings engt das den Kreis der Beteiligten mit etwas Pech schon so weit ein, dass es zum Risiko werden könnte. Und meine Quellen muss ich hegen und pflegen. Das ist auch eine Frage des Anstands

Tesetilaro · Feb 18, 2020

einigen wir uns doch darauf, das Nvidia definitiv etwas in der Pipeline hat - so viel können wir als gesichert annehmen.
U.a. aus Kostengründen wird erwägt an der Fertigungstechniketwas umzustellen, wobei der Verdacht nahe liegt das es weitere Gründe gibt.

Wenn wir jetzt in Betracht ziehen, das Chips immer complexer wurden und wahre Monsterflächen belegt haben. Wenn wir weiter überlegen, das AMD Chiplet Design bei CPUs vorgemacht hat, es ganz sicher für GPUs erwägt hat. Intel sich das Thema Chiplet auch näher ansieht, jetzt auch unter die GPU Hersteller geht.
Dann folgt daraus, Nvidia ist der einzige der drei nur mit GPU und aktuell auch mit Raytracing, was AMD wohl gedenkt zu ändern, wenn ich next Gen Konsolen Gerüchte richtig deute - belibt der Schluß, Nvidia hat enormen Entwicklungsdruck um seine Marktnische weiter erfolgreich zu besetzen - Chiplet Design, evtl sogar HMB fürs High end liegt nahe - aber wir wissen es nicht.

Grundsätzlich behaupte ich ganz frech, Chiplet Design für GPU wird kommen, das ist keine Frage ob, sondern wann. Offen gesagt wundert mich, das man diese hoch parallelisierbaren Chips nicht VOR den CPUs dahin gebracht hat - aber da kann dann das Fehlen eine Ingeniuer Abschlusses durchaus meinen Horizont einschränken *g*

Besterino · Feb 18, 2020

Wenn man dann noch bedenkt, dass NVIDIA 2 Milliarden USD für Forschung und Entwicklung (baut nur GPUs) ausgegeben hat in einem Zeitraum wo AMD (CPUs und GPUs) dafür ca. 380 Millionen auf den Tisch gelegt hat, sollte da hoffentlich was bei rumkommen.

Klar, man kann auch prima sinnlos Geld ausgegeben - aber noch hoffe ich mal das Beste.

Deridex · Feb 18, 2020

Quellenschutz ist aus meiner Sicht richtig und wichtig. Bei meinen Artikeln ist es recht einfach, da es allgemeines Wissen in der Entwicklung usw. ist.

@Tesetilaro
Auch die meisten Ingenieure werden beim Chipdesign kaum mitreden können. Auch ich habe da keine Ahnung. Mein Gebiet ist die Elektronik bis hin zum Leiterplattendesign und etwas Programmierung. Deswegen kann ich da zumindest mitreden

Aber das Chipdesign ist schon etwas sehr spezielles.

Babyface · Feb 18, 2020

Thy hat gesagt. :
Dann spekuliert er, was mögliche Ursachen für diesen Mehraufwand sein könnten. Wo fehlt dir da der tiefere Sinn?

Das ist wahrscheinlich wieder nur leib gemeint, aber du brauchst mir das mit Bienchen und Blümchen nicht erklären. Danke

Mir ging es um unsere Analyse des Spekualtius Teils... Ok daß man zusehen soll, daß man keinen in die Pfanne haut und sich davor wie nachher auch oft fragt, ob das was eigentlich raus dürfte, auch ausreichend Sinn ergeben könnte, das verstehe ich völlig. Hat Igor auch grad geschrieben.

Trotzdem dürfte mich nichts davon dazu bewegen jetzt etwas an #53 zu ändern, richtig?

Thy · Feb 18, 2020

Das ist nicht wieder nur leib oder lieb gemeint, dass ist Fakt. Du bist auch einer von denen, die einen auf der Autobahn nicht auf die linke Spur lassen, richtig?

Grundlagenartikel Warum die Leistungssteigerung von Nvidias Ampere durchaus gewaltig sein könnte - die Boardpartner müssen bereits jetzt in die Übungsphase

Urgestein

Veteran

Urgestein

Urgestein

Veteran

Veteran

Veteran

Veteran

Veteran

Urgestein

Urgestein

Urgestein

Veteran

Urgestein

Format©

Admin / Banhammer

Urgestein

Urgestein

Veteran

Urgestein