News Neuigkeiten und Gerüchte zu RDNA2 (Sammelstrang)

Thy · Sep 28, 2020

Obse hat gesagt. :
Denn 22,5 gegenüber 14,9 (3080) 17,79 (3090) ist eine Hausnummer

Sprich Big Navi ist biger als Ampere auf dem Papier

Was ist das denn für eine Rechnung? Bei Nvidia halbierst du den TFlops-Wert und bei AMD nicht? Ich mach mir die Welt, wie sie mir gefällt, oder wie?

huberei · Sep 28, 2020

Thy hat gesagt. :
Was ist das denn für eine Rechnung? Bei Nvidia halbierst du den TFlops-Wert und bei AMD nicht? Ich mach mir die Welt, wie sie mir gefällt, oder wie?

nein, ich denke er korrigiert nur die fantasieverdoppelung von nvidia, damit es vergleichbar ist. ampere hat in gaming belangen nunal nicht 36 bzw. 30 tflops sondern eben eher 15 und 18. so passts fann auch wieder zu den tflop zahlen des restlichen marktes.

Thy · Sep 28, 2020

Na ja, die, für Spiele hauptsächlich wichtigen, FP32-Einheiten sind schon in doppelter Anzahl vorhanden, nur die INT32-Einheiten nur einfach. Daher würde ich eine Mehrleistung von 80 statt 100 % schätzen, aber doch nicht nur 50. Dann könnte Nvidia die ja gleich ganz weglassen.

huberei · Sep 28, 2020

naja, aber dann müsste ja die ingame-leistung bei 36tflops massiv höher sein, als noch bei der 2080ti mit nur gerade 13.5tflops.
da passen halt die 18tflops voel besser zur erreichten leisung.

HerrRossi · Sep 28, 2020

Thy hat gesagt. :
Na ja, die, für Spiele hauptsächlich wichtigen, FP32-Einheiten sind schon in doppelter Anzahl vorhanden, nur die INT32-Einheiten nur einfach.

Nee, es gibt in Amperes Streaming Multiprozessoren 64 reine FP32-ALUs (wie bei Turing) dazu gibt es dann nochmal 64 ALUs, die beides können FP32 oder INT32. In dem Fall, wo nur FP32 gerechnet werden, hat Ampere mit 128 also doppelt so viele FP32-ALUs wie Turing, wird gleichzeitig auch IINT32 gerechnet, bleibt es bei 64 FP32 ALUs.
Zumindest habe ich das so verstanden, bitte korrigiert mich, falls ich falsch liege.

Gelöschtes Mitglied 3446 · Sep 28, 2020

HerrRossi hat gesagt. :
Nee, es gibt in Amperes Streaming Multiprozessoren 64 reine FP32-ALUs (wie bei Turing) dazu gibt es dann nochmal 64 ALUs, die beides können FP32 oder INT32. In dem Fall, wo nur FP32 gerechnet werden, hat Ampere mit 128 also doppelt so viele FP32-ALUs wie Turing, wird gleichzeitig auch IINT32 gerechnet, bleibt es bei 64 FP32 ALUs.
Zumindest habe ich das so verstanden, bitte korrigiert mich, falls ich falsch liege.

Ganz so schwarz/weiß ist es nicht. Für jede Recheneinheit kann entschieden werden, ob sie im 2x fp32 oder im 1xfp32 + 1xInt32 Modus läuft. Es wird nicht die gesamte GPU in einem dieser Modi betrieben. D.h. es kommt darauf an, dass der Treiber die Rechenlast möglichst intelligend aufteilt. Je mehr FP32 Last vorliegt, desto leichter wird das. Wenn weniger als 50% der Rechenoperationen FP32 benötigen, ist die Leistung praktisch identisch mit Turing, aber jedes Prozent darüber gibt es quasi "kostenlos" ohne Performance-Verlust, wenn man es optimal auf die Recheneinheiten aufgeteilt bekommt.

Thy · Sep 29, 2020

huberei hat gesagt. :
naja, aber dann müsste ja die ingame-leistung bei 36tflops massiv höher sein, als noch bei der 2080ti mit nur gerade 13.5tflops.
da passen halt die 18tflops voel besser zur erreichten leisung.

Deine Aussage bedeutet also, dass die Nvidia-Ingenieure unfähig sind und bei den INT32/FP32-Einheiten, die FP32-Fähigkeit auch hätten weglassen können, oder wie ist das nun zu verstehen?

huberei · Sep 29, 2020

Thy hat gesagt. :
Deine Aussage bedeutet also, dass die Nvidia-Ingenieure unfähig sind und bei den INT32/FP32-Einheiten, die FP32-Fähigkeit auch hätten weglassen können, oder wie ist das nun zu verstehen?

keine ahnung wie du auf diesen schund kommst?
die leute sind alles andere als unfähig und machen einen tollen job mit ihrer hardware.

aber die 36tflops sind imo sehr theoretisch, haben nicht viel mit der tatsächlich auf die strasse gebrachten leistung zu tun und dürften wohl eine klassische marketing-zahl sein.

Affenzahn · Sep 29, 2020

huberei hat gesagt. :
aber die 36tflops sind imo sehr theoretisch, haben nicht viel mit der tatsächlich auf die strasse gebrachten leistung zu tun und dürften wohl eine klassische marketing-zahl sein.

Dieses.
Schöngerechnet weil ne höhere Zahl ja immer besser ist. Funktioniert ja auch direkt, wenn ich sehe was Thy so schreibt.
Für jemand der sich nicht mit anderen darüber unterhält ist das dann eine in Stein gemeißelte Wahrheit.

Grestorn hat gesagt. :
Für jede Recheneinheit kann entschieden werden, ob sie im 2x fp32 oder im 1xfp32 + 1xInt32 Modus läuft.

Da hab ich noch ein paar Fragen zu, weil ansich liest sich das für so nen Otto Normalo wie mich phänomenal clever.

Kann ich das für jede einzelne ALU einstellen oder nur für den kompletten "Block"?
Könnte man die denn theoretisch in ner 48/16 Konfiguration laufen lassen? Also 64+48 FP32 + 16 INT?
Was spricht dagegen die anderen 64 ALUs nicht auch als INT/FP auszuführen? Damit hätte man doch je nach Anwendung die optimale Leistung.

HerrRossi · Sep 29, 2020

Grestorn hat gesagt. :
Für jede Recheneinheit kann entschieden werden, ob sie im 2x fp32 oder im 1xfp32 + 1xInt32 Modus läuft.

Für jede ALU einzeln oder für jeden SM einzeln? Ich habe von Chipdesign wenig Ahnung und weiß nicht, ob die ALUs im SM alle einzeln gefüttert werden. Falls nicht, könnte das das Nadelöhr sein, warum die theoretisch mögliche Leistung in den Spielen nicht ankommt. Oder es liegt einfach daran, dass die Treiber oder die Spiele/Engines damit noch nicht umgehen können. Falls das eine Softwaresache sein sollte, wird Nvidia das sicherlich schnell angehen und zumindest bei neuen AAA Titeln, wo Nvidia mitarbeitet, sollte die Leistung dann drastisch steigen.

Andy · Sep 29, 2020

@HerrRossi In einem anderen Thread wurde das mal wunderbar durch @gerTHW84 erklärt.

News - NVIDIA Quadro RTX (Ampere) mit vollausgebautem GA102-Grafikprozessor und 48 GB GDDR6-Speicher gesichtet

NVIDIA hat vor kurzem bereits die GeForce RTX 30-Serie mit Ampere-Chip für Privatanwender vorgestellt und in Kürze wird das Unternehmen wohl auch auch seine Prosumer- und Workstation-orientierten Quadro RTX-Grafikkarten der Ampere-Palette launchen. Die NVIDIA Quadro RTX-Reihe startete 2018 mit...

www.igorslab.de

HerrRossi · Sep 29, 2020

Danke, muss ich mir in Ruhe ansehen.

Gelöschtes Mitglied 3446 · Sep 29, 2020

Es ist die Rede von "Funktionsblock" der entweder im 2x FP32 oder 1xFP16 + 1xFP32 Modus betrieben wird. Wie feingranular ein solcher "Funktionsblock" ist, kann ich nicht sagen.

Aber: Es werden ja bei einer GPU niemals einzelne Operationen ausgeführt, sondern immer in einer großen Matritze, also parallel mit vielen vielen gleichartigen Operationen gleichzeitig. Das ist ja die Stärke, warum GPUs so viel stärker in diesem Bereich sind, als CPUs.

D.h. es kommt darauf an, wie diese Matritzenoperationen verteilt sind. Wenn viele davon auch INT nutzen, dann laufen sie "nur" mit der Effizienz wie bei Turing, je mehr davon FP32 nutzen und parallel ausgeführt werden können, desto mehr Vorteil hat Ampere.

Das Speichereinterface und die ROPs limitieren aber natürlich trotzdem immer. Deswegen wird die FLOP Zahl, auch bei einer Anwendung die rein nur FP32 nutzt und bei die FLOPs voll genutzt werden können, trotzdem keine verdopplung der End-Leistung bringen. So einfach ist das nie!

Deswegen ist aber die FLOPs Angabe dennoch richtig, und sie ist aber nur genauso aussagekräftig wie jede andere FLOPs Angabe, die immer nur von bestimmten, optimalen Bedingunen ausgeht, auch bei AMD. Was auch der Grund ist, waum AMD historisch den angegebene FLOP Vorteil gegenüber NVidia nie auf die Straße bringen konnte.

Capsaicin · Sep 29, 2020

Affenzahn hat gesagt. :
Kann ich das für jede einzelne ALU einstellen oder nur für den kompletten "Block"?

Ich habe keine Informationen dazu gesehen, glaube auch nicht, dass NVidia dazu was veröffentlicht hat. Ich schätze, dass die Verteilung der Aufgaben an die ALUs durch eine Hardware-Einheit, den Scheduler, erfolgt. Ich halte es für möglich, dass der das für jede einzelne ALU in einem Taktzyklus kann, der mäßige Gaming-Zuwachs spricht aber eher dagegen. Vielleicht liegt das Bottleneck aber auch woanders. >10000 Shader muss man auch erst mal sinnvoll füttern.

Affenzahn hat gesagt. :
Was spricht dagegen die anderen 64 ALUs nicht auch als INT/FP auszuführen? Damit hätte man doch je nach Anwendung die optimale Leistung.

Jeder zusätzliche Transistor kostet Chipfläche, die teuer ist, und Strom. Also macht man das so ausgewogen wie möglich. Die meisten Anwendungen brauchen eben viel mehr FP32.

Affenzahn · Sep 29, 2020

Danke @Andy
Der Thread ist an mir vorbei gegangen.

Thy · Sep 29, 2020

Affenzahn hat gesagt. :
Dieses.
Schöngerechnet weil ne höhere Zahl ja immer besser ist. Funktioniert ja auch direkt, wenn ich sehe was Thy so schreibt.

Ich habe sehr wohl verstanden, wie die Funktionseinheiten bei Ampere verteilt sind und eben deswegen kann ich solche Aussagen nicht einfach so stehen lassen, weil eben in vielen Fällen deutlich mehr Rechenleistung zur Verfügung steht, als der halbierte Tflops-Wert.
Ich muss mich nicht von jemanden belehren lassen, der andere Posts unreflektiert als Schund bezeichnet.

huberei · Sep 29, 2020

Thy hat gesagt. :
Ich habe sehr wohl verstanden, wie die Funktionseinheiten bei Ampere verteilt sind und eben deswegen kann ich solche Aussagen nicht einfach so stehen lassen, weil eben in vielen Fällen deutlich mehr Rechenleistung zur Verfügung steht, als der halbierte Tflops-Wert.
Ich muss mich nicht von jemanden belehren lassen, der andere Posts unreflektiert als Schund bezeichnet.

ich habe dich nicht belehrt.

und mit schund habe ich deine interpretation meines posts gemeint. nichts anderes .

HerrRossi · Sep 29, 2020

Mann, Leute

helpstar · Sep 29, 2020

durch die Klarstellung von huberei, auf was "Schund" bezogen war, ist das nun geklärt, bitte back to topic

Affenzahn · Sep 29, 2020

Thy hat gesagt. :
Ich muss mich nicht von jemanden belehren lassen, der andere Posts unreflektiert als Schund bezeichnet.

Verzeih' mir das bitte. Ich bezog mich zusammenhangslos auf den Post hier, der sich eben liest wie frisch aus Reddit.
Das war nicht auf dich bezogen sondern nur auf die Formulierung. Hätt ich das Zitat mit reingepackt, wär das evtl. klarer geworden.
Entschuldige bitte, das kam schlicht falsch rüber und war nicht persönlich auf dich gemünzt.

Thy hat gesagt. :
Was ist das denn für eine Rechnung? Bei Nvidia halbierst du den TFlops-Wert und bei AMD nicht? Ich mach mir die Welt, wie sie mir gefällt, oder wie?

News Neuigkeiten und Gerüchte zu RDNA2 (Sammelstrang)

Urgestein

Mitglied

Urgestein

Mitglied

Urgestein

Gelöschtes Mitglied 3446

Guest

Urgestein

Mitglied

Urgestein

Urgestein

Veteran

Urgestein

Gelöschtes Mitglied 3446

Guest

Veteran

Urgestein

Urgestein

Mitglied

Urgestein

Senior Moderator

Urgestein