News Neuigkeiten und Gerüchte zu RDNA2 (Sammelstrang)

Denn 22,5 gegenüber 14,9 (3080) 17,79 (3090) ist eine Hausnummer

Sprich Big Navi ist biger als Ampere auf dem Papier 😇
Was ist das denn für eine Rechnung? Bei Nvidia halbierst du den TFlops-Wert und bei AMD nicht? Ich mach mir die Welt, wie sie mir gefällt, oder wie?
 
Was ist das denn für eine Rechnung? Bei Nvidia halbierst du den TFlops-Wert und bei AMD nicht? Ich mach mir die Welt, wie sie mir gefällt, oder wie?

nein, ich denke er korrigiert nur die fantasieverdoppelung von nvidia, damit es vergleichbar ist. ampere hat in gaming belangen nunal nicht 36 bzw. 30 tflops sondern eben eher 15 und 18. so passts fann auch wieder zu den tflop zahlen des restlichen marktes.
 
Na ja, die, für Spiele hauptsächlich wichtigen, FP32-Einheiten sind schon in doppelter Anzahl vorhanden, nur die INT32-Einheiten nur einfach. Daher würde ich eine Mehrleistung von 80 statt 100 % schätzen, aber doch nicht nur 50. Dann könnte Nvidia die ja gleich ganz weglassen.
 
naja, aber dann müsste ja die ingame-leistung bei 36tflops massiv höher sein, als noch bei der 2080ti mit nur gerade 13.5tflops.
da passen halt die 18tflops voel besser zur erreichten leisung.
 
Na ja, die, für Spiele hauptsächlich wichtigen, FP32-Einheiten sind schon in doppelter Anzahl vorhanden, nur die INT32-Einheiten nur einfach.
Nee, es gibt in Amperes Streaming Multiprozessoren 64 reine FP32-ALUs (wie bei Turing) dazu gibt es dann nochmal 64 ALUs, die beides können FP32 oder INT32. In dem Fall, wo nur FP32 gerechnet werden, hat Ampere mit 128 also doppelt so viele FP32-ALUs wie Turing, wird gleichzeitig auch IINT32 gerechnet, bleibt es bei 64 FP32 ALUs.
Zumindest habe ich das so verstanden, bitte korrigiert mich, falls ich falsch liege.
 
Nee, es gibt in Amperes Streaming Multiprozessoren 64 reine FP32-ALUs (wie bei Turing) dazu gibt es dann nochmal 64 ALUs, die beides können FP32 oder INT32. In dem Fall, wo nur FP32 gerechnet werden, hat Ampere mit 128 also doppelt so viele FP32-ALUs wie Turing, wird gleichzeitig auch IINT32 gerechnet, bleibt es bei 64 FP32 ALUs.
Zumindest habe ich das so verstanden, bitte korrigiert mich, falls ich falsch liege.

Ganz so schwarz/weiß ist es nicht. Für jede Recheneinheit kann entschieden werden, ob sie im 2x fp32 oder im 1xfp32 + 1xInt32 Modus läuft. Es wird nicht die gesamte GPU in einem dieser Modi betrieben. D.h. es kommt darauf an, dass der Treiber die Rechenlast möglichst intelligend aufteilt. Je mehr FP32 Last vorliegt, desto leichter wird das. Wenn weniger als 50% der Rechenoperationen FP32 benötigen, ist die Leistung praktisch identisch mit Turing, aber jedes Prozent darüber gibt es quasi "kostenlos" ohne Performance-Verlust, wenn man es optimal auf die Recheneinheiten aufgeteilt bekommt.
 
naja, aber dann müsste ja die ingame-leistung bei 36tflops massiv höher sein, als noch bei der 2080ti mit nur gerade 13.5tflops.
da passen halt die 18tflops voel besser zur erreichten leisung.
Deine Aussage bedeutet also, dass die Nvidia-Ingenieure unfähig sind und bei den INT32/FP32-Einheiten, die FP32-Fähigkeit auch hätten weglassen können, oder wie ist das nun zu verstehen?
 
Deine Aussage bedeutet also, dass die Nvidia-Ingenieure unfähig sind und bei den INT32/FP32-Einheiten, die FP32-Fähigkeit auch hätten weglassen können, oder wie ist das nun zu verstehen?

keine ahnung wie du auf diesen schund kommst?
die leute sind alles andere als unfähig und machen einen tollen job mit ihrer hardware.
🤨

aber die 36tflops sind imo sehr theoretisch, haben nicht viel mit der tatsächlich auf die strasse gebrachten leistung zu tun und dürften wohl eine klassische marketing-zahl sein.
 
aber die 36tflops sind imo sehr theoretisch, haben nicht viel mit der tatsächlich auf die strasse gebrachten leistung zu tun und dürften wohl eine klassische marketing-zahl sein.
Dieses.
Schöngerechnet weil ne höhere Zahl ja immer besser ist. Funktioniert ja auch direkt, wenn ich sehe was Thy so schreibt.
Für jemand der sich nicht mit anderen darüber unterhält ist das dann eine in Stein gemeißelte Wahrheit.
Für jede Recheneinheit kann entschieden werden, ob sie im 2x fp32 oder im 1xfp32 + 1xInt32 Modus läuft.
Da hab ich noch ein paar Fragen zu, weil ansich liest sich das für so nen Otto Normalo wie mich phänomenal clever.

Kann ich das für jede einzelne ALU einstellen oder nur für den kompletten "Block"?
Könnte man die denn theoretisch in ner 48/16 Konfiguration laufen lassen? Also 64+48 FP32 + 16 INT?
Was spricht dagegen die anderen 64 ALUs nicht auch als INT/FP auszuführen? Damit hätte man doch je nach Anwendung die optimale Leistung.
 
Für jede Recheneinheit kann entschieden werden, ob sie im 2x fp32 oder im 1xfp32 + 1xInt32 Modus läuft.
Für jede ALU einzeln oder für jeden SM einzeln? Ich habe von Chipdesign wenig Ahnung und weiß nicht, ob die ALUs im SM alle einzeln gefüttert werden. Falls nicht, könnte das das Nadelöhr sein, warum die theoretisch mögliche Leistung in den Spielen nicht ankommt. Oder es liegt einfach daran, dass die Treiber oder die Spiele/Engines damit noch nicht umgehen können. Falls das eine Softwaresache sein sollte, wird Nvidia das sicherlich schnell angehen und zumindest bei neuen AAA Titeln, wo Nvidia mitarbeitet, sollte die Leistung dann drastisch steigen.
 
@HerrRossi In einem anderen Thread wurde das mal wunderbar durch @gerTHW84 erklärt.

 
Danke, muss ich mir in Ruhe ansehen.
 
Es ist die Rede von "Funktionsblock" der entweder im 2x FP32 oder 1xFP16 + 1xFP32 Modus betrieben wird. Wie feingranular ein solcher "Funktionsblock" ist, kann ich nicht sagen.

Aber: Es werden ja bei einer GPU niemals einzelne Operationen ausgeführt, sondern immer in einer großen Matritze, also parallel mit vielen vielen gleichartigen Operationen gleichzeitig. Das ist ja die Stärke, warum GPUs so viel stärker in diesem Bereich sind, als CPUs.

D.h. es kommt darauf an, wie diese Matritzenoperationen verteilt sind. Wenn viele davon auch INT nutzen, dann laufen sie "nur" mit der Effizienz wie bei Turing, je mehr davon FP32 nutzen und parallel ausgeführt werden können, desto mehr Vorteil hat Ampere.

Das Speichereinterface und die ROPs limitieren aber natürlich trotzdem immer. Deswegen wird die FLOP Zahl, auch bei einer Anwendung die rein nur FP32 nutzt und bei die FLOPs voll genutzt werden können, trotzdem keine verdopplung der End-Leistung bringen. So einfach ist das nie!

Deswegen ist aber die FLOPs Angabe dennoch richtig, und sie ist aber nur genauso aussagekräftig wie jede andere FLOPs Angabe, die immer nur von bestimmten, optimalen Bedingunen ausgeht, auch bei AMD. Was auch der Grund ist, waum AMD historisch den angegebene FLOP Vorteil gegenüber NVidia nie auf die Straße bringen konnte.
 
Kann ich das für jede einzelne ALU einstellen oder nur für den kompletten "Block"?
Ich habe keine Informationen dazu gesehen, glaube auch nicht, dass NVidia dazu was veröffentlicht hat. Ich schätze, dass die Verteilung der Aufgaben an die ALUs durch eine Hardware-Einheit, den Scheduler, erfolgt. Ich halte es für möglich, dass der das für jede einzelne ALU in einem Taktzyklus kann, der mäßige Gaming-Zuwachs spricht aber eher dagegen. Vielleicht liegt das Bottleneck aber auch woanders. >10000 Shader muss man auch erst mal sinnvoll füttern.
Was spricht dagegen die anderen 64 ALUs nicht auch als INT/FP auszuführen? Damit hätte man doch je nach Anwendung die optimale Leistung.
Jeder zusätzliche Transistor kostet Chipfläche, die teuer ist, und Strom. Also macht man das so ausgewogen wie möglich. Die meisten Anwendungen brauchen eben viel mehr FP32.
 
Danke @Andy
Der Thread ist an mir vorbei gegangen.
 
Dieses.
Schöngerechnet weil ne höhere Zahl ja immer besser ist. Funktioniert ja auch direkt, wenn ich sehe was Thy so schreibt.
Ich habe sehr wohl verstanden, wie die Funktionseinheiten bei Ampere verteilt sind und eben deswegen kann ich solche Aussagen nicht einfach so stehen lassen, weil eben in vielen Fällen deutlich mehr Rechenleistung zur Verfügung steht, als der halbierte Tflops-Wert.
Ich muss mich nicht von jemanden belehren lassen, der andere Posts unreflektiert als Schund bezeichnet.
 
Ich habe sehr wohl verstanden, wie die Funktionseinheiten bei Ampere verteilt sind und eben deswegen kann ich solche Aussagen nicht einfach so stehen lassen, weil eben in vielen Fällen deutlich mehr Rechenleistung zur Verfügung steht, als der halbierte Tflops-Wert.
Ich muss mich nicht von jemanden belehren lassen, der andere Posts unreflektiert als Schund bezeichnet.


ich habe dich nicht belehrt.

und mit schund habe ich deine interpretation meines posts gemeint. nichts anderes .
 
durch die Klarstellung von huberei, auf was "Schund" bezogen war, ist das nun geklärt, bitte back to topic
 
Ich muss mich nicht von jemanden belehren lassen, der andere Posts unreflektiert als Schund bezeichnet.
Verzeih' mir das bitte. Ich bezog mich zusammenhangslos auf den Post hier, der sich eben liest wie frisch aus Reddit.
Das war nicht auf dich bezogen sondern nur auf die Formulierung. Hätt ich das Zitat mit reingepackt, wär das evtl. klarer geworden.
Entschuldige bitte, das kam schlicht falsch rüber und war nicht persönlich auf dich gemünzt.
Was ist das denn für eine Rechnung? Bei Nvidia halbierst du den TFlops-Wert und bei AMD nicht? Ich mach mir die Welt, wie sie mir gefällt, oder wie?
 
Oben Unten