Es ist die Rede von "Funktionsblock" der entweder im 2x FP32 oder 1xFP16 + 1xFP32 Modus betrieben wird. Wie feingranular ein solcher "Funktionsblock" ist, kann ich nicht sagen.
Aber: Es werden ja bei einer GPU niemals einzelne Operationen ausgeführt, sondern immer in einer großen Matritze, also parallel mit vielen vielen gleichartigen Operationen gleichzeitig. Das ist ja die Stärke, warum GPUs so viel stärker in diesem Bereich sind, als CPUs.
D.h. es kommt darauf an, wie diese Matritzenoperationen verteilt sind. Wenn viele davon auch INT nutzen, dann laufen sie "nur" mit der Effizienz wie bei Turing, je mehr davon FP32 nutzen und parallel ausgeführt werden können, desto mehr Vorteil hat Ampere.
Das Speichereinterface und die ROPs limitieren aber natürlich trotzdem immer. Deswegen wird die FLOP Zahl, auch bei einer Anwendung die rein nur FP32 nutzt und bei die FLOPs voll genutzt werden können, trotzdem keine verdopplung der End-Leistung bringen. So einfach ist das nie!
Deswegen ist aber die FLOPs Angabe dennoch richtig, und sie ist aber nur genauso aussagekräftig wie jede andere FLOPs Angabe, die immer nur von bestimmten, optimalen Bedingunen ausgeht, auch bei AMD. Was auch der Grund ist, waum AMD historisch den angegebene FLOP Vorteil gegenüber NVidia nie auf die Straße bringen konnte.