NVIDIA RTX Voice im Test mit GeForce GTX und GeForce RTX: Tensor-Kerne gefangen im TBP-Korsett, nur die GTX nutzt CUDA

Nutzt RTX Voice wirklich die Tensor-Kerne? Das lässt sich leicht herausfinden und die ganzen Diskussionen darüber sind eigentlich auch müßig. Doch es ist viel interessanter zu sehen, warum beim Einsatz von RTX Voice Leistungseinbußen entstehen können und warum es Fälle gibt, wo dies nicht so stark auftritt. Dazu muss man allerdings NVIDIAs Power-Management verstehen und genau dort wird der heutige Test dann auch ansetzen. Und was ist nun mit der Vermutung, es wäre eh nur alles CUDA?

Es ist ja eigentlich ganz einfach. Man nimmt das RTX Voice Setup (Beta) und benennt die EXE-Datei des selbstenpackenden Installers wie immer in .ZIP um. Dann kann man den Inhalt auch ohne Installtion direkt entpacken oder sogar gleich im ZIP-Archiv editeren, indem man eine Zeile in einer Installationsdatei entfernt und fertig. Schon lässt sich das Programm auch auf Systemen mit nahezu beliebigen Nvidia-Grafikkarten installieren, die zumindest CUDA unterstützen müssen. Läuft auch, aber ich bin mir sehr sicher, dass es hier nur noch sich um einen reinen Fallback für die Entwickler handelt, den man später in der finalen Version wohl nicht mehr finden wird.

Der kleine Hack führte den einen oder anderen Leser natürlich zur Mutmaßung, das alles könnte ein neuer, insgeheim sogar RTX-freier Marketing-Stunt sein, bei dem normale CUDA-Cores am Werkeln sind und sonst nichts. Also quasi die Geisterstunde der Verschwörungstheoretiker. Das wiederum lässt sich auch ohne Alu-Hut relativ einfach herausfinden und sogar sehr einfach widerlegen. Doch warum bricht dann auch auf NVIDIAs RTX-Karten die Performance (meist) mehr oder weniger ein, wenn es doch die Tensor-Kerne richten sollen?

Auch dafür gibt es eine relativ simple Erklärung, nur muss man erst einmal darauf kommen. So clever es NVIDIA bei der Telemetrie auch anstellt, man hat sich quasi mit einer Sache dabei selbst ins Bein geschossen. Doch dazu komme ich gleich noch. Ich habe mich heute, vom Idle ausgehend, über diverse Spiele entlang gehangelt und konnte am Ende feststellen, dass auch NVIDIA die wundersame Vermehrung nicht hinbekommt. Diese Erkenntnis verwundert zwar nicht, aber man hätte es bei Grün durchaus auch cleverer handhaben können.

Idle: Tensor-Cores auf der RTX, CUDA Cores auf der GTX

Betrachten wir zunächst einmal eine GeForce GTX 1080 Ti und lassen RTX Voice im Idle laufen. Der Trick besteht nun darin, RTX Voice im Idle mit einer Aufgabe zu belasten und einmal den Zustand ohne und einmal mit aktivierten RTX Voice zu vergleichen. Links sehen wir folgerichtig die Last ohne und rechts mit RTX Voice. Warum ich das ohne Spiel gemacht habe? Die Antwort gibt es dann gleich bei der RTX-Karte, denn ist ist recht schwierig, die Aktivität der Tensor-Cores zu überwachen bzw. anzuzeigen.

Obwohl wir im Idle sind steigt die GPU-Last, also die der CUDA-Cores von 0% auf maximal 6%, wenn man Input und Output aktiviert hat. Gleichzeitig steigen die Taktraten der GPU und des Speichers und auch der Speicher wird voller. Die Leistungsaufnahme steigt um mehr als 40 Watt an. So weit, so logisch.

Und nun nehmen wir eine ähnlich leistungshungrige GeForce RTX 2080 Super und vergleichen ebenfalls mit RTX Voice Off (links) und On (rechts). Auch hier steigen die Taktraten an, der Speicher füllt sich und die Leistungsaufnahme geht um immerhin fast 35 Watt ebenfalls sehr deutlich nach oben. Man könnte nun also meinen, es wäre alles nur ein Trick und ebenfalls CUDA am Werk. Allerdings ist hier bei beiden Varianten die vom Sensor-Loop ausgelesene GPU-Last bei null Prozent.

Doch Kraft kommt nun mal von Kraftstoff und es beweist, dass auf der Karte etwas Anderes als die kontrollierbaren CUDA-Kerne die Arbeit erledigen muss und dass hier folgerichtig die Tensor-Kerne zum Einsatz kommen. Wer also immer schon einmal nach einem Test gesucht hat, wie man die Last bzw. die Leistungsaufnahme der Tensor-Cores ermitteln kann: im Idle geht das sogar mit RTX Voice, weil dadurch nämlich keine Grafik-Last entsteht. Einen ähnlichen Effekt kann man übrigens immer dann feststellen, wenn z.B. bei diversen Filtern die Bildbearbeitung oder das Videoschnittprogramm diese spezialisierten Kerne nutzt. Leistungsaufnahme hoch, GPU-Last angeblich bei null.

Testsystem und Aufbau

Ich nutze heute einmal den Aufbau mit dem AMD-System samt Ryzen 9 3950X, weil ich das Intel-System für gewisse Tests parallel laufen lassen muss. Den Mikrofoneingang belaste ich mit einem Endlos-Loop in Form einer Aufzeichnung aus einem gesprochenen Text und Tastaturgeklapper, den ich mit einem Player am Mikrofoneingang einspiele. Für den Ausgabe-Device nutze ich den Ingame-Sound, das reicht völlig aus für die maximal erzielbare Tensor-Last.

Symbolic Picture from igorsLAB: GPU, Motherboard and CPU Testing

Der Ausbau mit 32 GB ist soweit identisch mit dem aktuellen Intel-System und der Wechsel ist dem Weg der Erkenntnis in keinster Weise abträglich. Dieses System habe ich tabellarisch noch einmal im Detail aufgelistet:

Test System and Equipment
Hardware:	AMD Ryzen 9 3950X MSI MEG X570 Godlike 4x 8GB G.Skill FlareX DDR4 3200 1x 2 TByte Aorus (NVMe System SSD, PCIe Gen. 4) 1x Seagate FastSSD Portable USB-C Seasonic Prime 1200 Watt Titanium PSU
Cooling:	Alphacool Eisblock XPX (1151) Alphacool Eiswolf (modified) Thermal Grizzly Kryonaut
Case:	Lian Li T70, Raijintek Paean Open Benchtable
Monitor:	BenQ PD3220U
Power Consumption:	Non-contact direct current measurement on PCIe slot (riser card) Non-contact direct current measurement at the external PCIe power supply Direct voltage measurement at the respective connectors and at the power supply unit 2x Rohde & Schwarz HMO 3054, 500 MHz multichannel oscilloscope with memory function 4x Rohde & Schwarz HZO50, current clamp adapter (1 mA to 30 A, 100 KHz, DC) 4x Rohde & Schwarz HZ355, probe (10:1, 500 MHz) 1x Rohde & Schwarz HMC 8012, digital multimeter with memory function
Thermal Imager:	1x Optris PI640 + 2x Xi400 Thermal Imagers Pix Connect Software Type K Class 1 thermal sensors (up to 4 channels)
Acoustics:	NTI Audio M2211 (with calibration file) Steinberg UR12 (with phantom power for the microphones) Creative X7, Smaart v.7 Own anechoic chamber, 3.5 x 1.8 x 2.2 m (LxTxH) Axial measurements, perpendicular to the centre of the sound source(s), measuring distance 50 cm Noise emission in dBA (slow) as RTA measurement Frequency spectrum as graphic
OS:	Windows 10 Pro (1909, all Updates)