Computex Gaming Grafikkarten News Redaktion

NVIDIA treibt den Ausbau der „AI-PC“-Plattform voran: Lokale Inferenz, TensorRT und neue Software-Ökosysteme

Im Rahmen der Computex 2025 hat NVIDIA seinen modular aufgebauten Software-Stack für sogenannte „AI PCs“ vorgestellt – ein Konzept, das in erster Linie darauf abzielt, handelsübliche PC-Systeme mit RTX-Grafikkarten in lokal einsatzfähige KI-Rechenstationen zu verwandeln. Der präsentierte Stack setzt sich aus mehreren Komponenten zusammen, die auf verschiedenen Ebenen des Workflows ineinandergreifen: CUDA als Programmierschnittstelle und Basisschicht für paralleles Rechnen auf GPUs, TensorRT als optimiertes Inferenz-Backend, OptiX für raytracinggestützte Bildberechnung, Maxine für Audio- und Video-KI-Features, Riva für Sprach- und Textverarbeitung sowie Broadcast SDKs für Streaming- und Kommunikationsanwendungen. Ergänzt wird dieser Stack durch eine Vielzahl spezialisierter Software Development Kits (SDKs), die sich an Entwickler, Kreativschaffende und KI-Forscher richten.

Das erklärte Ziel besteht darin, die zunehmende Nachfrage nach generativer KI-Rechenleistung direkt auf dem Endgerät zu bedienen – ohne ständige Abhängigkeit von Cloud-Backends oder Internetverbindungen. Die lokale Ausführung sogenannter Inferenzmodelle – also der Berechnung auf Basis bereits trainierter neuronaler Netzwerke – soll damit auch auf Consumer-Systemen möglich werden, sofern eine RTX-Grafikkarte vorhanden ist. NVIDIA positioniert seine AI-PC-Plattform damit als logische Fortführung des Trends zur „Edge-Inferenz“: Rechenaufgaben werden nicht mehr zwangsläufig zentral in Rechenzentren durchgeführt, sondern direkt auf dem Nutzergerät, was nicht nur Latenzen reduziert, sondern auch Datenschutzbedenken adressiert.

Der Stack wurde speziell dafür optimiert, selbst komplexe Modelle wie große Sprachmodelle (LLMs), Bildgeneratoren oder multimodale KI-Applikationen effizient auf GPUs zu betreiben. TensorRT übernimmt hierbei die Rolle eines Inferenzbeschleunigers, der trainierte Modelle für die jeweilige Hardware vorkompiliert und zur Laufzeit GPU-spezifisch justiert. Damit sollen laut NVIDIA auch anspruchsvolle Modelle wie Llama 3, Mistral oder RAG-Systeme ohne dedizierte Serverhardware genutzt werden können – etwa in Entwicklungsumgebungen, interaktiven Tools oder Offline-Anwendungen. Anders als klassische Cloud-Konzepte, bei denen die Rechenlast auf entfernte Server ausgelagert wird, steht bei AI PCs die Kontrolle über Daten und Rechenprozesse lokal im Vordergrund.

Die Präsentation auf der Computex deutet außerdem darauf hin, dass NVIDIA seine bestehende Software-Infrastruktur zunehmend modularisiert, um sowohl Endanwender als auch professionelle Entwickler abzuholen. So lassen sich einzelne Komponenten des AI-Stacks flexibel in bestehende Workflows integrieren – etwa über Containerlösungen (wie NIMs), Python-Bindings oder über dedizierte Plug-in-Systeme. Gleichzeitig wird die Unterstützung für Entwicklerwerkzeuge wie Visual Studio Code, ComfyUI oder generative Skriptumgebungen ausgebaut.

Langfristig verfolgt NVIDIA damit die Strategie, die GPU nicht nur als Beschleuniger für Grafikdarstellung oder Deep Learning zu positionieren, sondern als universellen KI-Prozessor für hybride Desktop- und Workstation-Umgebungen. Die Computex 2025 dient in diesem Zusammenhang weniger als Plattform für neue Hardwareinnovationen, sondern vielmehr als Manifest für die Verschiebung der Rechenlogik – von der Cloud zurück in die Endgeräte. AI PCs sind damit nicht nur ein Marketingbegriff, sondern könnten sich perspektivisch als neue Kategorie zwischen Gaming-PC und Workstation etablieren.

TensorRT für RTX: Optimierung der Inferenzleistung

Mit „TensorRT für RTX“ präsentiert NVIDIA im Zuge der Computex 2025 ein weiterentwickeltes Inferenz-Backend, das gezielt auf Consumer- und Entwicklergeräte mit RTX-Grafikkarten zugeschnitten ist. Im Kern handelt es sich dabei um eine Variante des aus dem Rechenzentrumsbereich bekannten TensorRT-Frameworks, nun aber mit Fokus auf lokale, GPU-beschleunigte Ausführung von KI-Modellen im Endanwenderbereich. Die Besonderheit liegt in der sogenannten Just-in-Time-Optimierung: Modelle werden nicht nur einmalig kompiliert, sondern dynamisch an die jeweilige RTX-GPU angepasst, einschließlich Architekturvarianten, Speicherausbau und verfügbarer Recheneinheiten.

Laut Unternehmensangaben ermögliche „TensorRT für RTX“ eine bis zu doppelt so hohe Inferenzleistung im Vergleich zu Microsofts DirectML – ein API-Framework, das in Windows-Umgebungen für KI-Beschleunigung genutzt wird. Diese Steigerung beruhe nicht nur auf effizienterer Ausnutzung der CUDA-Kerne und Tensor Cores, sondern auch auf optimierten Graph-Zusammenfassungen, Quantisierungen und Laufzeitreduktionen. Gleichzeitig werde durch aggressive Optimierungen auch die resultierende Modellgröße reduziert – teils um bis zu 70 Prozent. Dies sei insbesondere bei großen Sprachmodellen (LLMs) oder multimodalen Modellen von Vorteil, deren Speicherbedarf bislang häufig eine Hürde für lokale Ausführung darstellte.

Ein weiterer Vorteil ergibt sich aus der breiten Kompatibilität: TensorRT für RTX ist laut NVIDIA für alle RTX-Grafikkarten verfügbar – unabhängig von Generation und Leistungsklasse. Das umfasst sowohl ältere Turing- und Ampere-Modelle als auch die aktuellen Ada- und Blackwell-Chips. Damit sei es erstmals möglich, auch auf Mittelklasse-GPUs komplexe KI-Modelle lokal auszuführen – etwa für Textgenerierung, Spracherkennung, 3D-Content-Synthese oder Bildanalyse.

Der Entwicklerworkflow ist dabei gezielt auf einfache Integration ausgerichtet: Modelle, die etwa im ONNX-Format (Open Neural Network Exchange) vorliegen, können über vorbereitete Toolchains in TensorRT-kompatible Binärpakete konvertiert werden. NVIDIA stellt dazu sowohl ein SDK als auch vorkonfigurierte Referenzumgebungen zur Verfügung, inklusive Kompatibilität zu beliebten Entwicklungsplattformen wie PyTorch, TensorFlow und JAX. Ergänzend dazu sollen voroptimierte Varianten populärer Modelle wie Llama 3.1, Deepseek, Mistral oder Riva direkt über den hauseigenen Hub (build.nvidia.com) zugänglich gemacht werden.

Damit geht NVIDIA einen deutlichen Schritt in Richtung Demokratisierung von KI-Inferenz auf dem Endgerät. TensorRT für RTX könnte sich – entsprechende Softwareunterstützung vorausgesetzt – zu einem Grundbaustein moderner lokaler Workflows entwickeln, etwa für Entwickler kleinerer LLMs, experimentelle GUI-Anwendungen oder Content Creators, die auf generative Modelle zurückgreifen möchten, ohne Cloud-Latenzen oder Datensicherheitsprobleme in Kauf nehmen zu müssen. Kompatibilität besteht mit allen RTX-Grafikkarten – vom High-End bis zur Einstiegsklasse.

Softwareintegration: CUDA überall

Im Mai 2025 wurden im Rahmen von NVIDIAs AI-PC-Initiative fünf Softwarepakete als neue Integrationspartner des erweiterten CUDA- und RTX-Software-Stacks vorgestellt. Diese Anwendungen stammen aus unterschiedlichen Bereichen – von der Videobearbeitung über Rendering bis hin zu Echtzeit-Kommunikation – und stehen exemplarisch für die zunehmende Verlagerung komplexer KI-Funktionalitäten vom Rechenzentrum auf lokal betriebene RTX-Hardware.

LM Studio ist eine Entwicklungsumgebung zur lokalen Ausführung großer Sprachmodelle (LLMs) mit nutzerdefinierten Prompts, Modifikationen und Visualisierungen. Laut NVIDIA habe die neueste Integration von CUDA 12.8 in Verbindung mit TensorRT eine bis zu 30 % höhere Inferenzleistung im Vergleich zu bisherigen Versionen ermöglicht. Besonders erwähnenswert ist hierbei, dass LM Studio auch quantisierte Versionen von Llama-3-Modellen sowie Mistral 7B unterstützt – Modelle, die bislang in vielen Fällen eine dedizierte Cloudumgebung erforderten. Durch die GPU-Beschleunigung soll es nun möglich sein, solche Modelle auch auf Consumer-Hardware mit RTX 30- oder 40-Serie performant auszuführen.

Topaz Video AI, eine weit verbreitete Anwendung zur KI-gestützten Videobearbeitung (Upscaling, Rauschminderung, Bewegungsglättung), wurde im Mai ebenfalls CUDA-beschleunigt. Der Hersteller Topaz Labs betont dabei insbesondere die Vorteile der neuen Tensor-Operationen, die über CUDA zugänglich sind. Die Unterstützung der RTX-GPUs soll nicht nur zu verkürzten Renderzeiten führen, sondern auch bei der Nutzung generativer Funktionen – etwa zur Framerateninterpolation oder Objektverfolgung – für eine merklich höhere Ausgabequalität sorgen.

Auch Bilibili, eine der größten chinesischen Video-Plattformen mit über 300 Millionen monatlichen Nutzern, wurde mit NVIDIAs Broadcast SDK ausgestattet. Die Integration erlaubt Streamern und Content Creators den Einsatz von KI-Effekten wie Hintergrundunschärfe, Rauschunterdrückung oder automatischer Kameraverfolgung – in Echtzeit und direkt auf dem Endgerät. Das Feature richtet sich primär an semiprofessionelle Nutzergruppen, die auf eine einfach zugängliche Verbesserung ihrer Videoausgabe angewiesen sind.

Im Bereich der professionellen Visualisierung wurden zudem zwei weitere Plattformen genannt: Autodesk VRED, eine Software für High-End-Visualisierungen in der Automobilindustrie, und Chaos Enscape, ein weit verbreitetes Echtzeit-Rendering-Tool in der Architektur- und Bauplanung. Beide Anwendungen unterstützen nun DLSS 4, wodurch insbesondere bei interaktiven Szenen mit Path Tracing oder komplexer Materialstruktur deutliche Performancegewinne erwartet werden. Der Einsatz von DLSS 4 ist hierbei nicht nur auf Spiele beschränkt, sondern erweitert sich zunehmend auf industrielle und kreative Anwendungsbereiche.

Diese Entwicklungen dokumentieren eine strategisch motivierte Ausweitung RTX-spezifischer Funktionen auf professionelle Softwarelösungen. Gleichzeitig bleibt jedoch offen, in welchem Umfang diese Applikationen tatsächlich ohne Cloud-Unterstützung auskommen und ob die gesamte Inferenzpipeline lokal auf der GPU abgewickelt wird. In vielen Fällen – etwa bei Lizenzen für große Modelle oder externen Datenquellen – dürften Hybridlösungen bestehen bleiben. Dennoch markiert die zunehmende Implementierung von CUDA, TensorRT und DLSS 4 in Drittanwendungen einen klaren Schritt in Richtung einer lokal souveränen KI-Nutzung auf Consumer-Hardware.

NIMs: Microservices für KI-Modelle

Ein weiteres zentrales Element im Rahmen von NVIDIAs AI-PC-Initiative sind die sogenannten „NIMs“ – eine Abkürzung für NVIDIA Inference Microservices. Dabei handelt es sich um modular aufgebaute, vorgefertigte Containerlösungen, die speziell für eine schnelle, lokal ausführbare Integration von KI-Funktionalität in eigene Softwareumgebungen konzipiert wurden. Jeder dieser Microservices enthält ein quantisiertes KI-Modell, eine vollständige Inferenzpipeline mit sämtlichen Abhängigkeiten, Bibliotheken sowie standardisierte Schnittstellen (APIs), über die der Zugriff in Anwendungen und Skripte erfolgen kann.

Die Bereitstellung erfolgt containerisiert – zumeist über OCI-konforme Formate wie Docker oder Podman – und ist damit sowohl auf Windows- als auch auf Linux-Systemen einsatzfähig. NVIDIA bewirbt diese Architektur explizit als plattformoffen, sofern eine RTX-Grafikkarte als Recheneinheit zur Verfügung steht. Unterstützt werden RTX-Modelle ab Turing (RTX 20er-Serie) aufwärts, wobei die Inferenzgeschwindigkeit und Speicheranforderung stark vom jeweils eingebundenen Modell abhängig sind.

Inhaltlich deckt das aktuelle NIM-Portfolio ein breites Spektrum an Anwendungsfeldern ab:
Zu den verfügbaren Modellen zählen unter anderem:

  • Llama 3.1 (8B) und Mistral 7B – zwei weit verbreitete Sprachmodelle (LLMs), die für Textgenerierung, Prompt-Parsing und semantisches Retrieval verwendet werden können.

  • YOLOX – ein Echtzeit-Objekterkennungsmodell, das häufig im Bereich der automatisierten Bildanalyse oder bei Robotics-Projekten zum Einsatz kommt.

  • PaddleOCR – ein für Multilingualität optimiertes OCR-Modell zur Texterkennung in Bildern und Scans.

  • NV CLIP – ein multimodales Modell zur Bild-Text-Verknüpfung, das etwa für Bildbeschreibung, Captioning oder visuelles Retrieval eingesetzt werden kann.

  • Riva Parakeet und Maxine Voice Studio – Module für automatische Spracherkennung (ASR) und Text-to-Speech (TTS), inklusive Stimmenanpassung und Timing-Synthese.

Die NIMs lassen sich entweder direkt über die Plattform build.nvidia.com oder über Partner-Integrationen wie HuggingFace, GitHub oder Docker Hub beziehen. Laut NVIDIA sind die Modelle vollständig optimiert für TensorRT und CUDA, sodass sie auch auf Single-GPU-Systemen mit begrenzten Ressourcen performant arbeiten sollen – vorausgesetzt, die VRAM-Anforderungen werden erfüllt. Eine Integration in bestehende Softwareprojekte ist über RESTful APIs sowie Python- oder C++-Bindings vorgesehen.

Im Gegensatz zu klassischen SDKs oder Frameworks verfolgt NVIDIA mit den NIMs einen konfigurationsarmen Ansatz: Entwickler sollen in wenigen Schritten ein lauffähiges Setup erhalten, ohne sich mit Build-Prozessen, Abhängigkeiten oder Hardwarekonfigurationen im Detail beschäftigen zu müssen. Gleichzeitig bietet das System eine gewisse Modularität: So lassen sich mehrere NIMs parallel betreiben, in verteilte Architekturen einbinden oder an bestehende Automatisierungsumgebungen anschließen.

Damit positionieren sich die NVIDIA Inference Microservices als Brückentechnologie zwischen lokal betriebener KI-Infrastruktur und cloudbasierten Inferenzdiensten. Gerade für Entwickler, Startups oder Forschungseinrichtungen, die Datenschutz, Latenz oder Betriebskosten selbst kontrollieren möchten, bieten die NIMs eine technische Alternative zur vollständigen Cloudbindung – ohne auf die Performance moderner KI-Modelle verzichten zu müssen.

G-Assist: Der persönliche GPU-Butler?

Eher auf Endanwender und Consumer-orientierte Szenarien zielt das Projekt „G-Assist“ ab, das NVIDIA auf der Computex 2025 als modulares Assistenzsystem vorgestellt hat. Im Unterschied zu den eher entwickler- oder produktionsfokussierten Komponenten des AI-PC-Stacks verfolgt G-Assist das Ziel, eine alltagsnahe, interaktive Schnittstelle zwischen Nutzer und PC-Anwendung zu schaffen – vergleichbar mit einem konfigurierbaren Co-Piloten, der sich über verschiedene Plug-ins individuell anpassen lässt.

Die Plattform basiert auf einer offenen Plug-in-Architektur, die es erlaubt, Funktionsmodule für spezifische Aufgaben wie Mediensteuerung, Informationsabfrage oder Systemautomation gezielt nachzuladen. In der Präsentation wurden exemplarisch folgende Einsatzbereiche gezeigt: Steuerung von Musik- und Streamingdiensten, webbasierte Recherchen über Kontextmenüs, Statusanzeigen für Livestreams, automatisierte In-Game-Kommandos, Systemsteuerung von Peripheriegeräten (wie Beleuchtung, Lüftung oder Makrotasten) sowie einfache IoT-Interaktionen im lokalen Netzwerk. Damit positioniert sich G-Assist klar im Grenzbereich zwischen Sprachassistenz, Overlay-Systemen und intelligentem UI-Erweiterungsframework.

Technisch setzt das System auf eine lokale Laufzeitumgebung, die über eine visuelle Oberfläche in die bestehende NVIDIA App (früher GeForce Experience) eingebettet ist. Nutzer können Plug-ins direkt dort aktivieren, konfigurieren und über ein Bewertungssystem austauschen. Die Entwicklung eigener Module wird über eine Schnittstelle ermöglicht, die sich unter anderem mit gängigen Tools wie ChatGPT verbinden lässt. NVIDIA stellt hierzu eine API-Dokumentation, GitHub-Vorlagen sowie eine Web-IDE bereit. Eine zentrale Verteilung und Diskussion von Erweiterungen ist über Discord vorgesehen, wodurch die Community einen zentralen Stellenwert im Ecosystem einnimmt.

Bemerkenswert ist, dass G-Assist zwar die Anbindung an große Sprachmodelle wie GPT vorsieht – insbesondere zur semantischen Interpretation von Nutzeranfragen oder zur Generierung kontextbezogener Antworten –, diese Funktionalität jedoch nicht Bestandteil des Systems selbst ist. Stattdessen versteht sich G-Assist als Framework zur Integration bestehender KI-Dienste, nicht als proprietäres Assistenzmodell. Der Nutzer entscheidet, ob Anfragen an lokale Modelle, die OpenAI-API, HuggingFace-Endpunkte oder eigene Tools weitergeleitet werden.

Diese bewusste Offenheit unterstreicht den eher experimentellen Charakter des Projekts: G-Assist will kein Ersatz für Alexa, Siri oder den Google Assistant sein, sondern eine modulare, auf den Desktopalltag zugeschnittene Ergänzung für technikaffine Nutzer, die sich ihre digitale Assistenzumgebung selbst zusammenstellen möchten. Gerade im Gaming-Umfeld, aber auch in kreativen oder produktionsnahen Workflows könnten sich hier künftig neue Anwendungsfelder erschließen – etwa durch situationsabhängige Automatisierungen, kontextbasierte Makros oder sprachgestützte Abläufe mit Rückmeldung in Echtzeit. Voraussetzung dafür bleibt allerdings ein gewisses technisches Verständnis seitens der Nutzer, insbesondere bei der Erstellung oder Erweiterung eigener Plug-ins.

Fazit: Kontinuität statt Überraschung

NVIDIA nutzt die Computex 2025 nicht für disruptive Ankündigungen, sondern setzt den strategischen Kurs der letzten Jahre konsequent fort. Mit der RTX 5060 wird das Blackwell-Lineup nach unten erweitert, DLSS 4 etabliert sich als Bindeglied zwischen Performance und Bildqualität. Der Ausbau generativer KI-Funktionalität auf RTX-GPUs wirkt ambitioniert, bleibt jedoch bislang ohne greifbare Metriken zur praktischen Relevanz abseits spezialisierter Anwendungen. Der Versuch, die GPU als universelles Rechenzentrum im Heim-PC zu positionieren, dürfte langfristig dennoch erfolgreich sein – sofern Nutzer jenseits des Gaming-Bereichs tatsächlich bereit sind, ihre Workflows entsprechend anzupassen.

Kommentar

Lade neue Kommentare

RAZORLIGHT

Veteran

385 Kommentare 295 Likes

Bedeutet, noch schlechtere Verfügbarkeit und noch höhere Preise.
Wenn ich mir anschaue wie fehlerhaft derzeitige AI Modelle noch sind... Die Bubble darf ruhig bald platzen. Zumindest für GPUs.

Antwort Gefällt mir

M
Mira Bellenbaum

Neuling

2 Kommentare 0 Likes

Sehr spannende Entwicklung. Finde schon Copilot genial.

Antwort Gefällt mir

Danke für die Spende



Du fandest, der Beitrag war interessant und möchtest uns unterstützen? Klasse!

Hier erfährst Du, wie: Hier spenden.

Hier kannst Du per PayPal spenden.

About the author

Igor Wallossek

Chefredakteur und Namensgeber von igor'sLAB als inhaltlichem Nachfolger von Tom's Hardware Deutschland, deren Lizenz im Juni 2019 zurückgegeben wurde, um den qualitativen Ansprüchen der Webinhalte und Herausforderungen der neuen Medien wie z.B. YouTube mit einem eigenen Kanal besser gerecht werden zu können.

Computer-Nerd seit 1983, Audio-Freak seit 1979 und seit über 50 Jahren so ziemlich offen für alles, was einen Stecker oder einen Akku hat.

Folge Igor auf:
YouTube   Facebook    Instagram Twitter

Werbung

Werbung