Nemotron drei Nano Omni vereint Sehen, Hören und Sprache in einem einzigen Chip

14. May 2026 Veröffentlicht | Aus dem Spanischen übersetzt

Nvidia hat ein KI-Modell vorgestellt, das Seh-, Audio- und Sprachfähigkeiten in einer einzigen Architektur vereint. Im Gegensatz zu traditionellen multimodalen Systemen, die jeden Kanal separat verarbeiten, vereinheitlicht Nemotron 3 Nano Omni die Informationen, um nachzuahmen, wie Menschen Reize wahrnehmen. Es ist für physische Robotik und die Konvergenz zwischen der realen und der digitalen Welt konzipiert und ermöglicht natürlichere und schnellere Interaktionen.

Ein silberner Chip strahlt blaue Lichtstrahlen aus und verbindet ein Auge, ein Ohr und einen Mund auf einem digitalen Hintergrund.

Vereinheitlichung sensorischer Kanäle für agilere Roboter 🤖

Das Modell arbeitet mit einer Architektur, die visuelle Daten, Töne und Text gleichzeitig in Echtzeit verarbeitet. Dies beseitigt die typischen Engpässe von Systemen, die separate Module kombinieren. Durch die Synchronisierung der Eingaben mehrerer Sensoren reagiert das Modell mit geringerer Latenz. Für Robotikanwendungen bedeutet dies, dass ein mechanischer Arm ein Objekt sehen, einen verbalen Befehl hören und seine Bewegung ohne Zwischenpausen anpassen kann. Nvidia gibt an, dass diese Integration den Energieverbrauch senkt und die Präzision in dynamischen Umgebungen verbessert.

Der Roboter, der dich hört, dich sieht und trotzdem deinen Sarkasmus nicht versteht 😅

Jetzt wird dein Saugroboter nicht nur gegen die Möbel stoßen, sondern er kann dich auch Stopp! schreien hören und weiter saugen, weil er deinen Ton mit einem Schlaflied verwechselt hat. Immerhin verarbeitet er alles gleichzeitig, wie ein Kellner, der die Bestellung aufnimmt, dich verächtlich ansieht und dir die kalte Suppe in einer einzigen Bewegung serviert. Die digitale Konvergenz verspricht Roboter, die uns verstehen, aber sie werden wahrscheinlich weiterhin unsere Andeutungen ignorieren.