Nemotron 3 Nano Omni 统一视觉、音频与语言于单芯片

Nvidia 推出了一款人工智能模型，将视觉、音频和语言能力集成在单一架构中。与传统的多模态系统分别处理每个通道不同，Nemotron 3 Nano Omni 统一了信息，以模仿人类感知刺激的方式。它专为物理机器人技术以及现实世界与数字世界的融合而设计，能够实现更自然、更快速的交互。

统一感官通道，打造更敏捷的机器人 🤖

该模型采用一种架构，能够同时实时处理视觉数据、声音和文本。这消除了典型的多模块组合系统中的瓶颈。通过同步多个传感器的输入，模型能以更低的延迟做出响应。对于机器人应用而言，这意味着机械臂可以看见物体、听到语音指令，并无需中间停顿即可调整其动作。Nvidia 声称，这种集成降低了能耗，并提高了在动态环境中的精度。

机器人能听能看，却依然不懂你的讽刺 😅

现在，你的扫地机器人不仅会撞到家具，还能听到你大喊停下！，却因为把你的语气误听成摇篮曲而继续吸尘。当然，至少它能同时处理所有事情，就像一个服务员一边记单、一边鄙视地看着你、一边把冷汤端上来，动作一气呵成。数字融合承诺了能理解我们的机器人，但它们很可能仍然会无视我们的暗示。