Nvidia 推出了一款人工智能模型,将视觉、音频和语言能力集成在单一架构中。与传统的多模态系统分别处理每个通道不同,Nemotron 3 Nano Omni 统一了信息,以模仿人类感知刺激的方式。它专为物理机器人技术以及现实世界与数字世界的融合而设计,能够实现更自然、更快速的交互。
统一感官通道,打造更敏捷的机器人 🤖
该模型采用一种架构,能够同时实时处理视觉数据、声音和文本。这消除了典型的多模块组合系统中的瓶颈。通过同步多个传感器的输入,模型能以更低的延迟做出响应。对于机器人应用而言,这意味着机械臂可以看见物体、听到语音指令,并无需中间停顿即可调整其动作。Nvidia 声称,这种集成降低了能耗,并提高了在动态环境中的精度。
机器人能听能看,却依然不懂你的讽刺 😅
现在,你的扫地机器人不仅会撞到家具,还能听到你大喊停下!,却因为把你的语气误听成摇篮曲而继续吸尘。当然,至少它能同时处理所有事情,就像一个服务员一边记单、一边鄙视地看着你、一边把冷汤端上来,动作一气呵成。数字融合承诺了能理解我们的机器人,但它们很可能仍然会无视我们的暗示。