Nvidia 推出了一款人工智能模型,将视觉、音频和语言能力整合到单一架构中。与分别处理每个通道的传统多模态系统不同,Nemotron 3 Nano Omni 统一了信息,以模仿人类感知刺激的方式。它专为物理机器人技术以及现实世界与数字世界的融合而设计,能够实现更自然、更快速的交互。
统一感官通道,打造更敏捷的机器人 🤖
该模型采用一种架构,能够实时同时处理视觉数据、声音和文本。这消除了典型组合独立模块的系统中的瓶颈。通过同步多个传感器的输入,模型能够以更低的延迟做出响应。对于机器人应用而言,这意味着机械臂可以同时看到物体、听到口头指令并调整其动作,无需中间停顿。Nvidia 表示,这种集成降低了能耗,并提高了在动态环境中的精度。
机器人能听能看,却依然不懂你的讽刺 😅
现在,你的扫地机器人不仅会撞到家具,还能听到你大喊停下!,却因为把你的语气误认为是摇篮曲而继续吸尘。当然,至少它能同时处理所有事情,就像一个服务员一边记单,一边鄙视地看着你,同时用一个动作给你端上冷汤。数字融合承诺机器人能理解我们,但它们可能仍然会忽略我们的暗示。