Компания Nvidia представила модель искусственного интеллекта, объединяющую возможности зрения, слуха и языка в единой архитектуре. В отличие от традиционных мультимодальных систем, обрабатывающих каждый канал по отдельности, Nemotron 3 Nano Omni унифицирует информацию, имитируя то, как человек воспринимает стимулы. Модель предназначена для физической робототехники и конвергенции реального и цифрового миров, обеспечивая более естественное и быстрое взаимодействие.
Объединение сенсорных каналов для более быстрых роботов 🤖
Модель работает на архитектуре, которая одновременно обрабатывает визуальные данные, звуки и текст в реальном времени. Это устраняет узкие места, типичные для систем, объединяющих отдельные модули. Синхронизируя входные данные от нескольких датчиков, модель реагирует с меньшей задержкой. Для робототехнических приложений это означает, что механическая рука может увидеть объект, услышать голосовую команду и скорректировать свое движение без промежуточных пауз. Nvidia утверждает, что такая интеграция снижает энергопотребление и повышает точность в динамических средах.
Робот, который слышит, видит, но всё равно не понимает твоего сарказма 😅
Теперь ваш робот-пылесос будет не только врезаться в мебель, но и сможет услышать ваш крик Стоп!, но продолжит пылесосить, приняв ваш тон за колыбельную. Правда, по крайней мере, он будет обрабатывать всё одновременно, как официант, который принимает заказ, смотрит на вас с презрением и подает холодный суп одним движением. Цифровая конвергенция обещает роботов, которые нас понимают, но, вероятно, они по-прежнему будут игнорировать наши намеки.