Nvidia는 시각, 오디오 및 언어 기능을 단일 아키텍처에 통합한 인공지능 모델을 공개했습니다. 각 채널을 개별적으로 처리하는 기존의 멀티모달 시스템과 달리, Nemotron 3 Nano Omni는 인간이 자극을 인지하는 방식을 모방하기 위해 정보를 통합합니다. 이는 물리적 로봇 공학과 현실 세계 및 디지털 세계 간의 융합을 위해 설계되어, 보다 자연스럽고 빠른 상호 작용을 가능하게 합니다.
더 민첩한 로봇을 위한 감각 채널 통합 🤖
이 모델은 시각 데이터, 소리 및 텍스트를 실시간으로 동시에 처리하는 아키텍처로 작동합니다. 이는 개별 모듈을 결합하는 시스템의 일반적인 병목 현상을 제거합니다. 여러 센서의 입력을 동기화함으로써 모델은 더 낮은 지연 시간으로 응답합니다. 로봇 공학 응용 분야의 경우, 이는 기계 팔이 물체를 보고, 음성 명령을 듣고, 중간 지연 없이 동작을 조정할 수 있음을 의미합니다. Nvidia는 이러한 통합이 에너지 소비를 줄이고 동적 환경에서 정밀도를 향상시킨다고 밝혔습니다.
당신의 말을 듣고, 당신을 보지만, 여전히 당신의 비꼼을 이해하지 못하는 로봇 😅
이제 당신의 로봇 청소기는 가구에 부딪힐 뿐만 아니라, 당신이 그만! 하고 소리치는 것도 들을 수 있지만, 당신의 어조를 자장가로 착각하여 계속 청소할 것입니다. 그래도 적어도 모든 것을 동시에 처리할 수는 있습니다. 마치 주문을 받고, 당신을 경멸하는 눈빛으로 바라보며, 단 한 번의 동작으로 차가운 수프를 서빙하는 웨이터처럼 말이죠. 디지털 융합은 우리를 이해하는 로봇을 약속하지만, 아마도 우리의 빈정댐은 계속 무시할 것입니다.