Av-ag: 소리를 이용해 물체 조작 방법을 탐지하는 시스템

Diagrama que muestra una imagen de una taza junto a una forma de onda de sonido de sorbo; flechas conectan el audio a una máscara de segmentación que resalta el asa de la taza en la imagen.

Av-ag: 소리를 사용하여 물체를 조작하는 방법을 위치 지정하는 시스템

컴퓨터 비전 연구는 장면을 이해하는 새로운 방법을 탐구합니다. 혁신적인 시스템인 AV-AG는 다른 접근 방식을 제안합니다: 행동의 소리를 사용하여 이미지에서 상호작용할 수 있는 물체의 부분을 정확하게 찾고 구분합니다. 이 방법은 물체가 완전히 보이는지에 의존하지 않아 모호성이나 시각적 폐색 문제를 해결합니다. 🎯

음향 단서의 힘

텍스트나 비디오를 사용하는 시스템과 달리, 오디오는 직접적이고 즉각적인 의미론적 신호를 제공합니다. 이 능력을 훈련하고 테스트하기 위해 연구자들은 최초의 AV-AG 데이터셋을 만들었습니다. 이 데이터셋에는 행동 소리 녹음, 해당 이미지, 조작 가능한 영역을 표시하는 픽셀 수준 주석이 포함됩니다. 훈련 중 보지 못한 물체의 하위 집합은 시스템이 새로운 사례에 얼마나 일반화되는지를 평가할 수 있게 하며, 이는 실용적 유용성을 위한 핵심 포인트입니다.

데이터셋의 주요 구성 요소:

특정 행동 소리 (예: 홀짝이는 소리, 잡는 소리, 치는 소리).
그 행동과 연관된 물체 이미지.
상호작용 영역을 정의하는 픽셀 주석.
일반화를 테스트하기 위한 보지 못한 물체 그룹.

소리는 물체와 상호작용하는 방식을 시각적으로 이해하는 데 효과적으로 안내할 수 있습니다.

AVAGFormer 모델의 아키텍처

시스템의 핵심은 청각 및 시각 정보를 융합하는 AVAGFormer 모델입니다. 초월적 믹서를 사용하여 음향 단서를 이미지 데이터와 의미론적으로 일관되게 통합합니다. 이후 두 개의 헤드를 가진 디코더가 최종 세그멘테이션 마스크를 생성합니다. 이 아키텍처는 오디오로 안내된 상호작용 영역 위치 지정 작업에서 이전 방법들을 능가하는 것으로 입증되었습니다.

AVAGFormer의 처리 흐름:

이미지와 오디오 신호의 동시 입력.
의미론적으로 조건화된 초월적 융합.
정확한 마스크 예측을 위한 두 갈래 디코딩.
조작 가능한 영역의 픽셀 세그멘테이션 출력.

3D 그래픽 및 시뮬레이션에서의 직접적 응용

foro3d.com 커뮤니티에게 이 기술은 구체적인 전망을 열어줍니다. 오디오 단서로부터 직접 3D 모델의 접촉 마스크나 조작 가능한 영역을 생성하여 설정을 가속화할 수 있습니다. 물리 시뮬레이션에서는 자동으로 현실적인 그립 지점을 식별할 수 있습니다. 또한 애니메이션 및 리깅 시스템을 풍부하게 하여 물체 사용에 대한 데이터를 제공합니다. 기능적 표면을 감지하는 텍스처링 도구를 용이하게 하고, 오디오와 비전을 결합하여 3D 장면에서 행동, 소리, 움직임 간의 더 큰 일관성을 달성하는 플러그인을 영감을 줄 수 있습니다. 이렇게 하면 다음에 캐릭터가 컵을 올바르게 잡을 때, 그 공로가 단순한 홀짝이는 소리일 수 있습니다. 🫖