Av-ag: система, использующая звук для определения способов манипуляции объектами

Опубликовано 28.01.2026 | Перевод с испанского
Диаграмма, показывающая изображение чашки рядом с звуковой волной прихлёбывания; стрелки соединяют аудио с маской сегментации, выделяющей ручку чашки на изображении.

Av-ag: система, использующая звук для определения способов манипуляции объектами

Исследования в области компьютерного зрения исследуют новые способы понимания сцен. Инновационная система под названием AV-AG предлагает отличный подход: использовать звук действия для точного поиска и выделения частей объекта, с которыми можно взаимодействовать на изображении. Этот метод не зависит от того, чтобы объект был полностью виден, что решает проблемы неоднозначности или визуальной окклюзии. 🎯

Сила акустических подсказок

В отличие от систем, использующих текст или видео, аудио предоставляет прямые и немедленные семантические сигналы. Для обучения и тестирования этой способности исследователи создали первый набор данных AV-AG. Он включает записи звуков действий, соответствующие изображения и пиксельные аннотации, обозначающие манипулируемые области. Подмножество с объектами, не виденными во время обучения, позволяет оценить, как система обобщает на новые случаи, что является ключевым моментом для её практической полезности.

Ключевые компоненты набора данных:
  • Звуки конкретных действий (например: прихлёбывание, хватание, ударяние).
  • Изображения объектов, связанных с этими действиями.
  • Пиксельные аннотации, определяющие зоны взаимодействия.
  • Группа объектов, не виденных, для тестирования обобщения.
Звук может эффективно направлять визуальное понимание того, как мы взаимодействуем с объектами.

Архитектура модели AVAGFormer

Ядро системы — модель AVAGFormer, которая объединяет auditory и визуальную информацию. Она использует трансмодальный микшер, который интегрирует акустические подсказки с данными изображения семантически coherentно. Затем двухголовый декодер генерирует финальные маски сегментации. Эта архитектура продемонстрировала превосходство над предыдущими методами в задаче локализации регионов взаимодействия, направляемой аудио.

Поток обработки AVAGFormer:
  • Одновременный ввод изображения и аудиосигнала.
  • Семантически обусловленная трансмодальная фузия.
  • Декодирование в двух ветвях для предсказания точной маски.
  • Вывод пиксельной сегментации манипулируемой зоны.

Прямые применения в 3D-графике и симуляции

Для сообщества foro3d.com эта технология открывает конкретные перспективы. Она может помогать в генерации масок контакта или манипулируемых зон в 3D-моделях напрямую из аудиоподсказок, ускоряя настройку. В физической симуляции она может автоматически идентифицировать реалистичные точки захвата. Кроме того, она обогащает системы анимации и риггинга, предоставляя данные о том, как используются объекты. Также она может облегчить инструменты текстурирования, обнаруживающие функциональные поверхности, и вдохновить плагины, сочетающие аудио и зрение для большей coherentности между действиями, звуками и движениями в 3D-сценах. Таким образом, в следующий раз, когда персонаж правильно схватит чашку, заслуга может принадлежать простому звуку прихлёбывания. 🫖