
Av-ag: система, использующая звук для определения способов манипуляции объектами
Исследования в области компьютерного зрения исследуют новые способы понимания сцен. Инновационная система под названием AV-AG предлагает отличный подход: использовать звук действия для точного поиска и выделения частей объекта, с которыми можно взаимодействовать на изображении. Этот метод не зависит от того, чтобы объект был полностью виден, что решает проблемы неоднозначности или визуальной окклюзии. 🎯
Сила акустических подсказок
В отличие от систем, использующих текст или видео, аудио предоставляет прямые и немедленные семантические сигналы. Для обучения и тестирования этой способности исследователи создали первый набор данных AV-AG. Он включает записи звуков действий, соответствующие изображения и пиксельные аннотации, обозначающие манипулируемые области. Подмножество с объектами, не виденными во время обучения, позволяет оценить, как система обобщает на новые случаи, что является ключевым моментом для её практической полезности.
Ключевые компоненты набора данных:- Звуки конкретных действий (например: прихлёбывание, хватание, ударяние).
- Изображения объектов, связанных с этими действиями.
- Пиксельные аннотации, определяющие зоны взаимодействия.
- Группа объектов, не виденных, для тестирования обобщения.
Звук может эффективно направлять визуальное понимание того, как мы взаимодействуем с объектами.
Архитектура модели AVAGFormer
Ядро системы — модель AVAGFormer, которая объединяет auditory и визуальную информацию. Она использует трансмодальный микшер, который интегрирует акустические подсказки с данными изображения семантически coherentно. Затем двухголовый декодер генерирует финальные маски сегментации. Эта архитектура продемонстрировала превосходство над предыдущими методами в задаче локализации регионов взаимодействия, направляемой аудио.
Поток обработки AVAGFormer:- Одновременный ввод изображения и аудиосигнала.
- Семантически обусловленная трансмодальная фузия.
- Декодирование в двух ветвях для предсказания точной маски.
- Вывод пиксельной сегментации манипулируемой зоны.
Прямые применения в 3D-графике и симуляции
Для сообщества foro3d.com эта технология открывает конкретные перспективы. Она может помогать в генерации масок контакта или манипулируемых зон в 3D-моделях напрямую из аудиоподсказок, ускоряя настройку. В физической симуляции она может автоматически идентифицировать реалистичные точки захвата. Кроме того, она обогащает системы анимации и риггинга, предоставляя данные о том, как используются объекты. Также она может облегчить инструменты текстурирования, обнаруживающие функциональные поверхности, и вдохновить плагины, сочетающие аудио и зрение для большей coherentности между действиями, звуками и движениями в 3D-сценах. Таким образом, в следующий раз, когда персонаж правильно схватит чашку, заслуга может принадлежать простому звуку прихлёбывания. 🫖