Av-ag : un système qui utilise le son pour localiser comment manipuler des objets

Diagrama que muestra una imagen de una taza junto a una forma de onda de sonido de sorbo; flechas conectan el audio a una máscara de segmentación que resalta el asa de la taza en la imagen.

Av-ag : un système qui utilise le son pour localiser comment manipuler des objets

La recherche en vision par ordinateur explore de nouvelles façons de comprendre les scènes. Un système innovant, appelé AV-AG, propose une approche différente : utiliser le son d'une action pour trouver et délimiter avec précision les parties d'un objet avec lesquelles on peut interagir dans une image. Cette méthode ne dépend pas du fait que l'objet soit complètement visible, ce qui résout les problèmes d'ambiguïté ou d'occlusion visuelle. 🎯

Le pouvoir des indices acoustiques

Contrairement aux systèmes qui utilisent du texte ou de la vidéo, l'audio fournit des signaux sémantiques directs et immédiats. Pour entraîner et tester cette capacité, les chercheurs ont créé le premier ensemble de données AV-AG. Celui-ci inclut des enregistrements de sons d'actions, des images correspondantes et des annotations au niveau des pixels qui marquent les régions manipulables. Un sous-ensemble avec des objets non vus pendant l'entraînement permet d'évaluer comment le système généralise à des cas nouveaux, un point crucial pour son utilité pratique.

Composants clés de l'ensemble de données :

Sons d'actions spécifiques (ex : siroter, saisir, frapper).
Images des objets associés à ces actions.
Annotations pixelisées qui définissent les zones d'interaction.
Un groupe d'objets non vus pour tester la généralisation.

Le son peut guider efficacement la compréhension visuelle de la façon dont nous interagissons avec les objets.

Architecture du modèle AVAGFormer

Le cœur du système est le modèle AVAGFormer, qui fusionne les informations auditives et visuelles. Il utilise un mélangeur transmodal qui intègre les indices acoustiques avec les données de l'image de manière sémantiquement cohérente. Par la suite, un décodeur à deux têtes génère les masques de segmentation finaux. Cette architecture a démontré surpasser les méthodes antérieures dans la tâche de localiser les régions d'interaction guidées par l'audio.

Flux de traitement de l'AVAGFormer :

Entrée simultanée d'une image et d'un signal audio.
Fusion transmodale conditionnée sémantiquement.
Décodage en deux branches pour prédire le masque précis.
Sortie d'une segmentation pixelisée de la zone manipulable.

Applications directes en graphisme 3D et simulation

Pour la communauté de foro3d.com, cette technologie ouvre des perspectives concrètes. Elle peut assister à la génération de masques de contact ou de zones manipulables dans des modèles 3D directement à partir d'indices audio, accélérant la configuration. En simulation physique, elle peut identifier automatiquement des points de prise réalistes. De plus, elle enrichit les systèmes d'animation et de rigging en apportant des données sur la façon dont les objets sont utilisés. Elle peut également faciliter des outils de texturation qui détectent les surfaces fonctionnelles, et inspirer des plugins qui combinent audio et vision pour obtenir une plus grande cohérence entre actions, sons et mouvements dans des scènes 3D. Ainsi, la prochaine fois qu'un personnage saisira correctement une tasse, le mérite pourrait revenir à un simple son de sirotement. 🫖