
Av-ag:一个使用声音来定位如何操纵物体的系统
在计算机视觉研究中,正在探索理解场景的新方法。一个创新系统名为AV-AG,提出了一种不同的方法:利用声音来精确找到并界定图像中可以交互的物体部分。此方法不依赖于物体完全可见,从而解决了歧义或视觉遮挡问题。🎯
声学线索的力量
与使用文本或视频的系统不同,音频提供直接且即时的语义信号。为了训练和测试这种能力,研究人员创建了第一个AV-AG数据集。该数据集包括动作声音录音、相应图像以及标记可操纵区域的像素级标注。一个在训练期间未见过的物体子集允许评估系统对新案例的泛化能力,这是其实用性的关键点。
数据集的关键组件:- 特定动作的声音(例如:啜饮、抓取、敲击)。
- 与这些动作相关的物体图像。
- 定义交互区域的像素级标注。
- 一组未见过的物体用于测试泛化。
声音可以有效地指导我们对物体交互方式的视觉理解。
AVAGFormer模型架构
系统的核心是AVAGFormer模型,它融合了听觉和视觉信息。它使用跨模态混合器,以语义一致的方式将声学线索与图像数据整合。随后,一个双头解码器生成最终的分割掩码。此架构已在音频引导的交互区域定位任务中证明优于先前方法。
AVAGFormer的处理流程:- 同时输入图像和音频信号。
- 语义条件下的跨模态融合。
- 双分支解码以预测精确掩码。
- 输出可操纵区域的像素级分割。
在3D图形和模拟中的直接应用
对于foro3d.com社区,此技术开辟了具体前景。它可以从音频线索直接生成3D模型的接触掩码或可操纵区域,从而加速设置。在物理模拟中,它可以自动识别真实的抓取点。此外,它丰富了动画和绑定系统,提供物体使用方式的数据。它还可以促进检测功能表面的纹理工具,并启发结合音频和视觉的插件,以在3D场景中实现动作、声音和运动之间的更大一致性。因此,下次一个角色正确抓取杯子时,功劳可能归于一个简单的啜饮声。🫖