Av-ag: एक सिस्टम जो ध्वनि का उपयोग करके वस्तुओं को कैसे हेरफेर करें, उनका पता लगाता है

2026 February 07 | स्पेनिश से अनुवादित
Diagrama que muestra una imagen de una taza junto a una forma de onda de sonido de sorbo; flechas conectan el audio a una máscara de segmentación que resalta el asa de la taza en la imagen.

Av-ag: एक सिस्टम जो ध्वनि का उपयोग करके वस्तुओं को कैसे मैनिपुलेट करें, इसका पता लगाता है

कंप्यूटर विज़न में शोध दृश्यों को समझने के नए तरीकों की खोज करता है। एक नवीन सिस्टम, जिसे AV-AG कहा जाता है, एक अलग दृष्टिकोण प्रस्तावित करता है: किसी क्रिया की ध्वनि का उपयोग करके एक छवि में वस्तु के उन हिस्सों को सटीक रूप से ढूंढना और सीमांकित करना जिनके साथ बातचीत की जा सकती है। यह विधि वस्तु के पूरी तरह से दृश्यमान होने पर निर्भर नहीं करती, जो अस्पष्टता या दृश्य अवरोध की समस्याओं को हल करती है। 🎯

ध्वनि संकेतों की शक्ति

पाठ या वीडियो का उपयोग करने वाले सिस्टमों के विपरीत, ऑडियो सीधी और तत्काल सांकेतिक संकेत प्रदान करता है। इस क्षमता को प्रशिक्षित और परीक्षण करने के लिए, शोधकर्ताओं ने पहला AV-AG डेटासेट बनाया। इसमें क्रियाओं की ध्वनि रिकॉर्डिंग, संबंधित छवियां और पिक्सेल स्तर की एनोटेशन शामिल हैं जो मैनिपुलेबल क्षेत्रों को चिह्नित करती हैं। प्रशिक्षण के दौरान न देखे गए वस्तुओं का एक सबसेट सिस्टम के नए मामलों में सामान्यीकरण करने की क्षमता का मूल्यांकन करने की अनुमति देता है, जो इसकी व्यावहारिक उपयोगिता के लिए महत्वपूर्ण बिंदु है।

डेटासेट के प्रमुख घटक:
ध्वनि वस्तुओं के साथ हम कैसे बातचीत करते हैं, इसकी दृश्य समझ को प्रभावी ढंग से निर्देशित कर सकती है।

AVAGFormer मॉडल की वास्तुकला

सिस्टम का मूल AVAGFormer मॉडल है, जो श्रव्य और दृश्य जानकारी को संलयन करता है। यह एक ट्रांसमॉडल मिक्सर का उपयोग करता है जो ध्वनि संकेतों को छवि डेटा के साथ सांकेतिक रूप से सुसंगत तरीके से एकीकृत करता है। उसके बाद, एक दो-हेड डिकोडर अंतिम सेगमेंटेशन मास्क उत्पन्न करता है। यह वास्तुकला ऑडियो-निर्देशित इंटरैक्शन क्षेत्रों को स्थानीयकरण करने के कार्य में पूर्व विधियों को पार करने में सक्षम सिद्ध हुई है।

AVAGFormer का प्रसंस्करण प्रवाह:

3D ग्राफिक्स और सिमुलेशन में प्रत्यक्ष अनुप्रयोग

foro3d.com समुदाय के लिए, यह तकनीक ठोस दृष्टिकोण खोलती है। यह 3D मॉडल्स में संपर्क मास्क या मैनिपुलेबल क्षेत्र उत्पन्न करने में सहायता कर सकती है, सीधे ऑडियो संकेतों से, सेटअप को तेज़ कर सकती है। भौतिक सिमुलेशन में, यह स्वचालित रूप से यथार्थवादी पकड़ने के बिंदुओं की पहचान कर सकती है। इसके अलावा, यह एनिमेशन और रिगिंग सिस्टम को समृद्ध करती है वस्तुओं के उपयोग के बारे में डेटा प्रदान करके। यह बनावट उपकरणों को सुविधाजनक बना सकती है जो कार्यात्मक सतहों का पता लगाते हैं, और प्लगइन्स को प्रेरित कर सकती है जो ऑडियो और विज़न को जोड़कर 3D दृश्यों में क्रियाओं, ध्वनियों और गतिविधियों के बीच अधिक सुसंगति प्राप्त करते हैं। इस प्रकार, अगली बार जब कोई चरित्र सही ढंग से एक कप पकड़े, तो श्रेय एक साधारण चूसने की ध्वनि का हो सकता है। 🫖