Av-ag: एक सिस्टम जो ध्वनि का उपयोग करके वस्तुओं को कैसे हेरफेर करें, उनका पता लगाता है

Diagrama que muestra una imagen de una taza junto a una forma de onda de sonido de sorbo; flechas conectan el audio a una máscara de segmentación que resalta el asa de la taza en la imagen.

Av-ag: एक सिस्टम जो ध्वनि का उपयोग करके वस्तुओं को कैसे मैनिपुलेट करें, इसका पता लगाता है

कंप्यूटर विज़न में शोध दृश्यों को समझने के नए तरीकों की खोज करता है। एक नवीन सिस्टम, जिसे AV-AG कहा जाता है, एक अलग दृष्टिकोण प्रस्तावित करता है: किसी क्रिया की ध्वनि का उपयोग करके एक छवि में वस्तु के उन हिस्सों को सटीक रूप से ढूंढना और सीमांकित करना जिनके साथ बातचीत की जा सकती है। यह विधि वस्तु के पूरी तरह से दृश्यमान होने पर निर्भर नहीं करती, जो अस्पष्टता या दृश्य अवरोध की समस्याओं को हल करती है। 🎯

ध्वनि संकेतों की शक्ति

पाठ या वीडियो का उपयोग करने वाले सिस्टमों के विपरीत, ऑडियो सीधी और तत्काल सांकेतिक संकेत प्रदान करता है। इस क्षमता को प्रशिक्षित और परीक्षण करने के लिए, शोधकर्ताओं ने पहला AV-AG डेटासेट बनाया। इसमें क्रियाओं की ध्वनि रिकॉर्डिंग, संबंधित छवियां और पिक्सेल स्तर की एनोटेशन शामिल हैं जो मैनिपुलेबल क्षेत्रों को चिह्नित करती हैं। प्रशिक्षण के दौरान न देखे गए वस्तुओं का एक सबसेट सिस्टम के नए मामलों में सामान्यीकरण करने की क्षमता का मूल्यांकन करने की अनुमति देता है, जो इसकी व्यावहारिक उपयोगिता के लिए महत्वपूर्ण बिंदु है।

डेटासेट के प्रमुख घटक:

विशिष्ट क्रियाओं की ध्वनियां (उदाहरण: चूसना, पकड़ना, मारना)।
उन क्रियाओं से जुड़ी वस्तुओं की छवियां।
इंटरैक्शन क्षेत्रों को परिभाषित करने वाली पिक्सेल एनोटेशन।
सामान्यीकरण का परीक्षण करने के लिए न देखी गई वस्तुओं का समूह।

ध्वनि वस्तुओं के साथ हम कैसे बातचीत करते हैं, इसकी दृश्य समझ को प्रभावी ढंग से निर्देशित कर सकती है।

AVAGFormer मॉडल की वास्तुकला

सिस्टम का मूल AVAGFormer मॉडल है, जो श्रव्य और दृश्य जानकारी को संलयन करता है। यह एक ट्रांसमॉडल मिक्सर का उपयोग करता है जो ध्वनि संकेतों को छवि डेटा के साथ सांकेतिक रूप से सुसंगत तरीके से एकीकृत करता है। उसके बाद, एक दो-हेड डिकोडर अंतिम सेगमेंटेशन मास्क उत्पन्न करता है। यह वास्तुकला ऑडियो-निर्देशित इंटरैक्शन क्षेत्रों को स्थानीयकरण करने के कार्य में पूर्व विधियों को पार करने में सक्षम सिद्ध हुई है।

AVAGFormer का प्रसंस्करण प्रवाह:

एक छवि और ऑडियो सिग्नल की एक साथ इनपुट।
सांकेतिक रूप से कंडीशंड ट्रांसमॉडल फ्यूजन।
सटीक मास्क की भविष्यवाणी के लिए दो शाखाओं में डिकोडिंग।
मैनिपुलेबल क्षेत्र की पिक्सेल सेगमेंटेशन आउटपुट।

3D ग्राफिक्स और सिमुलेशन में प्रत्यक्ष अनुप्रयोग

foro3d.com समुदाय के लिए, यह तकनीक ठोस दृष्टिकोण खोलती है। यह 3D मॉडल्स में संपर्क मास्क या मैनिपुलेबल क्षेत्र उत्पन्न करने में सहायता कर सकती है, सीधे ऑडियो संकेतों से, सेटअप को तेज़ कर सकती है। भौतिक सिमुलेशन में, यह स्वचालित रूप से यथार्थवादी पकड़ने के बिंदुओं की पहचान कर सकती है। इसके अलावा, यह एनिमेशन और रिगिंग सिस्टम को समृद्ध करती है वस्तुओं के उपयोग के बारे में डेटा प्रदान करके। यह बनावट उपकरणों को सुविधाजनक बना सकती है जो कार्यात्मक सतहों का पता लगाते हैं, और प्लगइन्स को प्रेरित कर सकती है जो ऑडियो और विज़न को जोड़कर 3D दृश्यों में क्रियाओं, ध्वनियों और गतिविधियों के बीच अधिक सुसंगति प्राप्त करते हैं। इस प्रकार, अगली बार जब कोई चरित्र सही ढंग से एक कप पकड़े, तो श्रेय एक साधारण चूसने की ध्वनि का हो सकता है। 🫖