
Av-ag: एक सिस्टम जो ध्वनि का उपयोग करके वस्तुओं को कैसे मैनिपुलेट करें, इसका पता लगाता है
कंप्यूटर विज़न में शोध दृश्यों को समझने के नए तरीकों की खोज करता है। एक नवीन सिस्टम, जिसे AV-AG कहा जाता है, एक अलग दृष्टिकोण प्रस्तावित करता है: किसी क्रिया की ध्वनि का उपयोग करके एक छवि में वस्तु के उन हिस्सों को सटीक रूप से ढूंढना और सीमांकित करना जिनके साथ बातचीत की जा सकती है। यह विधि वस्तु के पूरी तरह से दृश्यमान होने पर निर्भर नहीं करती, जो अस्पष्टता या दृश्य अवरोध की समस्याओं को हल करती है। 🎯
ध्वनि संकेतों की शक्ति
पाठ या वीडियो का उपयोग करने वाले सिस्टमों के विपरीत, ऑडियो सीधी और तत्काल सांकेतिक संकेत प्रदान करता है। इस क्षमता को प्रशिक्षित और परीक्षण करने के लिए, शोधकर्ताओं ने पहला AV-AG डेटासेट बनाया। इसमें क्रियाओं की ध्वनि रिकॉर्डिंग, संबंधित छवियां और पिक्सेल स्तर की एनोटेशन शामिल हैं जो मैनिपुलेबल क्षेत्रों को चिह्नित करती हैं। प्रशिक्षण के दौरान न देखे गए वस्तुओं का एक सबसेट सिस्टम के नए मामलों में सामान्यीकरण करने की क्षमता का मूल्यांकन करने की अनुमति देता है, जो इसकी व्यावहारिक उपयोगिता के लिए महत्वपूर्ण बिंदु है।
डेटासेट के प्रमुख घटक:- विशिष्ट क्रियाओं की ध्वनियां (उदाहरण: चूसना, पकड़ना, मारना)।
- उन क्रियाओं से जुड़ी वस्तुओं की छवियां।
- इंटरैक्शन क्षेत्रों को परिभाषित करने वाली पिक्सेल एनोटेशन।
- सामान्यीकरण का परीक्षण करने के लिए न देखी गई वस्तुओं का समूह।
ध्वनि वस्तुओं के साथ हम कैसे बातचीत करते हैं, इसकी दृश्य समझ को प्रभावी ढंग से निर्देशित कर सकती है।
AVAGFormer मॉडल की वास्तुकला
सिस्टम का मूल AVAGFormer मॉडल है, जो श्रव्य और दृश्य जानकारी को संलयन करता है। यह एक ट्रांसमॉडल मिक्सर का उपयोग करता है जो ध्वनि संकेतों को छवि डेटा के साथ सांकेतिक रूप से सुसंगत तरीके से एकीकृत करता है। उसके बाद, एक दो-हेड डिकोडर अंतिम सेगमेंटेशन मास्क उत्पन्न करता है। यह वास्तुकला ऑडियो-निर्देशित इंटरैक्शन क्षेत्रों को स्थानीयकरण करने के कार्य में पूर्व विधियों को पार करने में सक्षम सिद्ध हुई है।
AVAGFormer का प्रसंस्करण प्रवाह:- एक छवि और ऑडियो सिग्नल की एक साथ इनपुट।
- सांकेतिक रूप से कंडीशंड ट्रांसमॉडल फ्यूजन।
- सटीक मास्क की भविष्यवाणी के लिए दो शाखाओं में डिकोडिंग।
- मैनिपुलेबल क्षेत्र की पिक्सेल सेगमेंटेशन आउटपुट।
3D ग्राफिक्स और सिमुलेशन में प्रत्यक्ष अनुप्रयोग
foro3d.com समुदाय के लिए, यह तकनीक ठोस दृष्टिकोण खोलती है। यह 3D मॉडल्स में संपर्क मास्क या मैनिपुलेबल क्षेत्र उत्पन्न करने में सहायता कर सकती है, सीधे ऑडियो संकेतों से, सेटअप को तेज़ कर सकती है। भौतिक सिमुलेशन में, यह स्वचालित रूप से यथार्थवादी पकड़ने के बिंदुओं की पहचान कर सकती है। इसके अलावा, यह एनिमेशन और रिगिंग सिस्टम को समृद्ध करती है वस्तुओं के उपयोग के बारे में डेटा प्रदान करके। यह बनावट उपकरणों को सुविधाजनक बना सकती है जो कार्यात्मक सतहों का पता लगाते हैं, और प्लगइन्स को प्रेरित कर सकती है जो ऑडियो और विज़न को जोड़कर 3D दृश्यों में क्रियाओं, ध्वनियों और गतिविधियों के बीच अधिक सुसंगति प्राप्त करते हैं। इस प्रकार, अगली बार जब कोई चरित्र सही ढंग से एक कप पकड़े, तो श्रेय एक साधारण चूसने की ध्वनि का हो सकता है। 🫖