डीपविज़न-वीएलए: गहन दृष्टि और त्रिविमीय अनुकरण से रोबोटिक्स में सुधार

विज़न-लैंग्वेज-एक्शन (VLA) मॉडल रोबोटिक मैनिपुलेशन के लिए एक प्रमुख प्रगति का प्रतिनिधित्व करते हैं, जो भाषाई निर्देशों और दृश्य धारणा को एकीकृत करके क्रियाएँ उत्पन्न करते हैं। हालांकि, उनका भाषा कोर आमतौर पर एक ब्लैक बॉक्स के रूप में कार्य करता है, जो दृश्य जानकारी के आधार को समझने को सीमित करता है। एक हालिया विश्लेषण से पता चलता है कि क्रिया पीढ़ी के दौरान गहरी परतों में दृश्य टोकन संवेदनशीलता कम हो जाती है, जो सटीकता वाली कार्यों के लिए एक महत्वपूर्ण समस्या है। यहीं पर 3D सिमुलेशन अनिवार्य हो जाता है, जो इन मॉडलों को भौतिक तैनाती से पहले जटिल आभासी वातावरणों में प्रशिक्षित और निदान करने की अनुमति देता है। 🤖

Representación de un brazo robótico en un entorno de simulación 3D analizando objetos mediante un modelo de visión profunda.

VL-MoT आर्किटेक्चर और एक्शन-गाइडेड विज़ुअल प्रूनिंग 🔍

इस सीमा को हल करने के लिए, DeepVision-VLA प्रस्तावित किया गया है, जो विज़न-लैंग्वेज मिक्सचर-ऑफ-ट्रांसफॉर्मर्स (VL-MoT) फ्रेमवर्क पर आधारित है। यह आर्किटेक्चर एक विशेषीकृत विज़न मॉडल और VLA कोर के बीच साझा ध्यान की अनुमति देता है, मॉडल की गहरी परतों में मल्टी-लेवल विज़ुअल फीचर्स इंजेक्ट करके। इस प्रकार जटिल मैनिपुलेशनों के लिए विज़ुअल प्रतिनिधित्वों को मजबूत किया जाता है। समानांतर रूप से, एक्शन-गाइडेड विज़ुअल प्रूनिंग (AGVP) पेश की जाती है, एक तकनीक जो सतही परतों के ध्यान का उपयोग करके अप्रासंगिक विज़ुअल टोकन को प्रून करने के लिए करती है, केवल कार्य के लिए महत्वपूर्ण को बनाए रखते हुए न्यूनतम कम्प्यूटेशनल ओवरहेड के साथ। यथार्थवादी 3D सिमुलेशनों में मान्यीकृत, यह दृष्टिकोण सिमुलेटेड वातावरणों में 9.0% सुधार प्राप्त करता है।

रोबोटिक्स का भविष्य 3D सिमुलेशन से होकर गुजरता है 🚀

DeepVision-VLA की सफलता, वास्तविक दुनिया में 7.5% अधिक प्रभावशीलता के साथ, 3D सिमुलेशन की मौलिक भूमिका को रेखांकित करती है टेस्ट बेंच के रूप में। ये आभासी वातावरण विविध सिंथेटिक डेटा उत्पन्न करने, विफलता परिदृश्यों का परीक्षण करने और जोखिमों के बिना विज़न-एक्शन एकीकरण को परिष्कृत करने की अनुमति देते हैं। रोबोटिक्स और ऑटोमेशन के niche के लिए, यह गैर-संरचित वातावरणों में वस्तुओं को मैनिपुलेट करने में सक्षम रोबोट्स के विकास को तेज करता है, जहाँ मजबूत और गहरी विज़ुअल समझ, पहले 3D में प्रशिक्षित, स्वायत्तता की कुंजी है।

विज़न-लैंग्वेज-एक्शन (VLA) मॉडल जैसे DeepVision गैर-संरचित वातावरणों में रोबोटिक मैनिपुलेशन कार्यों में सामान्यीकरण की चुनौतियों को कैसे पार कर रहे हैं?

(पीएस: रोबोट्स को सिमुलेट करना मजेदार है, जब तक वे तुम्हारे आदेशों का पालन न करने का फैसला न कर लें।)