मैनुअलवीएलए: एक फ्रेमवर्क जो मल्टीमॉडल मैनुअलों से रोबोटिक योजना को बेहतर बनाता है

Diagrama o captura de pantalla que muestra la arquitectura ManualVLA, con un robot manipulando piezas de LEGO junto a una interfaz que genera manuales paso a paso con imágenes, texto e indicaciones de posición.

ManualVLA: एक फ्रेमवर्क जो मल्टीमॉडल मैनुअल्स के साथ रोबोटिक प्लानिंग को बेहतर बनाता है

मॉडल विज़न-लैंग्वेज-एक्शन (VLA) अपनी सामान्यीकरण क्षमता के लिए प्रसिद्ध हैं, लेकिन जटिल कार्यों का सामना करते समय वे ठोकर खाते हैं जो स्पष्ट लक्ष्य स्थिति की मांग करते हैं, जैसे संयोजित करना संरचनाओं या पुनर्व्यवस्थित करना वस्तुओं को। उनकी मुख्य चुनौती उच्च-स्तरीय प्लानिंग को सटीक मैनिपुलेशन के साथ समन्वयित करना है। इसे हल करने के लिए, ManualVLA प्रस्तुत किया गया है, एक एकीकृत फ्रेमवर्क जो एक VLA मॉडल को परिणाम क्या से प्रक्रिया कैसे का अनुमान लगाने की अनुमति देता है, अमूर्त लक्ष्यों को निष्पादन योग्य क्रिया अनुक्रमों में परिवर्तित करता है। 🤖

दो विशेषज्ञों और निर्देशित तर्क वाली आर्किटेक्चर

ManualVLA मिक्सचर-ऑफ-ट्रांसफॉर्मर्स (MoT) आर्किटेक्चर पर आधारित है। सेंसरी धारणाओं को सीधे मोटर कमांड्स में मैप करने के बजाय, यह एक महत्वपूर्ण मध्यवर्ती चरण पेश करता है। सबसे पहले, एक प्लानिंग विशेषज्ञ मध्यवर्ती और मल्टीमॉडल मैनुअल्स उत्पन्न करता है। ये मैनुअल्स छवियों, स्थानिक संकेतों और पाठ निर्देशों को एकीकृत करते हैं। फिर, एक मैनुअल चेन-ऑफ-थॉट (ManualCoT) प्रक्रिया इन मैनुअल्स को एक्शन विशेषज्ञ की ओर निर्देशित करती है। मैनुअल के प्रत्येक चरण स्पष्ट नियंत्रण स्थितियां प्रदान करते हैं, जबकि उनकी लेटेंट प्रतिनिधित्व सटीक मैनिपुलेशन के लिए निहित मार्गदर्शन के रूप में कार्य करता है।

सिस्टम के प्रमुख घटक:

प्लानर एक्सपर्ट: अंतिम कार्य को समझने योग्य और निष्पादन योग्य चरणों में तोड़ने वाले विस्तृत मैनुअल्स उत्पन्न करता है।
ManualCoT: एक तर्क तंत्र जो मैनुअल की जानकारी को संरचित करता है और एक्शन निष्पादन विशेषज्ञ को खिलाता है।
एक्शन एक्सपर्ट: मैनुअल के मल्टीमॉडल निर्देशों को सटीक और समन्वित रोबोटिक गतियों में अनुवाद करता है।

ManualVLA LEGO असेंबली और ऑब्जेक्ट रीऑर्गनाइजेशन कार्यों में पिछले सर्वश्रेष्ठ हाइरार्किकल मॉडल से औसतन 32% अधिक सफलता दर हासिल करता है।

स्वचालित रूप से ट्रेनिंग डेटा उत्पन्न करना

प्लानिंग विशेषज्ञ को प्रशिक्षित करने के लिए मैनुअल्स के बड़े पैमाने पर डेटा की आवश्यकता होती है, जिनकी मैनुअल संग्रहण बहुत महंगा है। इस बाधा को पार करने के लिए, टीम ने 3D गॉसियन स्प्लैटिंग तकनीक पर आधारित एक डिजिटल ट्विन टूलकिट विकसित किया। यह टूलकिट स्वचालित रूप से उच्च-फिडेलिटी मैनुअल डेटा उत्पन्न करता है, जो व्यापक मानव एनोटेशन पर निर्भर हुए बिना प्लानर को कुशलता और स्केलेबली प्रशिक्षित करने की अनुमति देता है।

डिजिटल ट्विन टूलकिट के लाभ:

जटिल प्लानिंग मॉडल्स को प्रशिक्षित करने के लिए यथार्थवादी और विविध सिंथेटिक डेटा बनाना।
वास्तविक दुनिया के डेटा संग्रह से जुड़े बोझ और लागत को नाटकीय रूप से कम करना।
भौतिक निष्पादन से पहले सिमुलेटेड वातावरण में मैनुअल्स का परीक्षण और परिष्करण की अनुमति देना।

निहितार्थ और भविष्य की संभावनाएं

यह दृष्टिकोण न केवल रोबोट्स को जटिल मैनिपुलेशन कार्यों को योजना बनाने और निष्पादित करने में सुधारता है, बल्कि उन्हें शून्य से निर्देशों का पालन करने के लिए प्रोग्राम करने की प्रक्रिया को भी सरल बनाता है। अंतिम लक्ष्य और इसे प्राप्त करने के लिए आवश्यक चरणों के बीच की खाई को बंद करके, ManualVLA अधिक स्वायत्त और सक्षम रोबोट्स की ओर एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है। फ्रेमवर्क एक नए पैराडाइम की स्थापना करता है जहां स्पष्ट प्रक्रियाओं का निर्माण मजबूत और विश्वसनीय रोबोटिक मैनिपुलेशन के लिए केंद्रीय है। 🧩