मैनुअलवीएलए: एक फ्रेमवर्क जो मल्टीमॉडल मैनुअलों से रोबोटिक योजना को बेहतर बनाता है

2026 February 08 | स्पेनिश से अनुवादित
Diagrama o captura de pantalla que muestra la arquitectura ManualVLA, con un robot manipulando piezas de LEGO junto a una interfaz que genera manuales paso a paso con imágenes, texto e indicaciones de posición.

ManualVLA: एक फ्रेमवर्क जो मल्टीमॉडल मैनुअल्स के साथ रोबोटिक प्लानिंग को बेहतर बनाता है

मॉडल विज़न-लैंग्वेज-एक्शन (VLA) अपनी सामान्यीकरण क्षमता के लिए प्रसिद्ध हैं, लेकिन जटिल कार्यों का सामना करते समय वे ठोकर खाते हैं जो स्पष्ट लक्ष्य स्थिति की मांग करते हैं, जैसे संयोजित करना संरचनाओं या पुनर्व्यवस्थित करना वस्तुओं को। उनकी मुख्य चुनौती उच्च-स्तरीय प्लानिंग को सटीक मैनिपुलेशन के साथ समन्वयित करना है। इसे हल करने के लिए, ManualVLA प्रस्तुत किया गया है, एक एकीकृत फ्रेमवर्क जो एक VLA मॉडल को परिणाम क्या से प्रक्रिया कैसे का अनुमान लगाने की अनुमति देता है, अमूर्त लक्ष्यों को निष्पादन योग्य क्रिया अनुक्रमों में परिवर्तित करता है। 🤖

दो विशेषज्ञों और निर्देशित तर्क वाली आर्किटेक्चर

ManualVLA मिक्सचर-ऑफ-ट्रांसफॉर्मर्स (MoT) आर्किटेक्चर पर आधारित है। सेंसरी धारणाओं को सीधे मोटर कमांड्स में मैप करने के बजाय, यह एक महत्वपूर्ण मध्यवर्ती चरण पेश करता है। सबसे पहले, एक प्लानिंग विशेषज्ञ मध्यवर्ती और मल्टीमॉडल मैनुअल्स उत्पन्न करता है। ये मैनुअल्स छवियों, स्थानिक संकेतों और पाठ निर्देशों को एकीकृत करते हैं। फिर, एक मैनुअल चेन-ऑफ-थॉट (ManualCoT) प्रक्रिया इन मैनुअल्स को एक्शन विशेषज्ञ की ओर निर्देशित करती है। मैनुअल के प्रत्येक चरण स्पष्ट नियंत्रण स्थितियां प्रदान करते हैं, जबकि उनकी लेटेंट प्रतिनिधित्व सटीक मैनिपुलेशन के लिए निहित मार्गदर्शन के रूप में कार्य करता है।

सिस्टम के प्रमुख घटक:
ManualVLA LEGO असेंबली और ऑब्जेक्ट रीऑर्गनाइजेशन कार्यों में पिछले सर्वश्रेष्ठ हाइरार्किकल मॉडल से औसतन 32% अधिक सफलता दर हासिल करता है।

स्वचालित रूप से ट्रेनिंग डेटा उत्पन्न करना

प्लानिंग विशेषज्ञ को प्रशिक्षित करने के लिए मैनुअल्स के बड़े पैमाने पर डेटा की आवश्यकता होती है, जिनकी मैनुअल संग्रहण बहुत महंगा है। इस बाधा को पार करने के लिए, टीम ने 3D गॉसियन स्प्लैटिंग तकनीक पर आधारित एक डिजिटल ट्विन टूलकिट विकसित किया। यह टूलकिट स्वचालित रूप से उच्च-फिडेलिटी मैनुअल डेटा उत्पन्न करता है, जो व्यापक मानव एनोटेशन पर निर्भर हुए बिना प्लानर को कुशलता और स्केलेबली प्रशिक्षित करने की अनुमति देता है।

डिजिटल ट्विन टूलकिट के लाभ:

निहितार्थ और भविष्य की संभावनाएं

यह दृष्टिकोण न केवल रोबोट्स को जटिल मैनिपुलेशन कार्यों को योजना बनाने और निष्पादित करने में सुधारता है, बल्कि उन्हें शून्य से निर्देशों का पालन करने के लिए प्रोग्राम करने की प्रक्रिया को भी सरल बनाता है। अंतिम लक्ष्य और इसे प्राप्त करने के लिए आवश्यक चरणों के बीच की खाई को बंद करके, ManualVLA अधिक स्वायत्त और सक्षम रोबोट्स की ओर एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है। फ्रेमवर्क एक नए पैराडाइम की स्थापना करता है जहां स्पष्ट प्रक्रियाओं का निर्माण मजबूत और विश्वसनीय रोबोटिक मैनिपुलेशन के लिए केंद्रीय है। 🧩