डोमिनो और प्यूमा: वीएलए के साथ गतिशील रोबोटिक हेरफेर में प्रगति

दृष्टि-भाषा-कार्रवाई (VLA) मॉडल स्थिर हेरफेर पर हावी हैं, लेकिन गतिशील परिदृश्यों में चलते हुए लक्ष्यों के साथ उनका प्रदर्शन गिर जाता है। यह बोतलनेक विशिष्ट प्रशिक्षण डेटा की कमी और एकल क्षण की अवलोकनों पर निर्भर वास्तुकलाओं के कारण होता है, जो उनके स्थान-कालिक तर्क को सीमित करता है। हम DOMINO प्रस्तुत करते हैं, गतिशील हेरफेर के लिए एक विशाल डेटासेट, और PUMA, एक VLA वास्तुकला जो गति जागरूक धारणा के लिए ऐतिहासिक ऑप्टिकल फ्लो को एकीकृत करती है। 🤖

Brazo robótico interactuando con un cubo en movimiento sobre una superficie, ilustrando manipulación dinámica.

पद्धति: DOMINO डेटासेट और PUMA वास्तुकला अप्रत्यक्ष भविष्यवाणी के लिए 🧠

DOMINO एक व्यापक बेंचमार्क है जिसमें 35 पदानुक्रमिक जटिलता वाली कार्य, 110,000 से अधिक विशेषज्ञ ट्रैजेक्टरी और बहुआयामी मूल्यांकन प्रणाली है। इन डेटा का लाभ उठाने के लिए, हम PUMA प्रस्तावित करते हैं, एक वास्तुकला जो एकल अवलोकन की सीमा को पार करती है। PUMA दृश्य-केंद्रित ऐतिहासिक ऑप्टिकल फ्लो और world queries को नवीन रूप से एकीकृत करती है। यह डिज़ाइन ऐतिहासिक संदर्भ की धारणा को छोटे क्षितिज की भविष्यवाणी से जोड़ता है, जिससे मॉडल को चलते हुए वस्तुओं के भविष्य के राज्यों को अप्रत्यक्ष रूप से अनुमान लगाने की अनुमति मिलती है, जो उनके साथ सफलतापूर्वक बातचीत के लिए महत्वपूर्ण है।

गतिशील जागरूकता: एक सुधार जो गतिशील से परे जाता है ⚡

परिणाम दिखाते हैं कि PUMA गतिशील कार्यों में बेसलाइनों पर सफलता दर में 6.3% की निरपेक्ष सुधार प्राप्त करती है। इससे आगे, DOMINO के गतिशील डेटा के साथ प्रशिक्षण मजबूत स्थान-कालिक प्रतिनिधित्व उत्पन्न करता है जो स्थिर हेरफेर कार्यों में भी प्रदर्शन सुधारता है। यह सुझाव देता है कि गतिशील जागरूकता एक विशेषीकृत मॉड्यूल नहीं है, बल्कि एक मौलिक क्षमता है जो रोबोट की अपने पर्यावरण की सामान्य समझ को समृद्ध करती है।

VLA (दृष्टि-भाषा-कार्रवाई) मॉडल स्थिर हेरफेर की सीमाओं को कैसे पार कर सकते हैं ताकि चलते हुए वस्तुओं के साथ वास्तविक समय में गतिशील बातचीत को मजबूती से संभाल सकें?

(पीएस: रोबोटों का सिमुलेशन मजेदार है, जब तक वे आपके आदेशों का पालन न करने का फैसला न कर लें।)