दृष्टि-भाषा-कार्रवाई (VLA) मॉडल स्थिर हेरफेर पर हावी हैं, लेकिन गतिशील परिदृश्यों में चलते हुए लक्ष्यों के साथ उनका प्रदर्शन गिर जाता है। यह बोतलनेक विशिष्ट प्रशिक्षण डेटा की कमी और एकल क्षण की अवलोकनों पर निर्भर वास्तुकलाओं के कारण होता है, जो उनके स्थान-कालिक तर्क को सीमित करता है। हम DOMINO प्रस्तुत करते हैं, गतिशील हेरफेर के लिए एक विशाल डेटासेट, और PUMA, एक VLA वास्तुकला जो गति जागरूक धारणा के लिए ऐतिहासिक ऑप्टिकल फ्लो को एकीकृत करती है। 🤖
पद्धति: DOMINO डेटासेट और PUMA वास्तुकला अप्रत्यक्ष भविष्यवाणी के लिए 🧠
DOMINO एक व्यापक बेंचमार्क है जिसमें 35 पदानुक्रमिक जटिलता वाली कार्य, 110,000 से अधिक विशेषज्ञ ट्रैजेक्टरी और बहुआयामी मूल्यांकन प्रणाली है। इन डेटा का लाभ उठाने के लिए, हम PUMA प्रस्तावित करते हैं, एक वास्तुकला जो एकल अवलोकन की सीमा को पार करती है। PUMA दृश्य-केंद्रित ऐतिहासिक ऑप्टिकल फ्लो और world queries को नवीन रूप से एकीकृत करती है। यह डिज़ाइन ऐतिहासिक संदर्भ की धारणा को छोटे क्षितिज की भविष्यवाणी से जोड़ता है, जिससे मॉडल को चलते हुए वस्तुओं के भविष्य के राज्यों को अप्रत्यक्ष रूप से अनुमान लगाने की अनुमति मिलती है, जो उनके साथ सफलतापूर्वक बातचीत के लिए महत्वपूर्ण है।
गतिशील जागरूकता: एक सुधार जो गतिशील से परे जाता है ⚡
परिणाम दिखाते हैं कि PUMA गतिशील कार्यों में बेसलाइनों पर सफलता दर में 6.3% की निरपेक्ष सुधार प्राप्त करती है। इससे आगे, DOMINO के गतिशील डेटा के साथ प्रशिक्षण मजबूत स्थान-कालिक प्रतिनिधित्व उत्पन्न करता है जो स्थिर हेरफेर कार्यों में भी प्रदर्शन सुधारता है। यह सुझाव देता है कि गतिशील जागरूकता एक विशेषीकृत मॉड्यूल नहीं है, बल्कि एक मौलिक क्षमता है जो रोबोट की अपने पर्यावरण की सामान्य समझ को समृद्ध करती है।
VLA (दृष्टि-भाषा-कार्रवाई) मॉडल स्थिर हेरफेर की सीमाओं को कैसे पार कर सकते हैं ताकि चलते हुए वस्तुओं के साथ वास्तविक समय में गतिशील बातचीत को मजबूती से संभाल सकें?
(पीएस: रोबोटों का सिमुलेशन मजेदार है, जब तक वे आपके आदेशों का पालन न करने का फैसला न कर लें।)