फास्ट एसएएम 3डी बॉडी: मानवाकार नियंत्रण के लिए वास्तविक समय में जाल पुनर्प्राप्ति

2026 March 17 | स्पेनिश से अनुवादित

एक ही RGB कैमरा से 3D बॉडी मेश का सटीक पुनर्प्राप्ति डिजिटल ह्यूमनॉइड्स को एनिमेट करने के लिए महत्वपूर्ण है, लेकिन वर्तमान विधियाँ जैसे SAM 3D Body इंटरैक्टिव अनुप्रयोगों के लिए बहुत धीमी हैं। हम Fast SAM 3D Body प्रस्तुत करते हैं, एक त्वरण फ्रेमवर्क जो पुनःप्रशिक्षण की आवश्यकता के बिना, इन्फरेंस को पुनःसूत्रित करके रीयल-टाइम दरें प्राप्त करता है। निर्भरताओं को अलग करके और प्रूनिंग लागू करके, यह छवि के कई क्रॉप्स से फीचर एक्सट्रैक्शन को समानांतर बनाता है और अनुकूलित डिकोडिंग प्रदान करता है। सबसे महत्वपूर्ण, यह मेश का इटरेटिव फिटिंग को डायरेक्ट मैपिंग से बदल देता है, SMPL पैरामीटर्स में रूपांतरण को 10,000 गुना से अधिक तेज़ कर देता है। यह पहली बार ह्यूमनॉइड का रीयल-टाइम विज़ुअल टेलीऑपरेशन संभव बनाता है। 🚀

Diagrama de flujo que compara el pipeline lento de SAM 3D Body original con el pipeline acelerado de Fast SAM 3D Body, mostrando ganancias de velocidad.

तकनीकी विश्लेषण: समानांतरकरण, प्रूनिंग और डायरेक्ट मैपिंग ⚙️

त्वरण का मूल तीन नवाचारों में निहित है। पहला, मूल प्रक्रिया की सीरियल स्पेशल निर्भरताओं को अलग किया जाता है, जो छवि के कई क्रॉप्स से फीचर एक्सट्रैक्शन को समानांतर बनाता है। दूसरा, ट्रांसफॉर्मर की वास्तुकला के प्रति जागरूक प्रूनिंग लागू करके डिकोडिंग में लेटेंसी को नाटकीय रूप से कम किया जाता है। तीसरा और ह्यूमनॉइड अनुप्रयोगों के लिए सबसे प्रभावशाली है मेश का धीमा इटरेटिव फिटिंग (ऑप्टिमाइज़ेशन) को एन्कोडर फीचर्स से SMPL पैरामीटर्स तक डायरेक्ट फीडफॉरवर्ड मैपिंग से बदलना। यह डायरेक्ट रूपांतरण, जो ह्यूमनॉइड कंट्रोल फ्रेमवर्क्स के साथ संगत है, उस विशिष्ट चरण को चार गुना से अधिक तेज़ करता है, LSPET जैसे बेंचमार्क्स में तुलनीय और यहां तक कि बेहतर फिडेलिटी बनाए रखते हुए।

ह्यूमनॉइड्स के एनिमेशन और कंट्रोल का भविष्य 🤖

यह प्रगति तकनीकी से परे है, तत्काल व्यावहारिक द्वार खोलती है। एकल RGB स्ट्रीम से रीयल-टाइम SMPL किनेमेटिक्स प्राप्त करने की क्षमता ह्यूमनॉइड्स के टेलीऑपरेशन को वेस्ट या वियरेबल सेंसर्स के बिना सक्षम बनाती है, एनिमेशन के लिए मोशन कैप्चर को बहुत सरल बनाती है। इसके अलावा, यह रिनफोर्समेंट लर्निंग के लिए मैनिपुलेशन पॉलिसीज़ का डायरेक्ट संग्रह संभव बनाता है, जहां ह्यूमनॉइड वीडियो में मानव क्रियाओं को देखकर सीख सकता है। Fast SAM 3D Body विज़ुअली नियंत्रित इंटरैक्टिव और यथार्थवादी डिजिटल ह्यूमनॉइड्स के दृष्टिकोण को करीब लाता है, जो हमसे स्वाभाविक रूप से सीखते हैं।

Fast SAM 3D Body प्रोडक्शन वातावरणों में डिजिटल ह्यूमनॉइड्स के रीयल-टाइम कंट्रोल के लिए मोशन कैप्चर में लेटेंसी और सटीकता की सीमाओं को कैसे पार कर सकता है?

(पीएस: डिजिटल ह्यूमनॉइड्स का फायदा यह है कि वे रिगिंग की शिकायत कभी नहीं करते।)