लाइटपीटीटी 3डी पॉइंट क्लाउड्स को प्रोसेस करने के लिए कन्वोल्यूशन और ध्यान को जोड़ता है

Diagrama de la arquitectura híbrida LitePT mostrando capas convolucionales iniciales y bloques de atención en las capas profundas, con el módulo PointROPE integrado para codificación posicional.

LitePT कन्वोल्यूशन और ध्यान को मिलाकर 3D पॉइंट क्लाउड्स को प्रोसेस करता है

3D के लिए गहन अधिगम के क्षेत्र में, कन्वोल्यूशनल लेयर्स और ध्यान ब्लॉक्स को मिलाना सामान्य है, लेकिन उन्हें एकीकृत करने का आदर्श तरीका स्पष्ट नहीं था। एक हालिया शोध एक स्पष्ट पैटर्न खोजता है: प्रत्येक ऑपरेटर के लिए न्यूरल नेटवर्क के अंदर कार्य करने का इष्टतम क्षण होता है। 🧠

प्रत्येक ऑपरेटर की विशेषताओं की पदानुक्रम में भूमिका

अध्ययन से पता चलता है कि कन्वोल्यूशन उच्च रिज़ॉल्यूशन की प्रारंभिक लेयर्स में सबसे अच्छा काम करते हैं। यहां, वे कुशलतापूर्वक बुनियादी ज्यामितीय विवरण निकालते हैं, जबकि ध्यान तंत्र बिना लाभ प्रदान किए कम्प्यूटेशनल रूप से महंगे होंगे। इसके विपरीत, गहन लेयर्स में जहां डेटा की रिज़ॉल्यूशन कम होती है, ध्यान तंत्र सिमेंटिक संदर्भ और लंबी दूरी की संबंधों को कैप्चर करने में उत्कृष्ट होते हैं।

दक्ष डिज़ाइन के प्रमुख सिद्धांत:

कन्वोल्यूशन प्रारंभिक चरणों में निम्न-स्तरीय ज्यामिति को प्रबंधित करते हैं।
ध्यान बाद के चरणों में उच्च-स्तरीय सिमेंटिक्स को संभालता है।
शुरुआत से दोनों को एक साथ काम करने के लिए मजबूर करना इष्टतम रणनीति नहीं है।

सबसे सुंदर समाधान यह है कि प्रत्येक ब्लॉक को सही समय पर वह करने दें जो वह सबसे अच्छा जानता है, जैसे एक अच्छी टीम में।

LitePT का जन्म: एक व्यावहारिक हाइब्रिड आर्किटेक्चर

इन निष्कर्षों से निर्देशित होकर, LitePT प्रस्तुत किया जाता है, एक नया मॉडल जो इस सिद्धांत को लागू करता है। यह प्रारंभिक चरणों में कन्वोल्यूशनल लेयर्स का उपयोग करता है और गहन लेयर्स में ध्यान ब्लॉक्स की ओर धीरे-धीरे संक्रमण करता है। कन्वोल्यूशनल लेयर्स को कम करते समय महत्वपूर्ण स्थानिक जानकारी बनाए रखने के लिए, PointROPE पेश किया जाता है, एक नवीन 3D पोजिशनल एन्कोडिंग जो प्रशिक्षण की आवश्यकता नहीं रखता। 🚀

LitePT के प्रदर्शन लाभ:

यह संदर्भ मॉडल की तुलना में 3.6 गुना कम पैरामीटर्स के साथ काम करता है।
यह चलाने पर लगभग 2 गुना तेज है।
यह लगभग 2 गुना कम मेमोरी खपत करता है।
तुलना मॉडल Point Transformer V3 है, वर्तमान स्टेट ऑफ द आर्ट।

परिणाम जो दृष्टिकोण को मान्य करते हैं

अपनी बड़ी दक्षता के बावजूद, LitePT सटीकता का त्याग नहीं करता। कई कार्यों और सार्वजनिक डेटासेट्स में, इसका प्रदर्शन Point Transformer V3 के बराबर या इससे बेहतर है। यह साबित करता है कि विशेषताओं की पदानुक्रम में प्रत्येक ऑपरेटर की भूमिका को समझना हल्के और तेज नेटवर्क्स बनाने की अनुमति देता है। कोड और मॉडल समुदाय के लिए उपलब्ध हैं, जिससे उनका विकास और अनुप्रयोग को बढ़ावा मिलता है। ✅