
LitePT कन्वोल्यूशन और ध्यान को मिलाकर 3D पॉइंट क्लाउड्स को प्रोसेस करता है
3D के लिए गहन अधिगम के क्षेत्र में, कन्वोल्यूशनल लेयर्स और ध्यान ब्लॉक्स को मिलाना सामान्य है, लेकिन उन्हें एकीकृत करने का आदर्श तरीका स्पष्ट नहीं था। एक हालिया शोध एक स्पष्ट पैटर्न खोजता है: प्रत्येक ऑपरेटर के लिए न्यूरल नेटवर्क के अंदर कार्य करने का इष्टतम क्षण होता है। 🧠
प्रत्येक ऑपरेटर की विशेषताओं की पदानुक्रम में भूमिका
अध्ययन से पता चलता है कि कन्वोल्यूशन उच्च रिज़ॉल्यूशन की प्रारंभिक लेयर्स में सबसे अच्छा काम करते हैं। यहां, वे कुशलतापूर्वक बुनियादी ज्यामितीय विवरण निकालते हैं, जबकि ध्यान तंत्र बिना लाभ प्रदान किए कम्प्यूटेशनल रूप से महंगे होंगे। इसके विपरीत, गहन लेयर्स में जहां डेटा की रिज़ॉल्यूशन कम होती है, ध्यान तंत्र सिमेंटिक संदर्भ और लंबी दूरी की संबंधों को कैप्चर करने में उत्कृष्ट होते हैं।
दक्ष डिज़ाइन के प्रमुख सिद्धांत:- कन्वोल्यूशन प्रारंभिक चरणों में निम्न-स्तरीय ज्यामिति को प्रबंधित करते हैं।
- ध्यान बाद के चरणों में उच्च-स्तरीय सिमेंटिक्स को संभालता है।
- शुरुआत से दोनों को एक साथ काम करने के लिए मजबूर करना इष्टतम रणनीति नहीं है।
सबसे सुंदर समाधान यह है कि प्रत्येक ब्लॉक को सही समय पर वह करने दें जो वह सबसे अच्छा जानता है, जैसे एक अच्छी टीम में।
LitePT का जन्म: एक व्यावहारिक हाइब्रिड आर्किटेक्चर
इन निष्कर्षों से निर्देशित होकर, LitePT प्रस्तुत किया जाता है, एक नया मॉडल जो इस सिद्धांत को लागू करता है। यह प्रारंभिक चरणों में कन्वोल्यूशनल लेयर्स का उपयोग करता है और गहन लेयर्स में ध्यान ब्लॉक्स की ओर धीरे-धीरे संक्रमण करता है। कन्वोल्यूशनल लेयर्स को कम करते समय महत्वपूर्ण स्थानिक जानकारी बनाए रखने के लिए, PointROPE पेश किया जाता है, एक नवीन 3D पोजिशनल एन्कोडिंग जो प्रशिक्षण की आवश्यकता नहीं रखता। 🚀
LitePT के प्रदर्शन लाभ:- यह संदर्भ मॉडल की तुलना में 3.6 गुना कम पैरामीटर्स के साथ काम करता है।
- यह चलाने पर लगभग 2 गुना तेज है।
- यह लगभग 2 गुना कम मेमोरी खपत करता है।
- तुलना मॉडल Point Transformer V3 है, वर्तमान स्टेट ऑफ द आर्ट।
परिणाम जो दृष्टिकोण को मान्य करते हैं
अपनी बड़ी दक्षता के बावजूद, LitePT सटीकता का त्याग नहीं करता। कई कार्यों और सार्वजनिक डेटासेट्स में, इसका प्रदर्शन Point Transformer V3 के बराबर या इससे बेहतर है। यह साबित करता है कि विशेषताओं की पदानुक्रम में प्रत्येक ऑपरेटर की भूमिका को समझना हल्के और तेज नेटवर्क्स बनाने की अनुमति देता है। कोड और मॉडल समुदाय के लिए उपलब्ध हैं, जिससे उनका विकास और अनुप्रयोग को बढ़ावा मिलता है। ✅