
RoaD बंद लूप में स्वायत्त ड्राइविंग नीतियों को प्रशिक्षित करता है
एक नया दृष्टिकोण, जिसे RoaD कहा जाता है, कृत्रिम बुद्धिमत्ता एजेंटों को जटिल कार्यों जैसे ड्राइविंग के लिए प्रशिक्षित करने में एक मौलिक समस्या को संबोधित करता है। मानव स्थिर प्रदर्शनों पर पूरी तरह निर्भर होने के बजाय, यह विधि मॉडल की अपनी निष्पादनों से सक्रिय रूप से प्रशिक्षण डेटा उत्पन्न करती है, इस प्रकार covariate shift को सुधारती है जो बंद लूप में behavior cloning को अक्सर खराब करता है। 🚗
निगरानी किए गए फाइन-ट्यूनिंग की सीमाओं को पार करना
पिछली बंद लूप में fine-tuning निगरानी की गई तकनीकों में महत्वपूर्ण प्रतिबंध थे। RoaD सक्रिय रूप से डेटा उत्पन्न करके और, महत्वपूर्ण रूप से, विशेषज्ञ द्वारा निर्देशित तरीके से इन्हें टालता है। यह प्रक्रिया सिस्टम को उन अवस्थाओं का पता लगाने और उनसे उबरने की अनुमति देती है जिन तक मूल मानव प्रदर्शन नहीं पहुंचते, एक अधिक सामान्य और त्रुटियों के प्रति प्रतिरोधी नियंत्रण नीति बनाते हुए जो सिमुलेशन के दौरान जमा होती हैं।
RoaD दृष्टिकोण की प्रमुख लाभ:- डेटा की सक्रिय उत्पत्ति: मॉडल के अपने रोलआउट्स से नए प्रशिक्षण उदाहरण बनाता है।
- एकीकृत विशेषज्ञ मार्गदर्शन: सुनिश्चित करता है कि उत्पन्न ट्रैजेक्टरी यथार्थवादी और उच्च गुणवत्ता वाली हों।
- उन्नत मजबूती: नीति को स्थिर रूप से अनुकूलित करने की अनुमति देता है बिना प्रबलन 학습 के उच्च कम्प्यूटेशनल लागत के।
RoaD जटिल सिमुलेटरों में स्वायत्त एजेंटों को प्रशिक्षित करने के लिए एक कुशल मार्ग प्रदान करता है, जो वास्तविक दुनिया में तैनात करने से पहले सिस्टम विकसित और परीक्षण करने के लिए मौलिक है।
सिमुलेशन वातावरणों में सकारात्मक परिणाम
WOSAC और AlpaSim जैसे उन्नत सिमुलेटरों में किए गए मूल्यांकनों ने विधि की प्रभावशीलता प्रदर्शित की। RoaD ड्राइविंग की समग्र स्कोर में सुधार करता है और टकरावों की संख्या को उल्लेखनीय रूप से कम करता है। यह 3D वर्चुअल वातावरणों में प्रशिक्षण के लिए एक व्यावहारिक फ्रेमवर्क के रूप में इसकी उपयोगिता को मान्य करता है।
परीक्षणों में उपलब्धियां:- ड्राइविंग स्कोर में सुधार: मानक मेट्रिक्स में बेहतर मात्रात्मक परिणाम।
- टकरावों में कमी: सिमुलेशन में स्वायत्त निष्पादन के दौरान कम घटनाएं।
- कुशल अनुकूलन: एजेंट हर चरण में निरंतर मानव पर्यवेक्षण के बिना अपनी खुद की गलतियों से सीखता है।
स्वायत्त प्रशिक्षण का भविष्य
यह विधि एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करती है, क्योंकि यह एक स्वायत्त वाहन की संभावना को निकट लाती है जो सीखता और परिष्कृत होता है सिमुलेटेड वातावरण में अपनी अनुभव से, हर क्रिया को मानव द्वारा सुधारने की आवश्यकता के बिना। डेटा उत्पत्ति को विशेषज्ञ पर्यवेक्षण के साथ मिलाकर, RoaD स्वायत्त ड्राइविंग और 3D में अन्य जटिल कार्यों के लिए मजबूत और सामान्यीकृत नियंत्रण नीतियों को विकसित करने के लिए एक व्यवहार्य पथ स्थापित करता है। 🔄