RoaD बंद लूप में स्वायत्त ड्राइविंग नीतियों को प्रशिक्षित करता है

Diagrama o captura de pantalla que ilustra el flujo del método RoaD, mostrando cómo las trayectorias generadas por el modelo se combinan con guía experta para crear nuevos datos de entrenamiento en un entorno de simulación 3D para conducción autónoma.

RoaD बंद लूप में स्वायत्त ड्राइविंग नीतियों को प्रशिक्षित करता है

एक नया दृष्टिकोण, जिसे RoaD कहा जाता है, कृत्रिम बुद्धिमत्ता एजेंटों को जटिल कार्यों जैसे ड्राइविंग के लिए प्रशिक्षित करने में एक मौलिक समस्या को संबोधित करता है। मानव स्थिर प्रदर्शनों पर पूरी तरह निर्भर होने के बजाय, यह विधि मॉडल की अपनी निष्पादनों से सक्रिय रूप से प्रशिक्षण डेटा उत्पन्न करती है, इस प्रकार covariate shift को सुधारती है जो बंद लूप में behavior cloning को अक्सर खराब करता है। 🚗

निगरानी किए गए फाइन-ट्यूनिंग की सीमाओं को पार करना

पिछली बंद लूप में fine-tuning निगरानी की गई तकनीकों में महत्वपूर्ण प्रतिबंध थे। RoaD सक्रिय रूप से डेटा उत्पन्न करके और, महत्वपूर्ण रूप से, विशेषज्ञ द्वारा निर्देशित तरीके से इन्हें टालता है। यह प्रक्रिया सिस्टम को उन अवस्थाओं का पता लगाने और उनसे उबरने की अनुमति देती है जिन तक मूल मानव प्रदर्शन नहीं पहुंचते, एक अधिक सामान्य और त्रुटियों के प्रति प्रतिरोधी नियंत्रण नीति बनाते हुए जो सिमुलेशन के दौरान जमा होती हैं।

RoaD दृष्टिकोण की प्रमुख लाभ:

डेटा की सक्रिय उत्पत्ति: मॉडल के अपने रोलआउट्स से नए प्रशिक्षण उदाहरण बनाता है।
एकीकृत विशेषज्ञ मार्गदर्शन: सुनिश्चित करता है कि उत्पन्न ट्रैजेक्टरी यथार्थवादी और उच्च गुणवत्ता वाली हों।
उन्नत मजबूती: नीति को स्थिर रूप से अनुकूलित करने की अनुमति देता है बिना प्रबलन 학습 के उच्च कम्प्यूटेशनल लागत के।

RoaD जटिल सिमुलेटरों में स्वायत्त एजेंटों को प्रशिक्षित करने के लिए एक कुशल मार्ग प्रदान करता है, जो वास्तविक दुनिया में तैनात करने से पहले सिस्टम विकसित और परीक्षण करने के लिए मौलिक है।

सिमुलेशन वातावरणों में सकारात्मक परिणाम

WOSAC और AlpaSim जैसे उन्नत सिमुलेटरों में किए गए मूल्यांकनों ने विधि की प्रभावशीलता प्रदर्शित की। RoaD ड्राइविंग की समग्र स्कोर में सुधार करता है और टकरावों की संख्या को उल्लेखनीय रूप से कम करता है। यह 3D वर्चुअल वातावरणों में प्रशिक्षण के लिए एक व्यावहारिक फ्रेमवर्क के रूप में इसकी उपयोगिता को मान्य करता है।

परीक्षणों में उपलब्धियां:

ड्राइविंग स्कोर में सुधार: मानक मेट्रिक्स में बेहतर मात्रात्मक परिणाम।
टकरावों में कमी: सिमुलेशन में स्वायत्त निष्पादन के दौरान कम घटनाएं।
कुशल अनुकूलन: एजेंट हर चरण में निरंतर मानव पर्यवेक्षण के बिना अपनी खुद की गलतियों से सीखता है।

स्वायत्त प्रशिक्षण का भविष्य

यह विधि एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करती है, क्योंकि यह एक स्वायत्त वाहन की संभावना को निकट लाती है जो सीखता और परिष्कृत होता है सिमुलेटेड वातावरण में अपनी अनुभव से, हर क्रिया को मानव द्वारा सुधारने की आवश्यकता के बिना। डेटा उत्पत्ति को विशेषज्ञ पर्यवेक्षण के साथ मिलाकर, RoaD स्वायत्त ड्राइविंग और 3D में अन्य जटिल कार्यों के लिए मजबूत और सामान्यीकृत नियंत्रण नीतियों को विकसित करने के लिए एक व्यवहार्य पथ स्थापित करता है। 🔄