RoaD बंद लूप में स्वायत्त ड्राइविंग नीतियों को प्रशिक्षित करता है

2026 February 08 | स्पेनिश से अनुवादित
Diagrama o captura de pantalla que ilustra el flujo del método RoaD, mostrando cómo las trayectorias generadas por el modelo se combinan con guía experta para crear nuevos datos de entrenamiento en un entorno de simulación 3D para conducción autónoma.

RoaD बंद लूप में स्वायत्त ड्राइविंग नीतियों को प्रशिक्षित करता है

एक नया दृष्टिकोण, जिसे RoaD कहा जाता है, कृत्रिम बुद्धिमत्ता एजेंटों को जटिल कार्यों जैसे ड्राइविंग के लिए प्रशिक्षित करने में एक मौलिक समस्या को संबोधित करता है। मानव स्थिर प्रदर्शनों पर पूरी तरह निर्भर होने के बजाय, यह विधि मॉडल की अपनी निष्पादनों से सक्रिय रूप से प्रशिक्षण डेटा उत्पन्न करती है, इस प्रकार covariate shift को सुधारती है जो बंद लूप में behavior cloning को अक्सर खराब करता है। 🚗

निगरानी किए गए फाइन-ट्यूनिंग की सीमाओं को पार करना

पिछली बंद लूप में fine-tuning निगरानी की गई तकनीकों में महत्वपूर्ण प्रतिबंध थे। RoaD सक्रिय रूप से डेटा उत्पन्न करके और, महत्वपूर्ण रूप से, विशेषज्ञ द्वारा निर्देशित तरीके से इन्हें टालता है। यह प्रक्रिया सिस्टम को उन अवस्थाओं का पता लगाने और उनसे उबरने की अनुमति देती है जिन तक मूल मानव प्रदर्शन नहीं पहुंचते, एक अधिक सामान्य और त्रुटियों के प्रति प्रतिरोधी नियंत्रण नीति बनाते हुए जो सिमुलेशन के दौरान जमा होती हैं।

RoaD दृष्टिकोण की प्रमुख लाभ:
RoaD जटिल सिमुलेटरों में स्वायत्त एजेंटों को प्रशिक्षित करने के लिए एक कुशल मार्ग प्रदान करता है, जो वास्तविक दुनिया में तैनात करने से पहले सिस्टम विकसित और परीक्षण करने के लिए मौलिक है।

सिमुलेशन वातावरणों में सकारात्मक परिणाम

WOSAC और AlpaSim जैसे उन्नत सिमुलेटरों में किए गए मूल्यांकनों ने विधि की प्रभावशीलता प्रदर्शित की। RoaD ड्राइविंग की समग्र स्कोर में सुधार करता है और टकरावों की संख्या को उल्लेखनीय रूप से कम करता है। यह 3D वर्चुअल वातावरणों में प्रशिक्षण के लिए एक व्यावहारिक फ्रेमवर्क के रूप में इसकी उपयोगिता को मान्य करता है।

परीक्षणों में उपलब्धियां:

स्वायत्त प्रशिक्षण का भविष्य

यह विधि एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करती है, क्योंकि यह एक स्वायत्त वाहन की संभावना को निकट लाती है जो सीखता और परिष्कृत होता है सिमुलेटेड वातावरण में अपनी अनुभव से, हर क्रिया को मानव द्वारा सुधारने की आवश्यकता के बिना। डेटा उत्पत्ति को विशेषज्ञ पर्यवेक्षण के साथ मिलाकर, RoaD स्वायत्त ड्राइविंग और 3D में अन्य जटिल कार्यों के लिए मजबूत और सामान्यीकृत नियंत्रण नीतियों को विकसित करने के लिए एक व्यवहार्य पथ स्थापित करता है। 🔄