एमआर-आरएलवीआर: सत्यापनीय पुरस्कारों और स्व-निरीक्षण के साथ गणितीय तर्क में सुधार

2026 February 08 | स्पेनिश से अनुवादित
Diagrama esquemático que muestra el flujo de MR-RLVR con ejemplos de problemas matemáticos, pasos intermedios enmascarados y reordenados, y flechas que indican coherencia lógica entre etapas.

MR-RLVR: सत्यापनीय पुरस्कारों और स्व-निरीक्षण के साथ गणितीय तर्क में सुधार

कृत्रिम बुद्धिमत्ता गणितीय तर्क के क्षेत्र में गुणात्मक छलांग लगा रही है MR-RLVR जैसे विधियों के माध्यम से, जो सत्यापनीय पुरस्कारों को स्व-निरीक्षित संकेतों के साथ एकीकृत करता है ताकि तार्किक संरचनाओं की समझ को अनुकूलित किया जा सके। यह दृष्टिकोण न केवल अंतिम परिणाम पर केंद्रित है, बल्कि प्रत्येक मध्यवर्ती चरण की आंतरिक सुसंगति पर गहराई से ध्यान देता है, जो तब महत्वपूर्ण होता है जब तत्काल सत्यापन सीमित हो। 🧠

उन्नत प्रशिक्षण तंत्र

सिस्टम BERT से प्रेरित दो तकनीकों का उपयोग करता है: masked-then-fill, जहां एक समाधान के खंडों को छिपाया जाता है और मॉडल को उन्हें सटीकता से पूरा करना होता है, और step reordering, जो अव्यवस्थित चरणों को पुनर्व्यवस्थित करके तार्किक अनुक्रम को बहाल करने का अर्थ रखता है। ये रणनीतियाँ मॉडल को जटिल समस्याओं में भी संरचनात्मक स्थिरता बनाए रखने के लिए प्रोत्साहित करती हैं, प्रत्येक चरण के मूल्यांकन और पहचानी गई खाली जगहों के उचित समाधान पर आधारित पुरस्कार उत्पन्न करती हैं।

प्रशिक्षण की मुख्य विशेषताएँ:
मॉडल सीख रहे हैं जो हर गणित का छात्र खोजता है: चरणों को समझे बिना परिणामों की नकल करना महत्वपूर्ण स्थितियों में विफलताओं की ओर ले जाता है।

वास्तविक परिदृश्यों में अनुप्रयोग और परिणाम

MR-RLVR स्वचालित प्रमेय प्रदर्शन और जटिल बीजीय समीकरणों के समाधान जैसी कार्यों में अपनी प्रभावशीलता प्रदर्शित करता है, जहां मॉडल प्रक्रिया की वैधता को बनाए रखते हुए असंगतियों की पहचान और सुधार करता है। AIME और MATH500 जैसे बेंचमार्क पर मूल्यांकन प्रदर्शन में पर्याप्त सुधार प्रकट करते हैं, सामान्यीकरण और स्थिरता में प्रगति को उजागर करते हैं, भले ही नमूनाकरण संसाधन सीमित हों।

उल्लेखनीय अनुप्रयोग क्षेत्र:

प्रभाव और भविष्य की संभावनाएँ

MR-RLVR में सत्यापनीय पुरस्कारों और स्व-निरीक्षित अधिगम का एकीकरण न केवल गणितीय तर्क में प्रदर्शन को ऊंचा करता है, बल्कि उन परिदृश्यों में अधिक मजबूत मॉडलों के लिए आधार भी रखता है जहां प्रक्रिया की पारदर्शिता आवश्यक है। यह प्रगति संरचनात्मक समझ को मात्र परिणामों पर प्राथमिकता देने के महत्व को रेखांकित करती है, एक सिद्धांत जो AI के कई क्षेत्रों में स्थानांतरित किया जा सकता है। 🚀