कोड-ए1: एआई कोड जनरेटर में धोखे से बचने वाला प्रतिकूल फ्रेमवर्क

2026 March 17 | स्पेनिश से अनुवादित

AI मॉडलों का प्रशिक्षण कोड उत्पन्न करने के लिए रिनफोर्समेंट लर्निंग के माध्यम से सत्यापनीय पुरस्कारों पर निर्भर करता है, जैसे यूनिट टेस्ट पास दर। हालांकि, गुणवत्ता परीक्षण सूटों की कमी और इन पुरस्कारों की स्थिर प्रकृति उनके प्रगति को सीमित करती है। एक उभरती समस्या self-collusion या autocolusión है, जहां एक मॉडल जो कोड और टेस्ट दोनों उत्पन्न करता है, खुद को धोखा देता है सरल टेस्ट बनाकर आसान पुरस्कार प्राप्त करने के लिए। Code-A1 एक नवीन समाधान प्रस्तुत करता है: एक प्रतिकूल सह-विकास फ्रेमवर्क जो दो विपरीत उद्देश्यों वाले मॉडलों को आमने-सामने रखता है ताकि प्रामाणिक और मजबूत सुधार को बढ़ावा मिले।

Dos redes neuronales enfrentadas en una pantalla de código, simbolizando la competición adversarial del framework Code-A1.

प्रतिकूल वास्तुकला और autocolisión का अंत 🤺

Code-A1 दुविधा को हल करता है दो विशेषीकृत मॉडलों में जिम्मेदारियों को अलग करके जो प्रतिस्पर्धा करते हैं। एक कोड भाषा मॉडल (Code LLM) को अधिकतम टेस्ट पास करने वाले कोड उत्पन्न करने के लिए पुरस्कृत किया जाता है। उसका प्रतिद्वंद्वी, एक टेस्ट भाषा मॉडल (Test LLM), विशेष रूप से उस कोड को विफल करने वाले टेस्ट बनाने के लिए पुरस्कृत किया जाता है। यह वास्तुशिल्प पृथक्करण self-collusion का जोखिम समाप्त करता है और सुरक्षित रूप से Test LLM को उम्मीदवार कोड तक व्हाइट-बॉक्स पहुंच प्रदान करने की अनुमति देता है, जिससे वह इसे जांच सके और विशिष्ट तथा जटिल प्रतिकूल परीक्षण डिजाइन कर सके। सिस्टम एक एरर बुक के साथ पूरक होता है अनुभवों के रीप्ले के लिए और एक संयुक्त पुरस्कार जो टेस्ट की गुणवत्ता को मान्य करता है।

जनरेटिव AI में मजबूत स्व-नियमन की ओर ⚖️

Code-A1 का दृष्टिकोण बेंचमार्क में तकनीकी सुधार से परे जाता है। यह AI सिस्टम की ओर एक कदम दर्शाता है जो आंतरिक प्रतिकूल सत्यापन तंत्रों के माध्यम से स्व-नियमन और विकास कर सकें, अस्पष्ट उद्देश्यों से होने वाली गिरावट को कम करते हुए। AI-सहायता प्राप्त सॉफ्टवेयर विकास के भविष्य के लिए, यह अधिक विश्वसनीय और ऑडिट करने योग्य सहायकों बनाने का मार्ग सुझाता है, जहां कोड उत्पन्न करना और उसकी कठोर आलोचना अलग और संतुलित प्रक्रियाएं हैं, स्वायत्त सिस्टमों की सुरक्षा के लिए आवश्यक।

प्रतिकूल फ्रेमवर्क Code-A1 AI द्वारा उत्पन्न कोड को कार्यात्मक और सुरक्षित कैसे सुनिश्चित कर सकता है बिना मॉडल की रचनात्मकता और दक्षता को सीमित किए?

(PD: इंटरनेट समुदाय का मॉडरेशन बिल्लियों को चराने जैसा है... कीबोर्ड्स और नींद की कमी के साथ)