एआई परीक्षाओं से तेज़ी से समस्याओं को हल करती है जितना हम सोचते हैं 🤖

2026 February 26 | स्पेनिश से अनुवादित

गणित में कृत्रिम बुद्धिमत्ता के प्रगति की गति मानव क्षमता को पार कर जाती है जो परीक्षण डिजाइन करने की जो इसे मूल्यांकन करे। गूगल डीपमाइंड जैसे मॉडल बेंचमार्क को महीनों में अप्रचलित कर देते हैं, एक चक्र जो तेज हो रहा है। यह विज्ञान के लिए एक समस्या पैदा करता है: एक्सपोनेंशियल रूप से विकसित होने वाली क्षमताओं को कैसे मापें? नए मूल्यांकन विधियों की आवश्यकता स्पष्ट है।

Un robot escribe ecuaciones en una pizarra a velocidad de vértigo, mientras un profesor, con tiza en mano, mira perplejo su examen ya resuelto.

बेंचमार्क्स के अप्रचलन का चक्र 🔄

वर्तमान सिस्टम, विशाल मात्रा के डेटा और चेन ऑफ थॉट जैसी तकनीकों से प्रशिक्षित, विशिष्ट समस्या सेटों पर जल्दी हावी हो जाते हैं। एक बार नया परीक्षण प्रकाशित होने पर, समुदाय इसे मॉडल्स को प्रशिक्षित और समायोजित करने के लिए उपयोग करता है, जो जल्द ही इसे पार कर जाते हैं। यह प्रक्रिया किसी भी मेट्रिक की उपयोगी जीवन को छोटा कर देती है, शोधकर्ताओं को अधिक संरचनात्मक जटिलता वाले समस्याओं या प्रशिक्षण डेटा में मौजूद न होने वाले कॉन्सेप्टुअल जंप की तलाश करने के लिए मजबूर करती है।

वैज्ञानिक एआई से कहते हैं कि खुद को मूल्यांकन करे, कृपया 🙏

इस स्थिति के सामने, कुछ रचनात्मक समाधान प्रस्तावित करते हैं। सबसे लोकप्रिय यह है कि एआई से ही भविष्य के परीक्षाओं को उत्पन्न करने को कहें। यह एक दोषरहित योजना है: हम भारी काम सौंप देते हैं और फिर शिकायत करते हैं कि प्रश्न उसके लिए बहुत आसान हैं। तार्किक अगला कदम यह होगा कि एआई खुद को सुधार भी ले, पेपर लिखे और इसे पत्रिका में भेज दे, हमें सोचने की झंझट से पूरी तरह मुक्त कर दे।