गणित में कृत्रिम बुद्धिमत्ता के प्रगति की गति मानव क्षमता को पार कर जाती है जो परीक्षण डिजाइन करने की जो इसे मूल्यांकन करे। गूगल डीपमाइंड जैसे मॉडल बेंचमार्क को महीनों में अप्रचलित कर देते हैं, एक चक्र जो तेज हो रहा है। यह विज्ञान के लिए एक समस्या पैदा करता है: एक्सपोनेंशियल रूप से विकसित होने वाली क्षमताओं को कैसे मापें? नए मूल्यांकन विधियों की आवश्यकता स्पष्ट है।
बेंचमार्क्स के अप्रचलन का चक्र 🔄
वर्तमान सिस्टम, विशाल मात्रा के डेटा और चेन ऑफ थॉट जैसी तकनीकों से प्रशिक्षित, विशिष्ट समस्या सेटों पर जल्दी हावी हो जाते हैं। एक बार नया परीक्षण प्रकाशित होने पर, समुदाय इसे मॉडल्स को प्रशिक्षित और समायोजित करने के लिए उपयोग करता है, जो जल्द ही इसे पार कर जाते हैं। यह प्रक्रिया किसी भी मेट्रिक की उपयोगी जीवन को छोटा कर देती है, शोधकर्ताओं को अधिक संरचनात्मक जटिलता वाले समस्याओं या प्रशिक्षण डेटा में मौजूद न होने वाले कॉन्सेप्टुअल जंप की तलाश करने के लिए मजबूर करती है।
वैज्ञानिक एआई से कहते हैं कि खुद को मूल्यांकन करे, कृपया 🙏
इस स्थिति के सामने, कुछ रचनात्मक समाधान प्रस्तावित करते हैं। सबसे लोकप्रिय यह है कि एआई से ही भविष्य के परीक्षाओं को उत्पन्न करने को कहें। यह एक दोषरहित योजना है: हम भारी काम सौंप देते हैं और फिर शिकायत करते हैं कि प्रश्न उसके लिए बहुत आसान हैं। तार्किक अगला कदम यह होगा कि एआई खुद को सुधार भी ले, पेपर लिखे और इसे पत्रिका में भेज दे, हमें सोचने की झंझट से पूरी तरह मुक्त कर दे।