Il ritmo di avanzamento dell'intelligenza artificiale in matematica supera la capacità umana di progettare prove che la valutino. Modelli come quelli di Google DeepMind rendono obsoleti i benchmark in mesi, un ciclo che si accelera. Questo genera un problema per la scienza: come misurare capacità che evolvono in modo esponenziale? La necessità di nuovi metodi di valutazione è chiara.
Il ciclo di obsolescenza dei benchmark 🔄
I sistemi attuali, addestrati con volumi massicci di dati e tecniche come il ragionamento a catena, dominano rapidamente insiemi di problemi specifici. Una volta pubblicata una nuova prova, la comunità la usa per addestrare e affinare modelli, che presto la superano. Questo processo accorcia la vita utile di qualsiasi metrica, costringendo i ricercatori a cercare problemi con maggiore complessità strutturale o che richiedano un salto concettuale non presente nei dati di addestramento.
Gli scienziati chiedono all'IA di valutarsi da sola, per favore 🙏
Davanti alla situazione, alcuni propongono soluzioni creative. La più popolare è chiedere alla stessa IA di generare gli esami del futuro. È un piano impeccabile: deleghiamo il lavoro pesante e poi ci lamentiamo che le domande sono troppo facili per lei. Il passo logico successivo sarà che l'IA si corregga da sola, scriva l'articolo e lo invii a una rivista, liberandoci definitivamente dalla seccatura di pensare.