L'IA résout les problèmes plus vite que nous ne le croyons les examens 🤖

Le rythme d'avancement de l'intelligence artificielle en mathématiques dépasse la capacité humaine à concevoir des tests pour l'évaluer. Des modèles comme ceux de Google DeepMind rendent obsolètes les benchmarks en quelques mois, un cycle qui s'accélère. Cela pose un problème à la science : comment mesurer des capacités qui évoluent de manière exponentielle ? La nécessité de nouveaux méthodes d'évaluation est claire.

Un robot écrit des équations sur un tableau à une vitesse vertigineuse, tandis qu'un professeur, craie en main, regarde perplexe son examen déjà résolu.

Le cycle d'obsolescence des benchmarks 🔄

Les systèmes actuels, entraînés avec des volumes massifs de données et des techniques comme le raisonnement en chaîne, dominent rapidement des ensembles de problèmes spécifiques. Une fois qu'un nouveau test est publié, la communauté l'utilise pour entraîner et ajuster des modèles, qui le surpassent bientôt. Ce processus raccourcit la durée de vie de toute métrique, forçant les chercheurs à chercher des problèmes avec une plus grande complexité structurelle ou qui requièrent un saut conceptuel absent des données d'entraînement.

Les scientifiques demandent à l'IA de s'auto-évaluer, s'il vous plaît 🙏

Face à la situation, certains proposent des solutions créatives. La plus populaire est de demander à l'IA elle-même de générer les examens du futur. C'est un plan impeccable : nous déléguons le travail lourd et ensuite nous nous plaignons que les questions sont trop faciles pour elle. L'étape logique suivante sera que l'IA se corrige elle-même, rédige l'article et l'envoie à une revue, nous libérant définitivement de la corvée de penser.