O ritmo de avanço da inteligência artificial em matemática supera a capacidade humana para projetar provas que a avaliem. Modelos como os do Google DeepMind deixam obsoletos os benchmarks em meses, um ciclo que se acelera. Isso gera um problema para a ciência: como medir capacidades que evoluem de forma exponencial? A necessidade de novos métodos de avaliação é clara.
O ciclo de obsolescência dos benchmarks 🔄
Os sistemas atuais, treinados com volumes massivos de dados e técnicas como o raciocínio em cadeia, dominam rapidamente conjuntos de problemas específicos. Uma vez publicada uma nova prova, a comunidade a usa para treinar e ajustar modelos, que logo a superam. Esse processo encurta a vida útil de qualquer métrica, forçando os pesquisadores a buscar problemas com maior complexidade estrutural ou que exijam um salto conceitual não presente nos dados de treinamento.
Cientistas pedem à IA que se avalie a si mesma, por favor 🙏
Diante da situação, alguns propõem soluções criativas. A mais popular é pedir à própria IA que gere os exames do futuro. É um plano impecável: delegamos o trabalho pesado e depois reclamamos de que as perguntas são fáceis demais para ela. O próximo passo lógico será que a IA também se corrija sozinha, escreva o paper e o envie para uma revista, libertando-nos definitivamente da molestia de pensar.