La IA resuelve problemas más rápido de lo que creamos los exámenes 🤖

El ritmo de avance de la inteligencia artificial en matemáticas supera la capacidad humana para diseñar pruebas que la evalúen. Modelos como los de Google DeepMind dejan obsoletos los benchmarks en meses, un ciclo que se acelera. Esto genera un problema para la ciencia: ¿cómo medir capacidades que evolucionan de forma exponencial? La necesidad de nuevos métodos de evaluación es clara.

Un robot escribe ecuaciones en una pizarra a velocidad de vértigo, mientras un profesor, con tiza en mano, mira perplejo su examen ya resuelto.

El ciclo de obsolescencia de los benchmarks 🔄

Los sistemas actuales, entrenados con volúmenes masivos de datos y técnicas como el razonamiento en cadena, dominan rápidamente conjuntos de problemas específicos. Una vez publicada una nueva prueba, la comunidad la usa para entrenar y ajustar modelos, que pronto la superan. Este proceso acorta la vida útil de cualquier métrica, forzando a los investigadores a buscar problemas con mayor complejidad estructural o que requieran un salto conceptual no presente en los datos de entrenamiento.

Científicos piden a la IA que se evalúe a sí misma, por favor 🙏

Ante la situación, algunos proponen soluciones creativas. La más popular es pedirle a la propia IA que genere los exámenes del futuro. Es un plan impecable: delegamos el trabajo pesado y luego nos quejamos de que las preguntas son demasiado fáciles para ella. El siguiente paso lógico será que la IA también se corrija sola, escriba el paper y lo envíe a una revista, liberándonos definitivamente de la molestia de pensar.