ИИ решает задачи быстрее, чем мы придумываем экзамены 🤖

Темп прогресса искусственного интеллекта в математике превосходит человеческую способность разрабатывать тесты для его оценки. Модели вроде тех, что от Google DeepMind, делают бенчмарки устаревшими за месяцы, и этот цикл ускоряется. Это создаёт проблему для науки: как измерять способности, которые эволюционируют экспоненциально? Необходимость в новых методах оценки очевидна.

Un robot escribe ecuaciones en una pizarra a velocidad de vértigo, mientras un profesor, con tiza en mano, mira perplejo su examen ya resuelto.

Цикл устаревания бенчмарков 🔄

Текущие системы, обученные на огромных объёмах данных и с использованием техник вроде цепного рассуждения, быстро доминируют над конкретными наборами задач. Как только новая тест публикуется, сообщество использует его для обучения и доработки моделей, которые вскоре его превосходят. Этот процесс сокращает срок службы любой метрики, заставляя исследователей искать задачи с большей структурной сложностью или требующие концептуального скачка, отсутствующего в данных обучения.

Учёные просят ИИ оценить себя самого, пожалуйста 🙏

В этой ситуации некоторые предлагают креативные решения. Самое популярное — попросить сам ИИ генерировать экзамены будущего. Это безупречный план: мы делегируем тяжёлую работу, а потом жалуемся, что вопросы слишком лёгкие для него. Логический следующий шаг — ИИ будет сам себя проверять, писать статью и отправлять её в журнал, окончательно освобождая нас от хлопот думать.