Темп прогресса искусственного интеллекта в математике превосходит человеческую способность разрабатывать тесты для его оценки. Модели вроде тех, что от Google DeepMind, делают бенчмарки устаревшими за месяцы, и этот цикл ускоряется. Это создаёт проблему для науки: как измерять способности, которые эволюционируют экспоненциально? Необходимость в новых методах оценки очевидна.
Цикл устаревания бенчмарков 🔄
Текущие системы, обученные на огромных объёмах данных и с использованием техник вроде цепного рассуждения, быстро доминируют над конкретными наборами задач. Как только новая тест публикуется, сообщество использует его для обучения и доработки моделей, которые вскоре его превосходят. Этот процесс сокращает срок службы любой метрики, заставляя исследователей искать задачи с большей структурной сложностью или требующие концептуального скачка, отсутствующего в данных обучения.
Учёные просят ИИ оценить себя самого, пожалуйста 🙏
В этой ситуации некоторые предлагают креативные решения. Самое популярное — попросить сам ИИ генерировать экзамены будущего. Это безупречный план: мы делегируем тяжёлую работу, а потом жалуемся, что вопросы слишком лёгкие для него. Логический следующий шаг — ИИ будет сам себя проверять, писать статью и отправлять её в журнал, окончательно освобождая нас от хлопот думать.