인공지능의 수학 분야 발전 속도는 이를 평가하기 위한 인간의 테스트 설계 능력을 초월합니다. Google DeepMind와 같은 모델들은 몇 달 만에 벤치마크를 구식으로 만들며, 이 사이클이 가속화되고 있습니다. 이는 과학에 문제를 제기합니다: 지수적으로 진화하는 능력을 어떻게 측정할 것인가? 새로운 평가 방법의 필요성은 명확합니다.
벤치마크의 구식화 사이클 🔄
현재 시스템들은 대량의 데이터와 체인 오브 소트(chain-of-thought)와 같은 기법으로 훈련되어 특정 문제 집합을 빠르게 장악합니다. 새로운 테스트가 공개되면 커뮤니티가 이를 모델 훈련과 조정에 사용하며, 곧 이를 초월합니다. 이 과정은 모든 메트릭의 수명을 단축시켜 연구자들이 훈련 데이터에 없는 더 큰 구조적 복잡성이나 개념적 도약을 요구하는 문제를 찾아야 하게 만듭니다.
과학자들이 AI에게 스스로 평가해 달라고 요청합니다, 제발 🙏
이 상황에서 일부는 창의적인 해결책을 제안합니다. 가장 인기 있는 것은 AI 자체에게 미래의 시험을 생성하게 하는 것입니다. 완벽한 계획입니다: 무거운 작업을 위임한 후 질문이 그녀에게 너무 쉽다고 불평합니다. 논리적인 다음 단계는 AI가 스스로 채점하고, 논문을 작성하며, 잡지에 제출하는 것이 될 것입니다. 이는 우리를 생각의 번거로움에서 완전히 해방시킬 것입니다.