数学における人工知能の進歩の速度は、それを評価するためのテストを設計する人間の能力を上回っています。Google DeepMindのようなモデルは、数ヶ月でベンチマークを時代遅れにし、そのサイクルが加速しています。これにより科学に問題が生じます:指数関数的に進化する能力をどう測定するか?新しい評価方法の必要性は明らかです。
ベンチマークの陳腐化サイクル 🔄
現在のシステムは、大量のデータとチェーン・オブ・ソートのような技法で訓練され、特定の課題セットを素早く支配します。新たなテストが公開されると、コミュニティがそれを訓練とモデルの調整に使い、すぐにそれを上回ります。このプロセスはあらゆる指標の寿命を短くし、研究者に訓練データにないより高い構造的複雑性を持つ問題や概念的飛躍を必要とする問題を探すことを強要します。
科学者たちがAIに自己評価をお願いする、ぜひ 🙏
この状況に対し、一部の者が創造的な解決策を提案しています。最も人気があるのは、AI自身に未来の試験を生成させるというものです。完璧な計画です:面倒な仕事を委譲し、後で質問が彼女にとって簡単すぎると文句を言うのです。論理的な次のステップは、AIが自己修正し、論文を書いて雑誌に投稿することでしょう。これで私たちは考える煩わしさから完全に解放されます。