人工智能在数学领域的进步速度超过了人类设计评估其能力测试的能力。像Google DeepMind这样的模型在几个月内就让基准测试过时,这个周期正在加速。这为科学带来了一个问题:如何衡量以指数方式演化的能力?新评估方法的必要性显而易见。
基准测试的过时周期 🔄
当前系统使用海量数据训练,并采用如链式推理等技术,迅速主导特定问题集。一旦发布新测试,社区就会用它来训练和调整模型,这些模型很快就会超越它。这个过程缩短了任何指标的使用寿命,迫使研究人员寻找具有更高结构复杂性的问题,或需要训练数据中不存在的概念跳跃的问题。
科学家请人工智能自我评估,好吗 🙏
面对这种情况,一些人提出创造性解决方案。最受欢迎的是让人工智能自己生成未来的考试。这是一个完美的计划:我们把繁重的工作委托出去,然后抱怨问题对它来说太简单了。逻辑上的下一步将是人工智能自己批改、写论文并提交到期刊,从而彻底解放我们免于思考的麻烦。