微软研究和 Salesforce 的一项研究分析了超过 200,000 个与 GPT-4.1 等模型的对话。主要发现是,这些系统在延长和自然的交流中能力降低。精度可能从孤立问题中的 90% 下降到接近 65%,显示出迟钝的行为。
过早生成和对初始响应的固着问题 📉
研究将性能下降归因于过早生成机制。模型在最初互动中形成内部响应,并坚持它,即使它是错误的,而不是重新评估完整上下文。这种固着,加上产生文本长度增加 300% 的趋势,在复杂对话中增加了幻觉和事实错误的概率。
当 AI 决定它已经知道你要说什么(并且错了) 🤔
这就像和某人说话,他听到你问题的第一个词后就点头并开始给出二十分钟的回答。无论你后来详细说明你指的是别的东西;机器人已经制定了它的叙事计划,并会坚持到底,途中添加华丽的修饰和虚构的数据。自然对话不是它的强项,但它提供独白时的信念令人羡慕。