人工智能模型在长对话中精度下降，据研究 🤖

微软研究和 Salesforce 的一项研究分析了超过 200,000 个与 GPT-4.1 等模型的对话。主要发现是，这些系统在延长和自然的交流中能力降低。精度可能从孤立问题中的 90% 下降到接近 65%，显示出迟钝的行为。

过早生成和对初始响应的固着问题 📉

研究将性能下降归因于过早生成机制。模型在最初互动中形成内部响应，并坚持它，即使它是错误的，而不是重新评估完整上下文。这种固着，加上产生文本长度增加 300% 的趋势，在复杂对话中增加了幻觉和事实错误的概率。

这就像和某人说话，他听到你问题的第一个词后就点头并开始给出二十分钟的回答。无论你后来详细说明你指的是别的东西；机器人已经制定了它的叙事计划，并会坚持到底，途中添加华丽的修饰和虚构的数据。自然对话不是它的强项，但它提供独白时的信念令人羡慕。