AIモデルは長い会話で精度を失う、研究によると🤖

Microsoft ResearchとSalesforceの研究が、GPT-4.1などのモデルとの20万以上の対話を分析しました。主要な発見は、これらのシステムが長く自然なやり取りで能力が低下することです。精度は孤立した質問での90%から約65%まで低下し、鈍化の挙動を示します。

Un gráfico muestra la caída de precisión de IA en diálogos largos, de 90% a 65%, con líneas descendentes sobre una conversación extensa.

早期生成と初期応答への固執の問題 📉

この研究は、パフォーマンスの低下を早期生成のメカニズムに帰しています。モデルは最初のやり取りで内部応答を形成し、それが誤っていてもそれに固執し、完全な文脈を再評価しません。この固執は、テキストを300%長く生成する傾向と相まって、複雑な対話での幻覚と事実誤認の確率を高めます。

AIがあなたが何を言うかをすでに知っていると決めつけ（そして間違える）とき 🤔

質問の最初の言葉を聞いただけでうなずいて20分間の応答を始め始める人と話しているようなものです。後で別のことを言っていると詳しく説明しても、ボットはすでにナラティブの計画を立ててしまい、最後までそれを続け、花飾りを加え、道中ででっち上げのデータを追加します。自然な会話は得意ではありませんが、羨ましいほどの確信を持って独白を提供します。