AI 모델, 긴 대화에서 정확도 하락… 연구 결과 🤖

Microsoft Research와 Salesforce의 연구에서 GPT-4.1과 같은 모델과의 200,000개 이상의 대화를 분석했습니다. 주요 발견은 이러한 시스템이 장기적이고 자연스러운 교환에서 능력이 감소한다는 것입니다. 정확도는 고립된 질문에서 90%에서 거의 65%까지 떨어질 수 있으며, 둔화 행동을 보입니다.

Un gráfico muestra la caída de precisión de IA en diálogos largos, de 90% a 65%, con líneas descendentes sobre una conversación extensa.

조기 생성과 초기 응답 고정 문제 📉

이 연구는 성능 저하를 조기 생성 메커니즘으로 돌립니다. 모델은 초기 상호작용에서 내부 응답을 형성하고, 그것이 잘못되었더라도 전체 맥락을 재평가하는 대신 그것에 집착합니다. 이 고정은 텍스트를 300% 더 길게 생성하는 경향과 합쳐져 복잡한 대화에서 환각과 사실 오류의 확률을 증가시킵니다.

AI가 당신이 말할 것을 이미 안다고 결정할 때 (그리고 틀릴 때) 🤔

질문의 첫 단어를 듣자마자 고개를 끄덕이고 20분짜리 응답을 시작하는 사람과 이야기하는 것과 같습니다. 나중에 다른 것을 의미한다고 자세히 설명해도 상관없습니다; 봇은 이미 서사 계획을 세웠고 끝까지 따를 것입니다. 도중에 장식과 발명된 데이터를 추가하면서요. 자연스러운 대화는 그들의 강점이 아니지만, 부러울 정도로 확신에 찬 독백을 제공합니다.