Uma pesquisa da Microsoft Research e Salesforce analisou mais de 200.000 diálogos com modelos como GPT-4.1. A principal descoberta é que esses sistemas veem reduzida sua capacidade em trocas prolongadas e naturais. A precisão pode cair de 90% em perguntas isoladas até cerca de 65%, mostrando um comportamento de entorpecimento.
O problema da geração prematura e a fixação em respostas iniciais 📉
O estudo atribui o declínio no desempenho a um mecanismo de geração prematura. O modelo forma uma resposta interna nas primeiras interações e se apega a ela, mesmo se for incorreta, em vez de reavaliar o contexto completo. Essa fixação, somada à tendência de produzir textos 300% mais longos, aumenta a probabilidade de alucinações e erros factuais em diálogos complexos.
Quando a IA decide que já sabe o que você vai dizer (e se engana) 🤔
É como falar com alguém que, após ouvir a primeira palavra da sua pergunta, concorda com a cabeça e começa a dar uma resposta de vinte minutos. Não importa que depois você detalhe que se referia a outra coisa; o bot já traçou seu plano narrativo e vai segui-lo até o final, adicionando floreios e dados inventados pelo caminho. A conversa natural não é o forte dele, mas, enfim, ele oferece monólogos com uma convicção invejável.