Una ricerca di Microsoft Research e Salesforce ha analizzato oltre 200.000 dialoghi con modelli come GPT-4.1. Il principale risultato è che questi sistemi vedono ridotta la loro capacità in scambi prolungati e naturali. La precisione può scendere dal 90% nelle domande isolate fino a circa il 65%, mostrando un comportamento di offuscamento.
Il problema della generazione prematura e della fissazione sulle risposte iniziali 📉
Lo studio attribuisce il declino delle prestazioni a un meccanismo di generazione prematura. Il modello forma una risposta interna nelle prime interazioni e si aggrappa ad essa, anche se è errata, invece di rivalutare il contesto completo. Questa fissazione, sommata alla tendenza a produrre testi del 300% più lunghi, aumenta la probabilità di allucinazioni ed errori fattuali in dialoghi complessi.
Quando l'IA decide che già sa cosa stai per dire (e sbaglia) 🤔
È come parlare con qualcuno che, dopo aver sentito la prima parola della tua domanda, annuisce con la testa e inizia a dare una risposta di venti minuti. Non importa che poi gli spieghi che ti riferivi a qualcos'altro; il bot ha già tracciato il suo piano narrativo e lo seguirà fino alla fine, aggiungendo abbellimenti e dati inventati lungo il cammino. La conversazione naturale non è il suo forte, ma offre monologhi con una convinzione invidiabile.