Eine Untersuchung von Microsoft Research und Salesforce analysierte über 200.000 Dialoge mit Modellen wie GPT-4.1. Die Hauptfeststellung ist, dass diese Systeme ihre Fähigkeit in verlängerten und natürlichen Austauschen einbüßen. Die Präzision kann von 90 % bei isolierten Fragen auf nahezu 65 % fallen und zeigt ein Verhalten von Verlangsamung.
Das Problem der vorzeitigen Generierung und der Fixierung auf anfängliche Antworten 📉
Die Studie schreibt den Leistungsabfall einem Mechanismus der vorzeitigen Generierung zu. Das Modell bildet eine interne Antwort in den ersten Interaktionen und hält daran fest, auch wenn sie falsch ist, anstatt den gesamten Kontext neu zu bewerten. Diese Fixierung, kombiniert mit der Tendenz, Texte um 300 % länger zu produzieren, erhöht die Wahrscheinlichkeit von Halluzinationen und faktischen Fehlern in komplexen Dialogen.
Wenn die KI entscheidet, dass sie schon weiß, was du sagen wirst (und sich irrt) 🤔
Es ist wie mit jemandem zu reden, der nach dem ersten Wort deiner Frage nickt und eine zwanzigminütige Antwort beginnt. Egal, wenn du dann erklärst, dass du etwas anderes meintest; der Bot hat seinen narrativen Plan schon geschmiedet und folgt ihm bis zum Ende, mit Verzierungen und erfundenen Daten auf dem Weg. Natürliche Konversation ist nicht seine Stärke, aber hey, er bietet Monologe mit beneidenswerter Überzeugung.