Исследование Microsoft Research и Salesforce проанализировало более 200 000 диалогов с моделями вроде GPT-4.1. Главное открытие заключается в том, что эти системы теряют способность в затяжных и естественных обменах. Точность может падать с 90% в изолированных вопросах до около 65%, демонстрируя поведение замедления.
Проблема преждевременной генерации и фиксации на начальных ответах 📉
Исследование приписывает снижение производительности механизму преждевременной генерации. Модель формирует внутренний ответ в первых взаимодействиях и цепляется за него, даже если он неверен, вместо того чтобы переоценивать полный контекст. Эта фиксация,加上 тенденция производить тексты на 300% длиннее, увеличивает вероятность галлюцинаций и фактических ошибок в сложных диалогах.
Когда ИИ решает, что уже знает, что вы скажете (и ошибается) 🤔
Это как разговаривать с кем-то, кто, услышав первое слово вашего вопроса, кивает головой и начинает давать ответ длиной в двадцать минут. Не важно, что потом вы уточняете, что имели в виду другое; бот уже наметил свой нарративный план и будет следовать ему до конца, добавляя по пути украшения и выдуманные данные. Естественный разговор — не его сильная сторона, но, черт возьми, он предлагает монологи с завидной убежденностью.