قامت دراسة من Microsoft Research وSalesforce بتحليل أكثر من 200.000 حوار مع نماذج مثل GPT-4.1. النتيجة الرئيسية هي أن هذه الأنظمة تشهد انخفاضًا في قدرتها في التبادلات الطويلة والطبيعية. يمكن أن تنخفض الدقة من 90% في الأسئلة المعزولة إلى حوالي 65%، مما يظهر سلوك التباطؤ.
مشكلة الإنتاج المبكر والتثبت في الردود الأولية 📉
تنسب الدراسة الانخفاض في الأداء إلى آلية الإنتاج المبكر. يشكل النموذج ردًا داخليًا في التفاعلات الأولى ويتمسك به، حتى لو كان خاطئًا، بدلاً من إعادة تقييم السياق الكامل. هذا التثبت، إضافة إلى الاتجاه نحو إنتاج نصوص أطول بنسبة 300%، يزيد من احتمالية الهلوسات والأخطاء الواقعية في الحوارات المعقدة.
عندما يقرر الذكاء الاصطناعي أنه يعرف ما ست قوله بالفعل (ويخطئ) 🤔
إنه مثل الحديث مع شخص، بعد سماع الكلمة الأولى من سؤالك، يومئ برأسه ويبدأ في إعطاء رد يدوم عشرين دقيقة. لا يهم إذا أوضحت له لاحقًا أنك تقصد شيئًا آخر؛ الروبوت قد رسم خطته السردية بالفعل وسيتبعها حتى النهاية، مضيفًا زخارف وبيانات ملفقة على الطريق. الحديث الطبيعي ليس قوته، لكنه، يقدم مونولوجات بإقناع يدعو إلى الغيرة.