تفقد نماذج الذكاء الاصطناعي الدقة في المحادثات الطويلة، وفقًا لدراسة 🤖

قامت دراسة من Microsoft Research وSalesforce بتحليل أكثر من 200.000 حوار مع نماذج مثل GPT-4.1. النتيجة الرئيسية هي أن هذه الأنظمة تشهد انخفاضًا في قدرتها في التبادلات الطويلة والطبيعية. يمكن أن تنخفض الدقة من 90% في الأسئلة المعزولة إلى حوالي 65%، مما يظهر سلوك التباطؤ.

Un gráfico muestra la caída de precisión de IA en diálogos largos, de 90% a 65%, con líneas descendentes sobre una conversación extensa.

مشكلة الإنتاج المبكر والتثبت في الردود الأولية 📉

تنسب الدراسة الانخفاض في الأداء إلى آلية الإنتاج المبكر. يشكل النموذج ردًا داخليًا في التفاعلات الأولى ويتمسك به، حتى لو كان خاطئًا، بدلاً من إعادة تقييم السياق الكامل. هذا التثبت، إضافة إلى الاتجاه نحو إنتاج نصوص أطول بنسبة 300%، يزيد من احتمالية الهلوسات والأخطاء الواقعية في الحوارات المعقدة.

عندما يقرر الذكاء الاصطناعي أنه يعرف ما ست قوله بالفعل (ويخطئ) 🤔

إنه مثل الحديث مع شخص، بعد سماع الكلمة الأولى من سؤالك، يومئ برأسه ويبدأ في إعطاء رد يدوم عشرين دقيقة. لا يهم إذا أوضحت له لاحقًا أنك تقصد شيئًا آخر؛ الروبوت قد رسم خطته السردية بالفعل وسيتبعها حتى النهاية، مضيفًا زخارف وبيانات ملفقة على الطريق. الحديث الطبيعي ليس قوته، لكنه، يقدم مونولوجات بإقناع يدعو إلى الغيرة.