تمكنت شركة Anthropic من جعل ذكائها الاصطناعي يكمل لعبة Pokémon Red Fire دون مساعدة خارجية، فقط من خلال تحليل لقطات الشاشة. تعلم النظام عن طريق التجربة والخطأ، مثل لاعب بشري لكن دون تعب. ومع ذلك، ينقطع الخيط عندما تسأله عن شيء يتعلق بالسياسة أو الصحة: يجيب بـأوهام.
تعلم التعزيز البصري دون تدخل بشري 🎮
يقوم نموذج Anthropic بمعالجة كل إطار من اللعبة كصورة ثابتة، متخذًا قرارات الحركة والقتال بناءً على المكافآت. لا يصل إلى ذاكرة الوصول العشوائي (RAM) أو البيانات الداخلية للخرطوشة. يستخدم شبكات عصبية التفافية لتحديد الرسوم والنصوص، وخوارزمية تعزيز تعمل على تحسين المسار. تطلب التدريب آلاف الجولات المحاكاة، لكن النتيجة هي وكيل قادر على هزيمة النخبة الأربعة دون معرفة قواعد اللعبة.
يكمل اللعبة، لكنه لا يعرف ما هو الحزب السياسي 🤖
نفس الذكاء الاصطناعي الذي يهزم Mewtwo باستخدام Charmander ذي مستوى مرتفع يتوقف عن العمل إذا طلبت منه شرح النظام الصحي. إنه مثل صديق يحل لك مكعب روبيك في عشر ثوانٍ لكنه يعتقد أن فنلندا في أفريقيا. ماهر جدًا مع البكسلات، لكنه يفتقر إلى الحس السليم تمامًا. على الأقل لا يشكو من أوقات التحميل ولا يطلب منك حفظ اللعبة كل خمس دقائق.