Anthropic a réussi à faire compléter Pokémon Rouge Feu par son intelligence artificielle sans aide extérieure, en analysant uniquement des captures d'écran. Le système a appris par essais et erreurs, comme un joueur humain mais sans fatigue. Cependant, le fil se rompt quand on lui pose une question sur la politique ou la santé : il répond avec des fantasmes.
Apprentissage par renforcement visuel sans intervention humaine 🎮
Le modèle d'Anthropic traite chaque image du jeu comme une image statique, prenant des décisions de déplacement et de combat basées sur des récompenses. Il n'accède pas à la RAM ni aux données internes de la cartouche. Il utilise des réseaux de neurones convolutifs pour identifier les sprites et le texte, ainsi qu'un algorithme de renforcement qui optimise le chemin. L'entraînement a nécessité des milliers de parties simulées, mais le résultat est un agent capable de vaincre le Conseil des 4 sans connaître les règles du jeu.
Il termine le jeu, mais ne sait pas ce qu'est un parti politique 🤖
La même IA qui bat Mewtwo avec un Salamèche monté de niveau reste perplexe si on lui demande d'expliquer le système de santé. C'est comme un ami qui résout un Rubik's Cube en dix secondes mais croit que la Finlande est en Afrique. Très habile avec les pixels, mais zéro bon sens. Au moins, elle ne se plaint pas des temps de chargement et ne vous demande pas de sauvegarder toutes les cinq minutes.