Anthropic ha logrado que su inteligencia artificial complete Pokémon Rojo Fuego sin ayuda externa, solo analizando capturas de pantalla. El sistema aprendió por prueba y error, como un jugador humano pero sin fatiga. Sin embargo, el hilo se rompe cuando le preguntas algo de política o salud: responde con fantasías.
Aprendizaje por refuerzo visual sin intervención humana 🎮
El modelo de Anthropic procesa cada frame del juego como una imagen estática, tomando decisiones de movimiento y combate basadas en recompensas. No accede a la memoria RAM ni a datos internos del cartucho. Usa redes neuronales convolucionales para identificar sprites y texto, y un algoritmo de refuerzo que optimiza la ruta. El entrenamiento requirió miles de partidas simuladas, pero el resultado es un agente capaz de vencer a la Élite Four sin conocer las reglas del juego.
Pasa el juego, pero no sabe qué es un partido político 🤖
La misma IA que derrota a Mewtwo con un Charmander subido de nivel se queda en blanco si le pides que explique el sistema sanitario. Es como un amigo que te resuelve un cubo de Rubik en diez segundos pero cree que Finlandia está en África. Muy hábil con los píxeles, pero cero sentido común. Al menos no se queja de los tiempos de carga ni te pide guardar la partida cada cinco minutos.