Anthropic 已成功让其人工智能独立完成《宝可梦 火红》游戏,仅通过分析屏幕截图即可实现。该系统通过试错学习,如同人类玩家一样,但不知疲倦。然而,当你问它一些政治或健康问题时,它就会出问题:它会用幻想来回答。
无需人工干预的视觉强化学习 🎮
Anthropic 的模型将游戏的每一帧作为静态图像处理,基于奖励机制做出移动和战斗决策。它无法访问 RAM 或卡带的内部数据。它使用卷积神经网络来识别精灵图和文本,并使用优化路径的强化算法。训练需要数千场模拟对局,但结果是一个能够在不知道游戏规则的情况下击败四大天王的智能体。
能通关游戏,却不知道什么是政党 🤖
同一个能用升级版小火龙击败超梦的 AI,如果让它解释医疗系统,就会一片空白。就像一个朋友能在十秒内解开魔方,却认为芬兰在非洲一样。对像素很在行,但毫无常识。至少它不会抱怨加载时间,也不会每隔五分钟就让你保存游戏。