Anthropic добилась того, что её искусственный интеллект прошёл Pokémon FireRed без внешней помощи, лишь анализируя скриншоты. Система училась методом проб и ошибок, как человек-игрок, но без усталости. Однако всё рушится, когда вы задаёте ей вопрос о политике или здравоохранении: она отвечает фантазиями.
Визуальное обучение с подкреплением без вмешательства человека 🎮
Модель Anthropic обрабатывает каждый кадр игры как статичное изображение, принимая решения о движении и бою на основе вознаграждений. Она не получает доступ к оперативной памяти или внутренним данным картриджа. Используются свёрточные нейронные сети для идентификации спрайтов и текста, а также алгоритм подкрепления, оптимизирующий маршрут. Обучение потребовало тысяч симулированных партий, но результатом стал агент, способный победить Элитную четвёрку, не зная правил игры.
Проходит игру, но не знает, что такое политическая партия 🤖
Тот же ИИ, который побеждает Мьюту с прокачанным Чармандером, впадает в ступор, если попросить его объяснить систему здравоохранения. Это как друг, который собирает кубик Рубика за десять секунд, но считает, что Финляндия находится в Африке. Очень умелый с пикселями, но абсолютно лишённый здравого смысла. По крайней мере, он не жалуется на время загрузки и не просит сохранить игру каждые пять минут.