Anthropic은 인공지능이 외부 도움 없이 스크린샷만 분석하여 포켓몬 파이어레드를 클리어하는 데 성공했습니다. 이 시스템은 인간 플레이어처럼 시행착오를 통해 학습했지만 피로감은 없습니다. 하지만 정치나 건강에 대해 물어보면 실마리가 끊깁니다. 환상에 가득 찬 답변을 내놓기 때문입니다.
인간 개입 없는 시각적 강화 학습 🎮
Anthropic의 모델은 게임의 각 프레임을 정적 이미지로 처리하며, 보상에 기반하여 이동 및 전투 결정을 내립니다. RAM이나 카트리지 내부 데이터에는 접근하지 않습니다. 합성곱 신경망을 사용하여 스프라이트와 텍스트를 식별하고, 경로를 최적화하는 강화 알고리즘을 사용합니다. 훈련에는 수천 번의 시뮬레이션 게임이 필요했지만, 결과적으로 게임 규칙을 알지 못해도 사천왕을 이길 수 있는 에이전트가 탄생했습니다.
게임은 클리어하지만, 정당이 무엇인지는 모릅니다 🤖
레벨업한 파이리로 뮤츠를 쓰러뜨리는 바로 그 AI가 의료 시스템을 설명해 달라고 하면 멍해집니다. 10초 만에 루빅스 큐브를 맞추지만 핀란드가 아프리카에 있다고 믿는 친구와 같습니다. 픽셀 처리에는 매우 능숙하지만 상식은 전무합니다. 적어도 로딩 시간에 불평하거나 5분마다 게임 저장을 요구하지는 않는다는 점이 위안입니다.