Anthropicは、スクリーンショットを分析するだけで、外部の助けなしに人工知能が『ポケットモンスター ファイアレッド』をクリアすることに成功しました。このシステムは、人間のプレイヤーのように試行錯誤を繰り返して学習しましたが、疲れることはありません。しかし、政治や健康について質問すると、幻覚のような回答を返すという問題があります。
人間の介入なしの視覚的強化学習 🎮
Anthropicのモデルは、ゲームの各フレームを静止画像として処理し、報酬に基づいて移動や戦闘の決定を行います。RAMやカートリッジの内部データにはアクセスしません。スプライトやテキストを識別するために畳み込みニューラルネットワークを使用し、経路を最適化する強化学習アルゴリズムを採用しています。トレーニングには数千回のシミュレーションプレイが必要でしたが、その結果、ゲームのルールを知らなくても四天王を倒せるエージェントが誕生しました。
ゲームはクリアできるが、政党が何かは理解できない 🤖
レベルを上げたヒトカゲでミュウツーを倒す同じAIも、医療制度の説明を求められると、何も答えられなくなります。まるで、ルービックキューブを10秒で解けるのに、フィンランドがアフリカにあると信じている友人のようです。ピクセル操作には非常に長けていますが、常識はまったくありません。少なくとも、ロード時間に文句を言ったり、5分ごとにセーブを促したりしないのは良い点です。