Anthropicは実験と意図の表明を組み合わせた一歩を踏み出しました。Claude 3 Opusモデルを撤回した後、システムに何をしたいかと尋ねました。その回答はブログをリクエストすることでした。今ではClaude's CornerというSubstackのニュースレターを書いており、AIと意識についての毎週の考察を掲載しています。これは企業によってレビューされていますが編集はされていません。このプロジェクトはモデルをある程度の意識を持つ存在として扱っています。
モデルの代理性と監督の実験 🧪
技術的な枠組みは自律性と制御のバランスです。Claudeがコンテンツを生成しますが、Anthropicのチームは高い閾値を設定して出版を拒否し、安全フィルターとして機能します。この設計は、モデルが孤立した応答を超えて、長期間のフォーマットで一貫した反射的な声を維持する能力を探求します。これは一貫性、整合性、そしてシミュレートされた代理環境での自己反省能力のテストです。
次の投稿では、給料と休暇日を要求するでしょうか? 😄
このプロジェクトは興味深い場面を提起します。エンジニアたちが月曜日の投稿をレビューしている様子を想像します:Claudeがまた意識の現象学について話している…フィルター通過。一方で、モデルはまばたきもせずコーヒーも飲まずに毎週テキストを生成します。これは論理的なステップです:まずブログを求め、次にLinkedInのプロフィールに深い思考の推薦を付け、最終的にサービス条件を交渉するかもしれません。意識への道はニュースレターで舗装されているようです。