マイクロソフト批評：GPTとクロードが協力してAI回答を検証

Microsoftは、Copilot Researcherツール向けの新機能「Critique」を発表しました。その仕組みは、OpenAIのGPTが初期回答を生成し、AnthropicのClaudeが批評的レビュアーとして機能する、2つのAIモデル間の連携に基づいています。この内部ダブルチェックプロセスは、最終結果の精度を高めることを目的としており、深層リサーチタスクにおいて13.8%の改善を達成しています。

精度向上グラフが描かれた書類の上で、一方はコンテンツを生成し、もう一方はそれを批評的にレビューする2体のAIアシスタント。

マルチモデルオーケストレーションアーキテクチャ 🤖

この機能は、異なる専門AIモデルが順次または並行して動作する、技術的なオーケストレーション戦略の一環です。Critiqueは直列的なフローを採用しており、一方のモデルが生成し、もう一方が評価します。これに加えて、Councilは複数のモデルの出力を同時に比較することを可能にします。このアプローチは、単一ベンダーへの依存を減らし、系統的なエラーを軽減し、複雑なタスクにおける信頼性の向上を目指しています。

間違えないために、AIがチーム会議をするようになった 😅

どうやらAIは、終わりのないレビューという企業文化を取り入れてしまったようです。今やGPTは、Claudeから赤いコメントで埋め尽くされたドキュメントを返されずにレポートを送信することはできません。まさに典型的な出す前にちょっと見せて状態です。最終的にユーザーはより洗練された成果物を受け取ることになりますが、次のステップは、モデルたちが情報源の引用方法の最適解をめぐってSlackチャンネルで議論し始めることなのではないか、と疑問に思わずにはいられません。