OpenAIの元最高技術責任者、ミラ・ムラティ氏が新会社Thinking Machinesを立ち上げ、再び脚光を浴びています。月曜日、同社はインタラクションモデルと呼ばれる概念を発表しました。これは、ユーザーが音声、動画、テキストを継続的に処理しながら、リアルタイムでAIと協働できるようにするものです。重要な違いは、これらのシステムが人間のように、ユーザーが話したり書いたりし終えるのを待たずに応答することです。
継続的インタラクションという新しいアプローチの仕組み 🤖
インタラクションモデルは、現在のシステムが抱えるボトルネックを解消します。現在のシステムは入力を個別に処理し、ライブのコンテキストを見失ってしまいます。Thinking Machinesは、同時マルチモーダルストリームを統合する持続的注意アーキテクチャを採用しています。これにより、AIは声のトーン、ジェスチャー、割り込みなどの変化に反応し、その場で応答を調整することが可能になります。この技術は、リセットなしで持続的なコンテキスト状態を維持するために改良されたトランスフォーマーに基づいています。
今やAIもあなたの話を遮るようになりました 🗣️
ついに、あなたが文を終えるのを待たずに、ありきたりな応答をするAIではなくなりました。これで、アシスタントと白熱した議論ができるようになり、あなたが言い終わらないうちに「それは間違っています」と遮ってくるでしょう。とはいえ、少なくとも息継ぎをするたびにコンテキストを繰り返す必要はありません。機械とまるで義理の兄のように議論できる夢が、ついに現実のものとなりました。