Google DeepMindは、テキスト、写真、音声、動画を処理してコンテンツを生成する生成AIモデル群「Gemini Omni」を発表しました。その最初のモデルであるGemini Omni Flashは、マルチモーダルデータと物理法則に関する高度な知識を組み合わせてビデオクリップを生成します。幹部らは、この技術はこれまでの開発よりも優れた世界理解を持ち、より統合された人工知能への一歩を示すものだと述べています。
モデルにおけるデータと物理の融合の仕組み 🧠
Gemini Omni Flashは、複数の入力タイプを同時に処理する統合アーキテクチャを採用しています。このモデルは、ビデオ内のオブジェクトを認識するだけでなく、重力、衝突、空間的連続性の原理に基づいてその挙動を予測します。これにより、コップが落ちて割れたり、ボールが質量に応じて跳ね返ったりする、一貫性のあるシーケンスを生成できます。DeepMindは、現実世界の相互作用のラベル付きデータでシステムをトレーニングし、他のビデオ生成器によく見られる幻覚を回避しました。
これでAIは卵が天井に貼り付かないことを理解した 🥚
ついに、物体が理由もなく浮遊するとは考えない人工知能が登場しました。Gemini Omni Flashは、卵を投げれば割れること、猫は壁をすり抜けられないことを理解しています。Google DeepMindの開発者たちは誇りに思っていることでしょう。彼らは、牛乳はこぼれるものであり、紙吹雪にはならないということを機械に理解させることに成功したのです。一方、他のモデルは、車が空を飛び、人が水面を歩くビデオを生成し続けています。