Gemini Omni Flash: 世界を理解して動画を生成するAI

Google DeepMindは、テキスト、写真、音声、動画を処理してコンテンツを生成する生成AIモデル群「Gemini Omni」を発表しました。その最初のモデルであるGemini Omni Flashは、マルチモーダルデータと物理法則に関する高度な知識を組み合わせてビデオクリップを生成します。幹部らは、この技術はこれまでの開発よりも優れた世界理解を持ち、より統合された人工知能への一歩を示すものだと述べています。

photorealistic technical scene of a glowing holographic globe surrounded by floating multimedia data fragments, a human hand reaching toward a translucent video creation interface, while streams of text, audio waveforms, and photographic thumbnails merge into a cinematic video clip, the globe displaying simulated physics trajectories like falling leaves and flowing water, dark studio environment with blue and cyan neon lighting, reflective surfaces on a sleek workstation, volumetric light beams passing through the hologram, ultra-detailed futuristic hardware panels in the background, engineering visualization style

モデルにおけるデータと物理の融合の仕組み 🧠

Gemini Omni Flashは、複数の入力タイプを同時に処理する統合アーキテクチャを採用しています。このモデルは、ビデオ内のオブジェクトを認識するだけでなく、重力、衝突、空間的連続性の原理に基づいてその挙動を予測します。これにより、コップが落ちて割れたり、ボールが質量に応じて跳ね返ったりする、一貫性のあるシーケンスを生成できます。DeepMindは、現実世界の相互作用のラベル付きデータでシステムをトレーニングし、他のビデオ生成器によく見られる幻覚を回避しました。

これでAIは卵が天井に貼り付かないことを理解した 🥚

ついに、物体が理由もなく浮遊するとは考えない人工知能が登場しました。Gemini Omni Flashは、卵を投げれば割れること、猫は壁をすり抜けられないことを理解しています。Google DeepMindの開発者たちは誇りに思っていることでしょう。彼らは、牛乳はこぼれるものであり、紙吹雪にはならないということを機械に理解させることに成功したのです。一方、他のモデルは、車が空を飛び、人が水面を歩くビデオを生成し続けています。