ジェミニ・オムニ：話しながら動画編集、まるでミルクなしのコーヒーを注文するように

Googleは、自然言語による対話形式で動画を別の動画に変換できるモデル「Gemini Omni」を発表しました。従来のVeoとは異なり、このシステムは元のフレームを編集し、シーンの一貫性やキャラクターの動作を維持します。現在は最大10秒のクリップを音声付きで生成できますが、同社はすでにこの制限を拡大する計画を立てています。

photorealistic scene of a video editing interface showing two frames side by side, left frame with a person ordering coffee at a counter, right frame with the same person holding an empty cup while speaking, a glowing digital pipeline connecting both frames, subtle waveform lines and audio equalizer bars floating nearby, cinematic lighting with blue and orange tones, sleek modern workspace with a tablet and stylus on a desk, technical illustration style, clean lines, high contrast, demonstrating real-time video transformation through natural language commands, process of editing without visible text or numbers

各フレームにおける物理と歴史的文脈 🧠

このモデルはGeminiエコシステムを基盤として、歴史的・科学的文脈を考慮したシーンを生成します。重力や流体力学などの現象を正確に再現するため、例えば中世の戦いの背景を宇宙嵐に変更しても、キャラクターが風船のように浮遊することはありません。また、システムの豊富な知識を活用して視覚的な論理を維持した、カスタマイズ可能なデジタルアバターの作成も含まれます。

すべてのYouTuberの夢：After Effectsを開かずに編集 🎬

これで、一般の人でも「その猫を踊る恐竜に変えて」と言えば、動画がその通りになります。困ったことに、11秒のクリップを要求すると、Geminiはデジタルな軽蔑の目であなたを見つめ、まだベータ版であることを思い出させるでしょう。でも、待っている間に、あなたが決してやらないこと（例えば家の片付け）をしてくれるアバターを作成できます。人間の怠惰が、ついにそのためのツールを手に入れたのです。