Googleは、自然言語による対話形式で動画を別の動画に変換できるモデル「Gemini Omni」を発表しました。従来のVeoとは異なり、このシステムは元のフレームを編集し、シーンの一貫性やキャラクターの動作を維持します。現在は最大10秒のクリップを音声付きで生成できますが、同社はすでにこの制限を拡大する計画を立てています。
各フレームにおける物理と歴史的文脈 🧠
このモデルはGeminiエコシステムを基盤として、歴史的・科学的文脈を考慮したシーンを生成します。重力や流体力学などの現象を正確に再現するため、例えば中世の戦いの背景を宇宙嵐に変更しても、キャラクターが風船のように浮遊することはありません。また、システムの豊富な知識を活用して視覚的な論理を維持した、カスタマイズ可能なデジタルアバターの作成も含まれます。
すべてのYouTuberの夢:After Effectsを開かずに編集 🎬
これで、一般の人でも「その猫を踊る恐竜に変えて」と言えば、動画がその通りになります。困ったことに、11秒のクリップを要求すると、Geminiはデジタルな軽蔑の目であなたを見つめ、まだベータ版であることを思い出させるでしょう。でも、待っている間に、あなたが決してやらないこと(例えば家の片付け)をしてくれるアバターを作成できます。人間の怠惰が、ついにそのためのツールを手に入れたのです。