Gemini Omni: 说话间编辑视频,就像点一杯不加奶的咖啡

发布于 2026年05月23日 | 从西班牙语翻译

谷歌推出了Gemini Omni,这是一个能够通过自然语言以对话形式将视频转换为另一种视频的模型。与之前的Veo不同,该系统在保持场景连贯性和角色动作的同时编辑原始帧。目前,它能生成最长10秒的带声音片段,不过该公司已计划延长这一限制。

photorealistic scene of a video editing interface showing two frames side by side, left frame with a person ordering coffee at a counter, right frame with the same person holding an empty cup while speaking, a glowing digital pipeline connecting both frames, subtle waveform lines and audio equalizer bars floating nearby, cinematic lighting with blue and orange tones, sleek modern workspace with a tablet and stylus on a desk, technical illustration style, clean lines, high contrast, demonstrating real-time video transformation through natural language commands, process of editing without visible text or numbers

每一帧中的物理与历史背景 🧠

该模型依托Gemini生态系统,在生成场景时考虑历史与科学背景。它能精确再现重力或流体动力学等现象,例如,将中世纪战斗的背景改为太空风暴时,角色不会像气球一样漂浮。此外,它还支持创建个性化数字头像,利用系统的广泛知识来保持视觉逻辑。

每个YouTuber的梦想:无需打开After Effects就能编辑 🎬

现在,任何普通人都可以说把那只猫换成一只跳舞的恐龙,视频就会照做。糟糕的是,如果你要求一个11秒的片段,Gemini会以数字化的轻蔑眼神看着你,并提醒你它仍处于测试阶段。但嘿,在等待期间,你可以创建一个能完成你永远不会做的事情的头像,比如整理房间。人类的懒惰,终于有了它的工具。