Gemini Omni: 说话间编辑视频，就像点一杯不加奶的咖啡

谷歌推出了Gemini Omni，这是一个能够通过自然语言以对话形式将视频转换为另一种视频的模型。与之前的Veo不同，该系统在保持场景连贯性和角色动作的同时编辑原始帧。目前，它能生成最长10秒的带声音片段，不过该公司已计划延长这一限制。

每一帧中的物理与历史背景 🧠

该模型依托Gemini生态系统，在生成场景时考虑历史与科学背景。它能精确再现重力或流体动力学等现象，例如，将中世纪战斗的背景改为太空风暴时，角色不会像气球一样漂浮。此外，它还支持创建个性化数字头像，利用系统的广泛知识来保持视觉逻辑。

现在，任何普通人都可以说把那只猫换成一只跳舞的恐龙，视频就会照做。糟糕的是，如果你要求一个11秒的片段，Gemini会以数字化的轻蔑眼神看着你，并提醒你它仍处于测试阶段。但嘿，在等待期间，你可以创建一个能完成你永远不会做的事情的头像，比如整理房间。人类的懒惰，终于有了它的工具。