Gemini Omni: edita videos hablando, como pedir un café sin leche

Google ha presentado Gemini Omni, un modelo que permite transformar un video en otro mediante lenguaje natural en un formato de diálogo. A diferencia del Veo anterior, este sistema edita cuadros originales manteniendo la coherencia de la escena y las acciones de los personajes. Actualmente genera clips de hasta 10 segundos con sonido, aunque la empresa ya planea ampliar ese límite.

photorealistic scene of a video editing interface showing two frames side by side, left frame with a person ordering coffee at a counter, right frame with the same person holding an empty cup while speaking, a glowing digital pipeline connecting both frames, subtle waveform lines and audio equalizer bars floating nearby, cinematic lighting with blue and orange tones, sleek modern workspace with a tablet and stylus on a desk, technical illustration style, clean lines, high contrast, demonstrating real-time video transformation through natural language commands, process of editing without visible text or numbers

Física y contexto histórico en cada fotograma 🧠

El modelo se apoya en el ecosistema Gemini para generar escenas considerando contextos históricos y científicos. Reproduce fenómenos como la gravedad o la dinámica de fluidos con precisión, lo que permite, por ejemplo, cambiar el fondo de una pelea medieval a una tormenta espacial sin que los personajes floten como globos. También incluye la creación de avatares digitales personalizados, usando el vasto conocimiento del sistema para mantener la lógica visual.

El sueño de todo youtuber: editar sin abrir el After Effects 🎬

Ahora cualquier mortal podrá decir cambia ese gato por un dinosaurio bailando y el video obedecerá. Lo malo es que si pides un clip de 11 segundos, Gemini te mirará con desprecio digital y te recordará que aún está en fase beta. Pero oye, mientras esperas, puedes crear un avatar que haga cosas que tú jamás harías, como ordenar la casa. La pereza humana, finalmente, tiene su herramienta.