Google ha presentado Gemini Omni, un modelo que permite transformar un video en otro mediante lenguaje natural en un formato de diálogo. A diferencia del Veo anterior, este sistema edita cuadros originales manteniendo la coherencia de la escena y las acciones de los personajes. Actualmente genera clips de hasta 10 segundos con sonido, aunque la empresa ya planea ampliar ese límite.
Física y contexto histórico en cada fotograma 🧠
El modelo se apoya en el ecosistema Gemini para generar escenas considerando contextos históricos y científicos. Reproduce fenómenos como la gravedad o la dinámica de fluidos con precisión, lo que permite, por ejemplo, cambiar el fondo de una pelea medieval a una tormenta espacial sin que los personajes floten como globos. También incluye la creación de avatares digitales personalizados, usando el vasto conocimiento del sistema para mantener la lógica visual.
El sueño de todo youtuber: editar sin abrir el After Effects 🎬
Ahora cualquier mortal podrá decir cambia ese gato por un dinosaurio bailando y el video obedecerá. Lo malo es que si pides un clip de 11 segundos, Gemini te mirará con desprecio digital y te recordará que aún está en fase beta. Pero oye, mientras esperas, puedes crear un avatar que haga cosas que tú jamás harías, como ordenar la casa. La pereza humana, finalmente, tiene su herramienta.