Gemini Omni: edite vídeos falando, como pedir um café sem leite

O Google apresentou o Gemini Omni, um modelo que permite transformar um vídeo em outro por meio de linguagem natural em um formato de diálogo. Diferente do Veo anterior, este sistema edita quadros originais mantendo a coerência da cena e as ações dos personagens. Atualmente, gera clipes de até 10 segundos com som, embora a empresa já planeje ampliar esse limite.

photorealistic scene of a video editing interface showing two frames side by side, left frame with a person ordering coffee at a counter, right frame with the same person holding an empty cup while speaking, a glowing digital pipeline connecting both frames, subtle waveform lines and audio equalizer bars floating nearby, cinematic lighting with blue and orange tones, sleek modern workspace with a tablet and stylus on a desk, technical illustration style, clean lines, high contrast, demonstrating real-time video transformation through natural language commands, process of editing without visible text or numbers

Física e contexto histórico em cada fotograma 🧠

O modelo se apoia no ecossistema Gemini para gerar cenas considerando contextos históricos e científicos. Reproduz fenômenos como a gravidade ou a dinâmica de fluidos com precisão, o que permite, por exemplo, mudar o fundo de uma luta medieval para uma tempestade espacial sem que os personagens flutuem como balões. Também inclui a criação de avatares digitais personalizados, usando o vasto conhecimento do sistema para manter a lógica visual.

O sonho de todo youtuber: editar sem abrir o After Effects 🎬

Agora qualquer mortal poderá dizer troca esse gato por um dinossauro dançando e o vídeo obedecerá. O ruim é que, se você pedir um clipe de 11 segundos, o Gemini te olhará com desprezo digital e lembrará que ainda está em fase beta. Mas, ei, enquanto espera, você pode criar um avatar que faça coisas que você jamais faria, como arrumar a casa. A preguiça humana, finalmente, tem sua ferramenta.