O Google apresentou o Gemini Omni, um modelo que permite transformar um vídeo em outro por meio de linguagem natural em um formato de diálogo. Diferente do Veo anterior, este sistema edita quadros originais mantendo a coerência da cena e as ações dos personagens. Atualmente, gera clipes de até 10 segundos com som, embora a empresa já planeje ampliar esse limite.
Física e contexto histórico em cada fotograma 🧠
O modelo se apoia no ecossistema Gemini para gerar cenas considerando contextos históricos e científicos. Reproduz fenômenos como a gravidade ou a dinâmica de fluidos com precisão, o que permite, por exemplo, mudar o fundo de uma luta medieval para uma tempestade espacial sem que os personagens flutuem como balões. Também inclui a criação de avatares digitais personalizados, usando o vasto conhecimento do sistema para manter a lógica visual.
O sonho de todo youtuber: editar sem abrir o After Effects 🎬
Agora qualquer mortal poderá dizer troca esse gato por um dinossauro dançando e o vídeo obedecerá. O ruim é que, se você pedir um clipe de 11 segundos, o Gemini te olhará com desprezo digital e lembrará que ainda está em fase beta. Mas, ei, enquanto espera, você pode criar um avatar que faça coisas que você jamais faria, como arrumar a casa. A preguiça humana, finalmente, tem sua ferramenta.