Gemini Omni Flash: a IA que entende o mundo para criar vídeo

O Google DeepMind apresentou o Gemini Omni, uma família de modelos de IA generativa que processa texto, fotos, áudio e vídeo para criar conteúdo. Seu primeiro modelo, o Gemini Omni Flash, gera videoclipes combinando dados multimodais com um conhecimento avançado das leis físicas. Os executivos afirmam que esta tecnologia tem uma compreensão do mundo superior a desenvolvimentos anteriores, marcando um passo em direção a uma inteligência artificial mais integrada.

photorealistic technical scene of a glowing holographic globe surrounded by floating multimedia data fragments, a human hand reaching toward a translucent video creation interface, while streams of text, audio waveforms, and photographic thumbnails merge into a cinematic video clip, the globe displaying simulated physics trajectories like falling leaves and flowing water, dark studio environment with blue and cyan neon lighting, reflective surfaces on a sleek workstation, volumetric light beams passing through the hologram, ultra-detailed futuristic hardware panels in the background, engineering visualization style

Como funciona a fusão de dados e física no modelo 🧠

O Gemini Omni Flash utiliza uma arquitetura unificada que processa múltiplos tipos de entrada simultaneamente. O modelo não apenas reconhece objetos em vídeo, mas também prevê seu comportamento com base em princípios de gravidade, colisão e continuidade espacial. Isso permite gerar sequências coerentes onde um copo se quebra ao cair ou uma bola quica de acordo com sua massa. O DeepMind treinou o sistema com dados rotulados de interações do mundo real, evitando alucinações comuns em outros geradores de vídeo.

Agora a IA sabe que um ovo não gruda no teto 🥚

Finalmente uma inteligência artificial que não pensa que os objetos flutuam à toa. O Gemini Omni Flash sabe que, se você jogar um ovo, ele se quebra, e que um gato não pode atravessar uma parede. Os desenvolvedores do Google DeepMind devem estar orgulhosos: eles conseguiram fazer uma máquina entender que o leite derrama e não se transforma em confete. Enquanto isso, os outros modelos continuam gerando vídeos onde carros voam e pessoas andam sobre a água.