O Google DeepMind apresentou o Gemini Omni, uma família de modelos de IA generativa que processa texto, fotos, áudio e vídeo para criar conteúdo. Seu primeiro modelo, o Gemini Omni Flash, gera videoclipes combinando dados multimodais com um conhecimento avançado das leis físicas. Os executivos afirmam que esta tecnologia tem uma compreensão do mundo superior a desenvolvimentos anteriores, marcando um passo em direção a uma inteligência artificial mais integrada.
Como funciona a fusão de dados e física no modelo 🧠
O Gemini Omni Flash utiliza uma arquitetura unificada que processa múltiplos tipos de entrada simultaneamente. O modelo não apenas reconhece objetos em vídeo, mas também prevê seu comportamento com base em princípios de gravidade, colisão e continuidade espacial. Isso permite gerar sequências coerentes onde um copo se quebra ao cair ou uma bola quica de acordo com sua massa. O DeepMind treinou o sistema com dados rotulados de interações do mundo real, evitando alucinações comuns em outros geradores de vídeo.
Agora a IA sabe que um ovo não gruda no teto 🥚
Finalmente uma inteligência artificial que não pensa que os objetos flutuam à toa. O Gemini Omni Flash sabe que, se você jogar um ovo, ele se quebra, e que um gato não pode atravessar uma parede. Os desenvolvedores do Google DeepMind devem estar orgulhosos: eles conseguiram fazer uma máquina entender que o leite derrama e não se transforma em confete. Enquanto isso, os outros modelos continuam gerando vídeos onde carros voam e pessoas andam sobre a água.