Gemini Omni Flash: la IA que entiende el mundo para crear video

Google DeepMind presentó Gemini Omni, una familia de modelos de IA generativa que procesa texto, fotos, audio y video para crear contenido. Su primer modelo, Gemini Omni Flash, genera videoclips combinando datos multimodales con un conocimiento avanzado de las leyes físicas. Los ejecutivos afirman que esta tecnología tiene una comprensión del mundo superior a desarrollos previos, marcando un paso hacia una inteligencia artificial más integrada.

photorealistic technical scene of a glowing holographic globe surrounded by floating multimedia data fragments, a human hand reaching toward a translucent video creation interface, while streams of text, audio waveforms, and photographic thumbnails merge into a cinematic video clip, the globe displaying simulated physics trajectories like falling leaves and flowing water, dark studio environment with blue and cyan neon lighting, reflective surfaces on a sleek workstation, volumetric light beams passing through the hologram, ultra-detailed futuristic hardware panels in the background, engineering visualization style

Cómo funciona la fusión de datos y física en el modelo 🧠

Gemini Omni Flash utiliza una arquitectura unificada que procesa múltiples tipos de entrada simultáneamente. El modelo no solo reconoce objetos en video, sino que predice su comportamiento basándose en principios de gravedad, colisión y continuidad espacial. Esto permite generar secuencias coherentes donde un vaso se rompe al caer o una pelota rebota según su masa. DeepMind entrenó el sistema con datos etiquetados de interacciones del mundo real, evitando alucinaciones comunes en otros generadores de video.

Ahora la IA sabe que un huevo no se pega al techo 🥚

Por fin una inteligencia artificial que no piensa que los objetos flotan porque sí. Gemini Omni Flash sabe que si tiras un huevo, se rompe, y que un gato no puede atravesar una pared. Los desarrolladores de Google DeepMind deben estar orgullosos: han logrado que una máquina entienda que la leche se derrama y no se convierte en confeti. Mientras tanto, los demás modelos siguen generando videos donde los coches vuelan y las personas caminan sobre el agua.