Google DeepMind presentó Gemini Omni, una familia de modelos de IA generativa que procesa texto, fotos, audio y video para crear contenido. Su primer modelo, Gemini Omni Flash, genera videoclips combinando datos multimodales con un conocimiento avanzado de las leyes físicas. Los ejecutivos afirman que esta tecnología tiene una comprensión del mundo superior a desarrollos previos, marcando un paso hacia una inteligencia artificial más integrada.
Cómo funciona la fusión de datos y física en el modelo 🧠
Gemini Omni Flash utiliza una arquitectura unificada que procesa múltiples tipos de entrada simultáneamente. El modelo no solo reconoce objetos en video, sino que predice su comportamiento basándose en principios de gravedad, colisión y continuidad espacial. Esto permite generar secuencias coherentes donde un vaso se rompe al caer o una pelota rebota según su masa. DeepMind entrenó el sistema con datos etiquetados de interacciones del mundo real, evitando alucinaciones comunes en otros generadores de video.
Ahora la IA sabe que un huevo no se pega al techo 🥚
Por fin una inteligencia artificial que no piensa que los objetos flotan porque sí. Gemini Omni Flash sabe que si tiras un huevo, se rompe, y que un gato no puede atravesar una pared. Los desarrolladores de Google DeepMind deben estar orgullosos: han logrado que una máquina entienda que la leche se derrama y no se convierte en confeti. Mientras tanto, los demás modelos siguen generando videos donde los coches vuelan y las personas caminan sobre el agua.