Gemini Omni Flash : lIA qui comprend le monde pour créer des vidéos

Google DeepMind a présenté Gemini Omni, une famille de modèles d'IA générative qui traite du texte, des photos, de l'audio et de la vidéo pour créer du contenu. Son premier modèle, Gemini Omni Flash, génère des clips vidéo en combinant des données multimodales avec une connaissance avancée des lois physiques. Les dirigeants affirment que cette technologie possède une compréhension du monde supérieure aux développements précédents, marquant un pas vers une intelligence artificielle plus intégrée.

scène technique photoréaliste d'un globe holographique lumineux entouré de fragments de données multimédia flottants, une main humaine s'approchant d'une interface de création vidéo translucide, tandis que des flux de texte, des formes d'onde audio et des vignettes photographiques fusionnent en un clip vidéo cinématographique, le globe affichant des trajectoires physiques simulées comme des feuilles qui tombent et de l'eau qui coule, environnement de studio sombre avec un éclairage néon bleu et cyan, surfaces réfléchissantes sur une station de travail élégante, faisceaux lumineux volumétriques traversant l'hologramme, panneaux matériels futuristes ultra-détaillés en arrière-plan, style de visualisation technique

Comment fonctionne la fusion des données et de la physique dans le modèle 🧠

Gemini Omni Flash utilise une architecture unifiée qui traite simultanément plusieurs types d'entrée. Le modèle ne se contente pas de reconnaître des objets dans une vidéo, il prédit leur comportement en se basant sur les principes de gravité, de collision et de continuité spatiale. Cela permet de générer des séquences cohérentes où un verre se brise en tombant ou une balle rebondit en fonction de sa masse. DeepMind a entraîné le système avec des données étiquetées d'interactions du monde réel, évitant les hallucinations courantes dans d'autres générateurs de vidéo.

Maintenant, l'IA sait qu'un œuf ne colle pas au plafond 🥚

Enfin une intelligence artificielle qui ne pense pas que les objets flottent sans raison. Gemini Omni Flash sait que si tu lances un œuf, il se casse, et qu'un chat ne peut pas traverser un mur. Les développeurs de Google DeepMind doivent être fiers : ils ont réussi à faire comprendre à une machine que le lait se renverse et ne se transforme pas en confettis. Pendant ce temps, les autres modèles continuent de générer des vidéos où les voitures volent et les gens marchent sur l'eau.