Google DeepMind a présenté Gemini Omni, une famille de modèles d'IA générative qui traite du texte, des photos, de l'audio et de la vidéo pour créer du contenu. Son premier modèle, Gemini Omni Flash, génère des clips vidéo en combinant des données multimodales avec une connaissance avancée des lois physiques. Les dirigeants affirment que cette technologie possède une compréhension du monde supérieure aux développements précédents, marquant un pas vers une intelligence artificielle plus intégrée.
Comment fonctionne la fusion des données et de la physique dans le modèle 🧠
Gemini Omni Flash utilise une architecture unifiée qui traite simultanément plusieurs types d'entrée. Le modèle ne se contente pas de reconnaître des objets dans une vidéo, il prédit leur comportement en se basant sur les principes de gravité, de collision et de continuité spatiale. Cela permet de générer des séquences cohérentes où un verre se brise en tombant ou une balle rebondit en fonction de sa masse. DeepMind a entraîné le système avec des données étiquetées d'interactions du monde réel, évitant les hallucinations courantes dans d'autres générateurs de vidéo.
Maintenant, l'IA sait qu'un œuf ne colle pas au plafond 🥚
Enfin une intelligence artificielle qui ne pense pas que les objets flottent sans raison. Gemini Omni Flash sait que si tu lances un œuf, il se casse, et qu'un chat ne peut pas traverser un mur. Les développeurs de Google DeepMind doivent être fiers : ils ont réussi à faire comprendre à une machine que le lait se renverse et ne se transforme pas en confettis. Pendant ce temps, les autres modèles continuent de générer des vidéos où les voitures volent et les gens marchent sur l'eau.