Google DeepMind ha presentato Gemini Omni, una famiglia di modelli di IA generativa che elabora testo, foto, audio e video per creare contenuti. Il suo primo modello, Gemini Omni Flash, genera videoclip combinando dati multimodali con una conoscenza avanzata delle leggi fisiche. I dirigenti affermano che questa tecnologia ha una comprensione del mondo superiore agli sviluppi precedenti, segnando un passo verso un'intelligenza artificiale più integrata.
Come funziona la fusione di dati e fisica nel modello 🧠
Gemini Omni Flash utilizza un'architettura unificata che elabora simultaneamente molteplici tipi di input. Il modello non solo riconosce gli oggetti nei video, ma ne prevede il comportamento basandosi su principi di gravità, collisione e continuità spaziale. Ciò consente di generare sequenze coerenti in cui un bicchiere si rompe cadendo o una palla rimbalza in base alla sua massa. DeepMind ha addestrato il sistema con dati etichettati di interazioni del mondo reale, evitando allucinazioni comuni in altri generatori di video.
Ora l'IA sa che un uovo non si attacca al soffitto 🥚
Finalmente un'intelligenza artificiale che non pensa che gli oggetti fluttuino senza motivo. Gemini Omni Flash sa che se lanci un uovo, si rompe, e che un gatto non può attraversare un muro. Gli sviluppatori di Google DeepMind devono essere orgogliosi: sono riusciti a far sì che una macchina capisca che il latte si rovescia e non si trasforma in coriandoli. Nel frattempo, gli altri modelli continuano a generare video in cui le auto volano e le persone camminano sull'acqua.