Gemini Omni Flash: lIA che capisce il mondo per creare video

Google DeepMind ha presentato Gemini Omni, una famiglia di modelli di IA generativa che elabora testo, foto, audio e video per creare contenuti. Il suo primo modello, Gemini Omni Flash, genera videoclip combinando dati multimodali con una conoscenza avanzata delle leggi fisiche. I dirigenti affermano che questa tecnologia ha una comprensione del mondo superiore agli sviluppi precedenti, segnando un passo verso un'intelligenza artificiale più integrata.

photorealistic technical scene of a glowing holographic globe surrounded by floating multimedia data fragments, a human hand reaching toward a translucent video creation interface, while streams of text, audio waveforms, and photographic thumbnails merge into a cinematic video clip, the globe displaying simulated physics trajectories like falling leaves and flowing water, dark studio environment with blue and cyan neon lighting, reflective surfaces on a sleek workstation, volumetric light beams passing through the hologram, ultra-detailed futuristic hardware panels in the background, engineering visualization style

Come funziona la fusione di dati e fisica nel modello 🧠

Gemini Omni Flash utilizza un'architettura unificata che elabora simultaneamente molteplici tipi di input. Il modello non solo riconosce gli oggetti nei video, ma ne prevede il comportamento basandosi su principi di gravità, collisione e continuità spaziale. Ciò consente di generare sequenze coerenti in cui un bicchiere si rompe cadendo o una palla rimbalza in base alla sua massa. DeepMind ha addestrato il sistema con dati etichettati di interazioni del mondo reale, evitando allucinazioni comuni in altri generatori di video.

Ora l'IA sa che un uovo non si attacca al soffitto 🥚

Finalmente un'intelligenza artificiale che non pensa che gli oggetti fluttuino senza motivo. Gemini Omni Flash sa che se lanci un uovo, si rompe, e che un gatto non può attraversare un muro. Gli sviluppatori di Google DeepMind devono essere orgogliosi: sono riusciti a far sì che una macchina capisca che il latte si rovescia e non si trasforma in coriandoli. Nel frattempo, gli altri modelli continuano a generare video in cui le auto volano e le persone camminano sull'acqua.