Google ha presentato Gemini Omni, un modello che consente di trasformare un video in un altro tramite linguaggio naturale in un formato di dialogo. A differenza del precedente Veo, questo sistema modifica i fotogrammi originali mantenendo la coerenza della scena e le azioni dei personaggi. Attualmente genera clip fino a 10 secondi con audio, anche se l'azienda sta già pianificando di estendere questo limite.
Fisica e contesto storico in ogni fotogramma 🧠
Il modello si basa sull'ecosistema Gemini per generare scene considerando contesti storici e scientifici. Riproduce fenomeni come la gravità o la dinamica dei fluidi con precisione, consentendo, ad esempio, di cambiare lo sfondo di una lotta medievale in una tempesta spaziale senza che i personaggi fluttuino come palloncini. Include anche la creazione di avatar digitali personalizzati, utilizzando la vasta conoscenza del sistema per mantenere la logica visiva.
Il sogno di ogni youtuber: montare senza aprire After Effects 🎬
Ora qualsiasi mortale potrà dire cambia quel gatto con un dinosauro che balla e il video obbedirà. La parte negativa è che se chiedi una clip di 11 secondi, Gemini ti guarderà con disprezzo digitale e ti ricorderà che è ancora in fase beta. Ma ehi, mentre aspetti, puoi creare un avatar che faccia cose che tu non faresti mai, come riordinare la casa. La pigrizia umana, finalmente, ha il suo strumento.