Gemini Omni Flash: die KI, die die Welt versteht, um Videos zu erstellen

Google DeepMind hat Gemini Omni vorgestellt, eine Familie generativer KI-Modelle, die Text, Fotos, Audio und Video verarbeitet, um Inhalte zu erstellen. Ihr erstes Modell, Gemini Omni Flash, erzeugt Videoclips, indem es multimodale Daten mit einem fortgeschrittenen Verständnis physikalischer Gesetze kombiniert. Führungskräfte geben an, dass diese Technologie ein besseres Weltverständnis als frühere Entwicklungen besitzt und einen Schritt in Richtung einer stärker integrierten künstlichen Intelligenz markiert.

fotorealistische technische Szene eines leuchtenden holografischen Globus, umgeben von schwebenden multimedialen Datenfragmenten, eine menschliche Hand, die nach einer durchscheinenden Videoerstellungsschnittstelle greift, während Ströme von Text, Audiowellenformen und Foto-Thumbnails zu einem cineastischen Videoclip verschmelzen, der Globus simulierte physikalische Trajektorien wie fallende Blätter und fließendes Wasser anzeigt, dunkle Studioumgebung mit blauen und cyanfarbenen Neonlichtern, reflektierende Oberflächen auf einem eleganten Arbeitsplatz, volumetrische Lichtstrahlen, die durch das Hologramm fallen, ultra-detaillierte futuristische Hardware-Panels im Hintergrund, technischer Visualisierungsstil

Wie die Daten- und Physikfusion im Modell funktioniert 🧠

Gemini Omni Flash verwendet eine einheitliche Architektur, die mehrere Eingabetypen gleichzeitig verarbeitet. Das Modell erkennt nicht nur Objekte in Videos, sondern sagt ihr Verhalten basierend auf den Prinzipien der Schwerkraft, Kollision und räumlichen Kontinuität voraus. Dies ermöglicht die Erzeugung kohärenter Sequenzen, in denen ein Glas beim Herunterfallen zerbricht oder ein Ball je nach seiner Masse abprallt. DeepMind trainierte das System mit gekennzeichneten Daten aus realen Interaktionen und vermeidet so Halluzinationen, die bei anderen Videogeneratoren üblich sind.

Jetzt weiß die KI, dass ein Ei nicht an der Decke klebt 🥚

Endlich eine künstliche Intelligenz, die nicht denkt, dass Objekte einfach so schweben. Gemini Omni Flash weiß, dass ein Ei zerbricht, wenn man es fallen lässt, und dass eine Katze nicht durch eine Wand gehen kann. Die Entwickler von Google DeepMind können stolz sein: Sie haben es geschafft, dass eine Maschine versteht, dass Milch verschüttet wird und sich nicht in Konfetti verwandelt. Währenddessen erzeugen die anderen Modelle weiterhin Videos, in denen Autos fliegen und Menschen auf dem Wasser laufen.