Gemini Omni Flash: ИИ, понимающий мир для создания видео

Google DeepMind представила Gemini Omni — семейство моделей генеративного ИИ, которые обрабатывают текст, фото, аудио и видео для создания контента. Первая модель, Gemini Omni Flash, генерирует видеоклипы, объединяя мультимодальные данные с продвинутым пониманием законов физики. Руководители утверждают, что эта технология обладает более глубоким пониманием мира по сравнению с предыдущими разработками, что знаменует шаг к более интегрированному искусственному интеллекту.

фотореалистичная техническая сцена: светящийся голографический глобус, окруженный плавающими фрагментами мультимедийных данных, человеческая рука, тянущаяся к полупрозрачному интерфейсу создания видео, потоки текста, аудиоволны и миниатюры фотографий сливаются в кинематографичный видеоклип, на глобусе отображаются симулированные физические траектории, такие как падающие листья и текущая вода, темная студийная обстановка с синим и голубым неоновым освещением, отражающие поверхности на элегантной рабочей станции, объемные лучи света, проходящие сквозь голограмму, ультрадетализированные футуристические панели оборудования на заднем плане, стиль инженерной визуализации

Как работает слияние данных и физики в модели 🧠

Gemini Omni Flash использует унифицированную архитектуру, которая одновременно обрабатывает несколько типов входных данных. Модель не просто распознает объекты в видео, но и предсказывает их поведение на основе принципов гравитации, столкновения и пространственной непрерывности. Это позволяет генерировать последовательные сцены, где стакан разбивается при падении или мяч отскакивает в зависимости от своей массы. DeepMind обучила систему на размеченных данных реальных взаимодействий, избегая галлюцинаций, распространенных в других генераторах видео.

Теперь ИИ знает, что яйцо не прилипнет к потолку 🥚

Наконец-то искусственный интеллект, который не думает, что объекты парят просто так. Gemini Omni Flash знает, что если бросить яйцо, оно разобьется, и что кот не может пройти сквозь стену. Разработчики Google DeepMind, должно быть, гордятся: они добились того, что машина понимает, что молоко проливается, а не превращается в конфетти. Тем временем другие модели продолжают генерировать видео, где машины летают, а люди ходят по воде.