Google DeepMind представила Gemini Omni — семейство моделей генеративного ИИ, которые обрабатывают текст, фото, аудио и видео для создания контента. Первая модель, Gemini Omni Flash, генерирует видеоклипы, объединяя мультимодальные данные с продвинутым пониманием законов физики. Руководители утверждают, что эта технология обладает более глубоким пониманием мира по сравнению с предыдущими разработками, что знаменует шаг к более интегрированному искусственному интеллекту.
Как работает слияние данных и физики в модели 🧠
Gemini Omni Flash использует унифицированную архитектуру, которая одновременно обрабатывает несколько типов входных данных. Модель не просто распознает объекты в видео, но и предсказывает их поведение на основе принципов гравитации, столкновения и пространственной непрерывности. Это позволяет генерировать последовательные сцены, где стакан разбивается при падении или мяч отскакивает в зависимости от своей массы. DeepMind обучила систему на размеченных данных реальных взаимодействий, избегая галлюцинаций, распространенных в других генераторах видео.
Теперь ИИ знает, что яйцо не прилипнет к потолку 🥚
Наконец-то искусственный интеллект, который не думает, что объекты парят просто так. Gemini Omni Flash знает, что если бросить яйцо, оно разобьется, и что кот не может пройти сквозь стену. Разработчики Google DeepMind, должно быть, гордятся: они добились того, что машина понимает, что молоко проливается, а не превращается в конфетти. Тем временем другие модели продолжают генерировать видео, где машины летают, а люди ходят по воде.