Компания Google представила Gemini Omni — модель, позволяющую преобразовывать видео в другой формат с помощью естественного языка в диалоговом режиме. В отличие от предыдущего Veo, эта система редактирует исходные кадры, сохраняя согласованность сцены и действия персонажей. В настоящее время она создает клипы длительностью до 10 секунд со звуком, хотя компания уже планирует расширить это ограничение.
Физика и исторический контекст в каждом кадре 🧠
Модель опирается на экосистему Gemini для создания сцен с учетом исторического и научного контекста. Она точно воспроизводит такие явления, как гравитация или динамика жидкостей, что позволяет, например, изменить фон средневековой битвы на космический шторм, не заставляя персонажей парить, как воздушные шары. Также предусмотрено создание персонализированных цифровых аватаров с использованием обширных знаний системы для сохранения визуальной логики.
Мечта любого ютубера: редактировать, не открывая After Effects 🎬
Теперь любой смертный сможет сказать: замени этого кота на танцующего динозавра, и видео подчинится. Плохо то, что если вы запросите клип на 11 секунд, Gemini окинет вас цифровым презрением и напомнит, что он все еще в бета-версии. Но, эй, пока вы ждете, можно создать аватар, который будет делать то, что вы никогда не сделаете, например, убираться в доме. Человеческая лень наконец-то обрела свой инструмент.