제미니 옴니: 우유 없는 커피를 주문하듯 말로 영상 편집하기

Google은 Gemini Omni를 발표했습니다. 이 모델은 대화 형식의 자연어를 통해 비디오를 다른 비디오로 변환할 수 있습니다. 이전 Veo와 달리 이 시스템은 장면의 일관성과 캐릭터의 동작을 유지하면서 원본 프레임을 편집합니다. 현재는 사운드가 포함된 최대 10초 클립을 생성하며, 회사는 이미 이 제한을 확장할 계획입니다.

photorealistic scene of a video editing interface showing two frames side by side, left frame with a person ordering coffee at a counter, right frame with the same person holding an empty cup while speaking, a glowing digital pipeline connecting both frames, subtle waveform lines and audio equalizer bars floating nearby, cinematic lighting with blue and orange tones, sleek modern workspace with a tablet and stylus on a desk, technical illustration style, clean lines, high contrast, demonstrating real-time video transformation through natural language commands, process of editing without visible text or numbers

모든 프레임의 물리학과 역사적 맥락 🧠

이 모델은 Gemini 생태계를 기반으로 역사적, 과학적 맥락을 고려하여 장면을 생성합니다. 중력이나 유체 역학과 같은 현상을 정확하게 재현하여, 예를 들어 중세 전투 배경을 우주 폭풍으로 변경해도 캐릭터가 풍선처럼 떠다니지 않도록 합니다. 또한 시스템의 방대한 지식을 활용하여 시각적 논리를 유지하는 맞춤형 디지털 아바타 생성도 포함됩니다.

모든 유튜버의 꿈: 애프터 이펙트를 열지 않고 편집하기 🎬

이제 평범한 사람도 저 고양이를 춤추는 공룡으로 바꿔줘라고 말하면 비디오가 그대로 따라 할 것입니다. 나쁜 점은 11초 클립을 요청하면 Gemini가 디지털 경멸의 시선으로 당신을 바라보며 아직 베타 단계라고 알려줄 거라는 점입니다. 하지만 기다리는 동안 당신이 절대 하지 않을 일, 예를 들어 집 청소를 하는 아바타를 만들 수 있습니다. 인간의 게으름이 드디어 그 도구를 찾았습니다.