제미니 옴니 플래시: 세상을 이해하는 인공지능이 영상을 창조하다

Google DeepMind은 텍스트, 사진, 오디오 및 비디오를 처리하여 콘텐츠를 생성하는 생성형 AI 모델 제품군인 Gemini Omni를 공개했습니다. 첫 번째 모델인 Gemini Omni Flash는 멀티모달 데이터와 물리 법칙에 대한 고급 지식을 결합하여 비디오 클립을 생성합니다. 임원들은 이 기술이 이전 개발보다 월등한 세계 이해 능력을 갖추고 있어 보다 통합된 인공지능을 향한 한 걸음을 의미한다고 밝혔습니다.

photorealistic technical scene of a glowing holographic globe surrounded by floating multimedia data fragments, a human hand reaching toward a translucent video creation interface, while streams of text, audio waveforms, and photographic thumbnails merge into a cinematic video clip, the globe displaying simulated physics trajectories like falling leaves and flowing water, dark studio environment with blue and cyan neon lighting, reflective surfaces on a sleek workstation, volumetric light beams passing through the hologram, ultra-detailed futuristic hardware panels in the background, engineering visualization style

모델에서 데이터와 물리학의 융합 작동 방식 🧠

Gemini Omni Flash는 여러 입력 유형을 동시에 처리하는 통합 아키텍처를 사용합니다. 이 모델은 비디오에서 객체를 인식할 뿐만 아니라 중력, 충돌 및 공간 연속성 원리를 기반으로 해당 객체의 동작을 예측합니다. 이를 통해 유리잔이 떨어지면 깨지거나 공이 질량에 따라 튕기는 일관된 시퀀스를 생성할 수 있습니다. DeepMind는 실제 세계 상호 작용의 레이블이 지정된 데이터로 시스템을 훈련시켜 다른 비디오 생성기에서 흔히 발생하는 환각 현상을 방지했습니다.

이제 AI는 계란이 천장에 붙지 않는다는 것을 압니다 🥚

드디어 물체가 그냥 떠다닌다고 생각하지 않는 인공지능이 나왔습니다. Gemini Omni Flash는 계란을 던지면 깨지고, 고양이가 벽을 통과할 수 없다는 것을 알고 있습니다. Google DeepMind의 개발자들은 자랑스러워할 만합니다. 기계가 우유는 쏟아지고 폭죽이 되지 않는다는 것을 이해하도록 만든 것입니다. 그동안 다른 모델들은 자동차가 하늘을 날고 사람들이 물 위를 걷는 비디오를 계속 생성하고 있었습니다.