디-아이디 에이전트: 실시간으로 대화하고 제스처를 취하는 아바타

언어 모델과 실시간 애니메이션의 융합이 D-ID Agents와 함께 새로운 이정표에 도달했습니다. 이 플랫폼은 AI가 생성한 음성을 표정과 인간의 제스처를 모방하는 신체 움직임과 동기화하여 원활한 화상 통화를 유지할 수 있는 초현실적인 아바타를 생성할 수 있게 해줍니다. 기존의 텍스트 기반 대화 시스템과 달리, 사용자는 듣고, 생각하고, 시각적으로 반응하는 것처럼 보이는 디지털 캐릭터와 마주하게 됩니다.

기술: 블렌드쉐이프와 정적 리깅을 넘어서 🎭

블렌드쉐이프와 본 리깅과 같은 고전적인 얼굴 애니메이션 기술은 수작업과 미리 정의된 시퀀스가 필요합니다. D-ID Agents는 애니메이션을 절차적으로 생성하여 이 패러다임을 깨뜨립니다. 시스템은 LLM이 생성한 텍스트의 의도를 분석하고 이를 실시간으로 미세 표정과 신체 제스처로 변환합니다. 미리 로드된 애니메이션 라이브러리가 아니라, 각 프레임에서 말을 따라 입술, 눈썹, 손을 어떻게 움직일지 결정하는 생성 모델입니다. 이는 대화형 캐릭터 제작 비용을 획기적으로 줄이지만, 긴 대화 중에 제스처 일관성을 유지해야 하는 과제를 제기합니다.

생성적 제스처에서 불쾌한 골짜기의 도전 🤖

자연스러움은 모든 디지털 아바타의 아킬레스건입니다. D-ID Agents는 인상적인 입술 동기화를 달성하지만, 진정한 도전은 신체 제스처에 있습니다. 맥락에 맞지 않는 어깨 움직임이나 잘못 동기화된 미소는 사용자를 불쾌한 골짜기로 직접 밀어 넣을 수 있습니다. 신뢰가 필요한 고객 서비스나 교육 애플리케이션에서 이러한 작은 지각적 오류는 몰입감을 망칠 수 있습니다. 이 기술의 진화는 무엇을 말할지뿐만 아니라 각 감정적 맥락에 맞는 적절한 신체 언어로 그것을 말하는 방법을 학습하는 능력에 달려 있습니다.

D-ID Agents 아바타의 입술 및 제스처 동기화가 장시간 상호작용 중 로봇 같은 응답을 피하기 위해 자연어의 맥락적 이해와 어떻게 통합됩니까?

(추신: 녹화 전에 리깅을 확인하세요. UV 없는 텍스처 같은 실수를 하지 맙시다!)