샤오미가 텍스트 음성 변환을 위한 오픈소스 인공지능 모델인 OmniVoice를 공개했습니다. 이 도구는 음성 복제 및 맞춤형 음성 생성을 포함하여 수백 개의 언어를 지원합니다. 회사에 따르면, 특히 중국어와 영어에서 두각을 나타내며 여러 작업에서 상용 시스템을 능가합니다. 강점은 훈련 데이터가 적은 언어로도 음성을 생성할 수 있어 소수 언어에 대한 접근성을 높인다는 점입니다.
OmniVoice가 자원이 부족한 언어를 처리하는 방법 🗣️
OmniVoice는 트랜스포머 기반 아키텍처와 멀티태스크 훈련을 사용하여 제한된 데이터 조건에서 음성 합성을 달성합니다. 이 모델은 언어 간 공유 표현을 활용하여 풍부한 자원을 가진 언어의 지식을 자원이 부족한 언어로 전송할 수 있습니다. 샤오미는 맹검 테스트에서 OmniVoice가 특히 중국어의 성조와 억양에서 Google이나 Microsoft와 같은 독점 시스템의 자연스러움과 동등하거나 능가한다고 주장합니다. 소스 코드와 가중치는 Apache 2.0 라이선스로 GitHub에서 제공되어 개발자가 필요에 맞게 조정할 수 있습니다.
이제 토스터도 500개 언어로 불평할 수 있습니다 🤖
OmniVoice를 사용하면 3유로와 노트북만 있으면 어떤 스타트업도 이웃의 목소리를 복제하여 드릴을 돌려달라고 말하게 할 수 있습니다. 가장 좋은 점은 현지 언어로 모델을 훈련할 데이터가 없더라도 샤오미가 WhatsApp 오디오 4개와 TikTok 동영상 하나면 충분하다고 약속한다는 것입니다. 곧 소화기나 냉장고에서 스와힐리어로 시를 낭송하는 음성 비서를 보게 될 것입니다. 이제 부족한 것은 적절한 죄책감의 어조로 장보기를 잊어버렸어라고 말하는 법을 배우는 것뿐입니다.