小米发布OmniVoice,其语音AI支持包括普通话在内的多种语言

发布于 2026年05月08日 | 从西班牙语翻译

小米推出了OmniVoice,这是一款开源的文本转语音人工智能模型。该工具支持数百种语言,包括语音克隆和可定制的语音生成。据该公司称,它在中文和英文方面表现尤为突出,在多项任务上超越了商业系统。其优势在于:能够用训练数据较少的语言生成语音,从而方便了少数民族语言的普及。

一个未来感界面在蓝色和红色的声波上显示全球地图,带有小米标志以及中文和英文文本,象征着OmniVoice人工智能。

OmniVoice如何处理资源匮乏的语言 🗣️

OmniVoice采用基于Transformer的架构和多任务训练,在数据有限的情况下实现语音合成。该模型利用语言间的共享表示,从而能够将资源丰富语言的知识迁移到资源匮乏的语言中。小米声称,在盲测中,OmniVoice在自然度上达到或超越了Google、Microsoft等专有系统,尤其是在中文的声调和语调方面。源代码和权重已在GitHub上以Apache 2.0许可证发布,允许开发者根据自身需求进行调整。

现在连你的烤面包机都能用500种语言抱怨了 🤖

有了OmniVoice,任何只有三欧元和一台笔记本电脑的初创公司都能克隆邻居的声音,让他说出“把电钻还给我”。最棒的是,如果你没有数据来训练本地语言的模型,小米承诺,只需四条WhatsApp语音和一个TikTok视频就足够了。很快,我们就会看到灭火器或冰箱里出现语音助手,用斯瓦希里语朗诵诗歌。唯一缺的就是它能学会用恰到好处的愧疚语气说出我忘了买东西