小米发布OmniVoice,其语音AI甚至能说普通话

发布于 2026年05月13日 | 从西班牙语翻译

小米推出了OmniVoice,这是一款开源的文本转语音人工智能模型。该工具支持数百种语言,包括语音克隆和可定制的语音生成。据该公司称,它在中文和英文方面表现尤为突出,在多项任务上超越了商业系统。其优势在于:能够生成训练数据稀缺语言的语音,从而方便少数语言的使用。

一个未来主义界面显示蓝色和红色的声波覆盖在全球地图上,带有小米标志以及中文和英文文本,象征着OmniVoice人工智能。

OmniVoice如何处理资源匮乏的语言 🗣️

OmniVoice采用基于Transformer的架构和多任务训练,在数据有限的条件下实现语音合成。该模型利用语言间的共享表示,从而将资源丰富语言的知识迁移到资源匮乏的语言。小米声称,在盲测中,OmniVoice在自然度上媲美甚至超越了谷歌或微软等专有系统,尤其是在中文的声调和语调方面。源代码和权重已在GitHub上以Apache 2.0许可证提供,允许开发者根据自身需求进行适配。

现在连你的烤面包机都能用500种语言抱怨了 🤖

有了OmniVoice,任何只有三欧元和一台笔记本电脑的初创公司都能克隆邻居的声音,让他说把电钻还回来。最棒的是,如果你没有数据来训练模型使用你的本地语言,小米承诺,只需四个WhatsApp音频和一个TikTok视频就足够了。很快,我们就会看到灭火器或冰箱里的语音助手用斯瓦希里语朗诵诗歌。唯一缺少的是,它能学会用恰当的愧疚语气说我忘了买东西