小米发布OmniVoice，其语音AI甚至能说普通话

小米推出了OmniVoice，这是一款开源的文本转语音人工智能模型。该工具支持数百种语言，包括语音克隆和可定制的语音生成。据该公司称，它在中文和英文方面表现尤为突出，在多项任务上超越了商业系统。其优势在于：能够生成训练数据稀缺语言的语音，从而方便少数语言的使用。

一个未来主义界面显示蓝色和红色的声波覆盖在全球地图上，带有小米标志以及中文和英文文本，象征着OmniVoice人工智能。

OmniVoice如何处理资源匮乏的语言 🗣️

OmniVoice采用基于Transformer的架构和多任务训练，在数据有限的条件下实现语音合成。该模型利用语言间的共享表示，从而将资源丰富语言的知识迁移到资源匮乏的语言。小米声称，在盲测中，OmniVoice在自然度上媲美甚至超越了谷歌或微软等专有系统，尤其是在中文的声调和语调方面。源代码和权重已在GitHub上以Apache 2.0许可证提供，允许开发者根据自身需求进行适配。

现在连你的烤面包机都能用500种语言抱怨了 🤖

有了OmniVoice，任何只有三欧元和一台笔记本电脑的初创公司都能克隆邻居的声音，让他说把电钻还回来。最棒的是，如果你没有数据来训练模型使用你的本地语言，小米承诺，只需四个WhatsApp音频和一个TikTok视频就足够了。很快，我们就会看到灭火器或冰箱里的语音助手用斯瓦希里语朗诵诗歌。唯一缺少的是，它能学会用恰当的愧疚语气说我忘了买东西。