Xiaomi、中国語も話せる音声AI「OmniVoice」を発表

Xiaomiは、テキスト音声変換のためのオープンソースの人工知能モデル「OmniVoice」を発表しました。このツールは、音声クローンやカスタマイズ可能な音声生成を含む数百の言語をサポートしています。同社によると、特に中国語と英語で優れており、いくつかのタスクで商用システムを上回っています。その強みは、トレーニングデータが少ない言語でも音声を生成でき、少数言語へのアクセスを容易にすることです。

未来的なインターフェースが、世界地図上に青と赤の音声波形を表示し、Xiaomiのロゴと中国語（北京語）および英語のテキストが、OmniVoice AIを象徴しています。

OmniVoiceがリソースの少ない言語をどのように扱うか 🗣️

OmniVoiceは、トランスフォーマーベースのアーキテクチャとマルチタスクトレーニングを利用して、限られたデータ条件下での音声合成を実現します。このモデルは、言語間で共有される表現を活用し、リソースが豊富な言語からリソースが少ない言語への知識移転を可能にします。Xiaomiは、ブラインドテストにおいて、OmniVoiceがGoogleやMicrosoftなどのプロプライエタリなシステムと同等かそれ以上の自然さ、特に中国語のトーンとイントネーションにおいて優れていると主張しています。ソースコードと重みはApache 2.0ライセンスの下でGitHubで公開されており、開発者はニーズに合わせて適応させることができます。

今やあなたのトースターも500の言語で文句を言えるようになる 🤖

OmniVoiceを使えば、3ユーロとノートパソコン一台でどんなスタートアップでも、隣人の声をクローンしてドリルを返すように言わせることができます。さらに良いことに、あなたの地域の言語でモデルをトレーニングするデータがなくても、XiaomiはWhatsAppの4つの音声とTikTokの1つの動画があれば十分だと約束しています。まもなく、消火器や冷蔵庫に搭載された音声アシスタントがスワヒリ語で詩を朗読するのを見かけるでしょう。あとは、適切な罪悪感のあるトーンで「買い物を忘れた」と言うことを覚えるだけです。