Xiaomi a présenté OmniVoice, un modèle d'intelligence artificielle open source pour la conversion de texte en parole. L'outil prend en charge des centaines de langues, y compris le clonage vocal et la génération de parole personnalisable. Selon l'entreprise, il excelle particulièrement en chinois et en anglais, surpassant les systèmes commerciaux dans plusieurs tâches. Son point fort : il peut générer de la parole dans des langues avec peu de données d'entraînement, facilitant ainsi l'accès aux langues minoritaires.
Comment OmniVoice gère les langues à faibles ressources 🗣️
OmniVoice utilise une architecture basée sur les transformers et un entraînement multi-tâches pour réaliser la synthèse vocale dans des conditions de données limitées. Le modèle exploite des représentations partagées entre les langues, ce qui permet de transférer les connaissances des langues riches en ressources vers celles qui en ont moins. Xiaomi affirme que, lors de tests en aveugle, OmniVoice égale ou dépasse la naturalité des systèmes propriétaires comme ceux de Google ou Microsoft, en particulier dans les tons et intonations du chinois. Le code source et les poids sont disponibles sur GitHub sous licence Apache 2.0, permettant aux développeurs de l'adapter à leurs besoins.
Maintenant, même votre grille-pain pourra se plaindre en 500 langues 🤖
Avec OmniVoice, toute startup avec trois euros et un ordinateur portable pourra cloner la voix de son voisin pour lui faire dire de rendre la perceuse. Le mieux, c'est que si vous n'avez pas de données pour entraîner le modèle dans votre langue locale, Xiaomi vous promet qu'avec quatre audios WhatsApp et une vidéo TikTok, vous en avez assez. Bientôt, nous verrons des assistants vocaux dans les extincteurs ou le réfrigérateur réciter de la poésie en swahili. Il ne manque plus qu'il apprenne à dire j'ai oublié les courses avec le ton de culpabilité approprié.