A Xiaomi apresentou o OmniVoice, um modelo de inteligência artificial de código aberto para conversão de texto em fala. A ferramenta suporta centenas de idiomas, incluindo clonagem de voz e geração de fala personalizável. Segundo a empresa, destaca-se especialmente em chinês e inglês, superando sistemas comerciais em várias tarefas. Seu ponto forte: pode gerar voz em idiomas com poucos dados de treinamento, facilitando o acesso a línguas minoritárias.
Como o OmniVoice lida com línguas de recursos escassos 🗣️
O OmniVoice utiliza uma arquitetura baseada em transformers e treinamento multitarefa para alcançar síntese de fala em condições de dados limitados. O modelo aproveita representações compartilhadas entre idiomas, o que permite transferir conhecimento de línguas com abundância de recursos para aquelas com menos. A Xiaomi afirma que, em testes cegos, o OmniVoice iguala ou supera a naturalidade de sistemas proprietários como os do Google ou Microsoft, especialmente em tons e entonações do chinês. O código-fonte e os pesos estão disponíveis no GitHub sob licença Apache 2.0, permitindo que desenvolvedores o adaptem às suas necessidades.
Agora até sua torradeira poderá reclamar em 500 idiomas 🤖
Com o OmniVoice, qualquer startup com três euros e um notebook poderá clonar a voz do vizinho para fazê-lo dizer que devolva a furadeira. O melhor é que, se você não tem dados para treinar o modelo no seu idioma local, a Xiaomi promete que com quatro áudios do WhatsApp e um vídeo do TikTok já é suficiente. Em breve veremos assistentes de voz em extintores ou na geladeira recitando poesia em suaíli. A única coisa que falta é aprender a dizer esqueci das compras com o tom adequado de culpa.