Xiaomi ha presentado OmniVoice, un modelo de inteligencia artificial de código abierto para conversión de texto a voz. La herramienta soporta cientos de idiomas, incluyendo clonación de voz y generación de habla personalizable. Según la compañía, destaca especialmente en chino e inglés, superando a sistemas comerciales en varias tareas. Su punto fuerte: puede generar voz en idiomas con pocos datos de entrenamiento, facilitando el acceso a lenguas minoritarias.
Cómo OmniVoice maneja lenguas con escasos recursos 🗣️
OmniVoice utiliza una arquitectura basada en transformers y entrenamiento multi-tarea para lograr síntesis de voz en condiciones de datos limitados. El modelo aprovecha representaciones compartidas entre idiomas, lo que permite transferir conocimientos de lenguas con abundantes recursos a aquellas con menos. Xiaomi afirma que, en pruebas ciegas, OmniVoice iguala o supera la naturalidad de sistemas propietarios como los de Google o Microsoft, especialmente en tonos y entonaciones del chino. El código fuente y los pesos están disponibles en GitHub bajo licencia Apache 2.0, permitiendo a desarrolladores adaptarlo a sus necesidades.
Ahora hasta tu tostadora podrá quejarse en 500 idiomas 🤖
Con OmniVoice, cualquier startup con tres euros y un ordenador portátil podrá clonar la voz de su vecino para hacerle decir que le devuelva el taladro. Lo mejor es que, si no tienes datos para entrenar el modelo en tu idioma local, Xiaomi te promete que con cuatro audios de WhatsApp y un vídeo de TikTok ya tienes suficiente. Pronto veremos asistentes de voz en extintores o en la nevera recitando poesía en swahili. Lo único que falta es que aprenda a decir se me ha olvidado la compra con el tono adecuado de culpa.