Компания Xiaomi представила OmniVoice — модель искусственного интеллекта с открытым исходным кодом для преобразования текста в речь. Инструмент поддерживает сотни языков, включая клонирование голоса и настраиваемую генерацию речи. По заявлению компании, модель особенно хорошо работает с китайским и английским языками, превосходя коммерческие системы в ряде задач. Её ключевое преимущество: возможность генерировать речь на языках с небольшим объёмом обучающих данных, что упрощает доступ к редким языкам.
Как OmniVoice работает с языками с ограниченными ресурсами 🗣️
OmniVoice использует архитектуру на основе трансформеров и многозадачное обучение для синтеза речи в условиях ограниченных данных. Модель использует общие межъязыковые представления, что позволяет переносить знания с языков с большим количеством ресурсов на языки с меньшим их количеством. Xiaomi утверждает, что в слепых тестах OmniVoice сравнивается или превосходит по естественности проприетарные системы, такие как Google или Microsoft, особенно в тонах и интонациях китайского языка. Исходный код и веса доступны на GitHub под лицензией Apache 2.0, что позволяет разработчикам адаптировать модель под свои нужды.
Теперь даже ваш тостер сможет жаловаться на 500 языках 🤖
С OmniVoice любой стартап с тремя евро и ноутбуком сможет клонировать голос соседа, чтобы заставить его сказать, что тот вернёт дрель. Самое замечательное: если у вас нет данных для обучения модели на вашем местном языке, Xiaomi обещает, что хватит четырёх аудиосообщений из WhatsApp и одного видео из TikTok. Скоро мы увидим голосовых ассистентов в огнетушителях или холодильниках, читающих стихи на суахили. Единственное, чего не хватает — чтобы он научился говорить я забыл купить продукты с правильной интонацией вины.