Xiaomi hat OmniVoice vorgestellt, ein Open-Source-KI-Modell für die Umwandlung von Text in Sprache. Das Tool unterstützt hunderte Sprachen, einschließlich Sprachklonen und anpassbarer Sprachgenerierung. Laut dem Unternehmen zeichnet es sich besonders in Chinesisch und Englisch aus und übertrifft kommerzielle Systeme bei verschiedenen Aufgaben. Seine Stärke: Es kann Sprache in Sprachen mit wenigen Trainingsdaten erzeugen und erleichtert so den Zugang zu Minderheitensprachen.
Wie OmniVoice Sprachen mit geringen Ressourcen verwaltet 🗣️
OmniVoice verwendet eine auf Transformatoren basierende Architektur und Multi-Task-Training, um Sprachsynthese unter Bedingungen begrenzter Daten zu erreichen. Das Modell nutzt gemeinsame Repräsentationen zwischen Sprachen, was den Wissenstransfer von ressourcenreichen zu ressourcenarmen Sprachen ermöglicht. Xiaomi gibt an, dass OmniVoice in Blindtests die Natürlichkeit proprietärer Systeme wie denen von Google oder Microsoft erreicht oder übertrifft, insbesondere bei Tönen und Intonationen des Chinesischen. Der Quellcode und die Gewichte sind auf GitHub unter der Apache-2.0-Lizenz verfügbar, sodass Entwickler sie an ihre Bedürfnisse anpassen können.
Jetzt kann sich sogar dein Toaster in 500 Sprachen beschweren 🤖
Mit OmniVoice kann jedes Startup mit drei Euro und einem Laptop die Stimme seines Nachbarn klonen, um ihn sagen zu lassen, dass er den Bohrer zurückgeben soll. Das Beste daran: Wenn du keine Daten hast, um das Modell in deiner lokalen Sprache zu trainieren, verspricht dir Xiaomi, dass vier WhatsApp-Sprachnachrichten und ein TikTok-Video ausreichen. Bald werden wir Sprachassistenten in Feuerlöschern oder im Kühlschrank sehen, die Gedichte auf Swahili aufsagen. Es fehlt nur noch, dass es lernt, Ich habe den Einkauf vergessen mit dem richtigen Ton der Schuld zu sagen.