Xiaomi ने OmniVoice प्रस्तुत किया है, जो टेक्स्ट-टू-स्पीच रूपांतरण के लिए एक ओपन-सोर्स आर्टिफिशियल इंटेलिजेंस मॉडल है। यह टूल सैकड़ों भाषाओं का समर्थन करता है, जिसमें वॉयस क्लोनिंग और अनुकूलन योग्य भाषण निर्माण शामिल है। कंपनी के अनुसार, यह विशेष रूप से चीनी और अंग्रेजी में उत्कृष्ट है, जो कई कार्यों में वाणिज्यिक प्रणालियों से बेहतर प्रदर्शन करता है। इसकी ताकत: यह कम प्रशिक्षण डेटा वाली भाषाओं में आवाज उत्पन्न कर सकता है, जिससे अल्पसंख्यक भाषाओं तक पहुंच आसान हो जाती है।
OmniVoice कम संसाधनों वाली भाषाओं को कैसे संभालता है 🗣️
OmniVoice सीमित डेटा स्थितियों में भाषण संश्लेषण प्राप्त करने के लिए ट्रांसफॉर्मर-आधारित आर्किटेक्चर और मल्टी-टास्क प्रशिक्षण का उपयोग करता है। मॉडल भाषाओं के बीच साझा प्रतिनिधित्व का लाभ उठाता है, जिससे प्रचुर संसाधनों वाली भाषाओं से कम संसाधनों वाली भाषाओं में ज्ञान स्थानांतरित किया जा सकता है। Xiaomi का दावा है कि ब्लाइंड परीक्षणों में, OmniVoice Google या Microsoft जैसी मालिकाना प्रणालियों की स्वाभाविकता के बराबर या उससे बेहतर प्रदर्शन करता है, विशेष रूप से चीनी के स्वर और उच्चारण में। स्रोत कोड और वज़न GitHub पर Apache 2.0 लाइसेंस के तहत उपलब्ध हैं, जिससे डेवलपर्स इसे अपनी आवश्यकताओं के अनुसार अनुकूलित कर सकते हैं।
अब आपका टोस्टर भी 500 भाषाओं में शिकायत कर सकेगा 🤖
OmniVoice के साथ, कोई भी स्टार्टअप तीन यूरो और एक लैपटॉप के साथ अपने पड़ोसी की आवाज क्लोन कर सकता है ताकि वह उसे ड्रिल वापस करने के लिए कहे। सबसे अच्छी बात यह है कि अगर आपके पास अपनी स्थानीय भाषा में मॉडल को प्रशिक्षित करने के लिए डेटा नहीं है, तो Xiaomi वादा करता है कि चार WhatsApp ऑडियो और एक TikTok वीडियो पर्याप्त है। जल्द ही हम अग्निशामक यंत्रों या फ्रिज में स्वाहिली में कविता सुनाने वाले वॉयस असिस्टेंट देखेंगे। बस यह कमी है कि यह अपराधबोध के सही स्वर में मैं खरीदारी भूल गया कहना सीखे।