شاومي تطلق أومنيفويس، ذكاءها الصوتي القادر على التحدث حتى بالصينية المندرينية

أعلنت شركة شاومي عن إطلاق "OmniVoice"، وهو نموذج ذكاء اصطناعي مفتوح المصدر لتحويل النص إلى كلام. تدعم الأداة مئات اللغات، بما في ذلك استنساخ الصوت وتوليد كلام قابل للتخصيص. وفقًا للشركة، فهي تتميز بشكل خاص في اللغتين الصينية والإنجليزية، متفوقة على الأنظمة التجارية في العديد من المهام. نقطة قوتها: يمكنها توليد الصوت بلغات ذات بيانات تدريب محدودة، مما يسهل الوصول إلى اللغات الأقل انتشارًا.

واجهة مستقبلية تعرض موجات صوتية باللونين الأزرق والأحمر على خريطة عالمية، مع شعار شاومي ونصوص باللغتين الصينية الماندرين والإنجليزية، ترمز إلى ذكاء OmniVoice الاصطناعي.

كيف تتعامل OmniVoice مع اللغات محدودة الموارد 🗣️

تستخدم OmniVoice بنية قائمة على المحولات (Transformers) وتدريبًا متعدد المهام لتحقيق تركيب الصوت في ظروف البيانات المحدودة. يستفيد النموذج من التمثيلات المشتركة بين اللغات، مما يسمح بنقل المعرفة من اللغات الغنية بالموارد إلى تلك الأقل منها. تؤكد شاومي أنه في الاختبارات العمياء، تضاهي OmniVoice أو تتفوق على طبيعة الأنظمة المملوكة مثل أنظمة جوجل أو مايكروسوفت، خاصة في النغمات والتنغيمات في اللغة الصينية. كود المصدر والأوزان متاحة على GitHub بموجب ترخيص Apache 2.0، مما يسمح للمطورين بتكييفها وفقًا لاحتياجاتهم.

الآن حتى محمصة الخبز الخاصة بك ستتمكن من الشكوى بـ 500 لغة 🤖

مع OmniVoice، ستتمكن أي شركة ناشئة بثلاثة يورو وجهاز كمبيوتر محمول من استنساخ صوت جارها لجعله يقول له أن يعيد له المثقاب. الأفضل من ذلك، إذا لم تكن لديك بيانات لتدريب النموذج بلغتك المحلية، تعدك شاومي بأن أربعة مقاطع صوتية من واتساب وفيديو من تيك توك ستكون كافية. قريبًا سنرى مساعدين صوتيين في طفايات الحريق أو في الثلاجة يلقون الشعر باللغة السواحيلية. الشيء الوحيد المفقود هو أن تتعلم قول لقد نسيت التسوق بنبرة الذنب المناسبة.