
تطوير Nvidia لبرمجيات مفتوحة المصدر لمراقبة مسرعات الذكاء الاصطناعي
تطور شركة Nvidia حلاً جديداً مفتوح المصدر مصمماً خصيصاً لمشغلي مراكز البيانات. تتيح هذه الأداة استخراج معلومات مفصلة حول الحالة الحرارية ومتعدد المعلمات التشغيلية لمسرعات الذكاء الاصطناعي، مما يساعد في معالجة مشكلات الموثوقية والاحترار الزائد. 🖥️
الوصول إلى المقاييس التشغيلية الرئيسية
يمنح البرنامج المديرين القدرة على مراقبة استهلاك الطاقة، وحمل العمل، وعرض النطاق الترددي للذاكرة، وغيرها من المؤشرات الحيوية في أسطول الأجهزة بأكمله. يسهل توفر هذه التليمترية اكتشاف المكونات المشكلة مبكراً وتحليل كيفية تكوين واستخدام مسرعات، بالإضافة إلى الأخطاء التي تنتجها. تؤكد Nvidia أن جمع هذه البيانات أصبح أكثر أهمية لتخطيط وتشغيل البنى التحتية واسعة النطاق.
المزايا الرئيسية للبرمجيات:- يسمح بـتتبع الاستخدام وتكوين مسرعات الذكاء الاصطناعي في الوقت الفعلي.
- يسهل تحديد المخاطر والمكونات ذات الأعطال المحتملة قبل أن تسبب انقطاعات.
- يوفر رؤية عامة لـإدارة استباقية للانتشارات الكبيرة للأجهزة.
التليمترية التفصيلية حاسمة لتخطيط وإدارة بنى الذكاء الاصطناعي واسعة النطاق.
تحسين إدارة البنية التحتية التشغيلية
الهدف الرئيسي لهذه الأداة هو تمكين المشغلين من تحسين الأداء وموثوقية أنظمة الذكاء الاصطناعي الخاصة بهم. برؤية عامة وفورية، يمكنهم توقع الأعطال، وتعديل التكوينات لكسب الكفاءة، وضمان عمل الأجهزة ضمن حدودها المثلى. هذا النهج أساسي في البيئات حيث تكون التوافر المستمر والأداء العالي أولوية.
ميزات التشغيل والأمان:- يعمل في وضع القراءة فقط، بدون القدرة على مراقبة أو التحكم في المعدات مباشرة.
- لا يشمل مفاتيح الطوارئ، أبواب خلفية، أو وظائف التحكم عن بعد.
- تنفيذه اختياري تماماً للمشغلين.
خطوة نحو القدرة على التنبؤ التشغيلية
رغم أن البرمجيات لا تستطيع منع حاجة مسرع إلى راحة حرارية، إلا أنها تمكن المشغلين من توقع هذه الأحداث. يسمح ذلك باتخاذ إجراءات وقائية، مثل تعديل التبريد، قبل أن يقلل الأجهزة من أدائها أو يفشل. في النهاية، تهدف هذه الأداة إلى إطالة عمر الأجهزة و الحفاظ على أدائها عند أقصى مستوياته، من خلال إدارة قائمة على البيانات. 🔧