
Nvidia 开发用于监控 AI 加速器的开源软件
公司 Nvidia 正在创建一个新的 开源 解决方案,专为数据中心运营商设计。该工具允许提取有关人工智能加速器的热状态和多个操作参数的详细信息,有助于解决可靠性和过热问题。🖥️
访问关键操作指标
该程序赋予管理员监控整个硬件舰队中的 能耗、工作负载、内存带宽和其他关键指标的能力。拥有这种遥测数据有助于及早检测问题组件,分析加速器的配置和使用方式,以及它们产生的错误。Nvidia 强调,收集这些数据对于规划和运营大规模基础设施越来越重要。
软件的关键优势:- 允许 实时跟踪 AI 加速器的使用和配置。
- 有助于 识别风险 和潜在故障组件,在它们造成中断之前。
- 提供全局视野,用于 主动管理 大型硬件部署。
详细的遥测数据对于规划和管理大规模 AI 基础设施至关重要。
改善基础设施的操作管理
该工具的主要目标是使运营商能够 优化性能 和 AI 系统的可靠性。通过全局即时视图,他们可以预测故障、调整配置以提高效率,并确保硬件在其最佳限制内运行。这种方法在连续可用性和高性能优先的环境中至关重要。
运行和安全特性:- 以 只读模式 运行,无法直接监控或控制设备。
- 不包括 紧急开关、后门或远程控制功能。
- 其实施对运营商来说是 完全可选的。
迈向操作可预测性
虽然该软件无法防止加速器需要 热休息,但它赋予运营商预见这些事件的能力。这允许采取预防措施,例如调整冷却,在硬件降低性能或故障之前。最终,该工具旨在通过基于数据的管理来 延长硬件寿命 并保持其最大性能。🔧