
NVIDIA NVL72:大规模人工智能的终极系统
这个革命性系统标志着专为人工智能设计的硬件演进的最高点,专门为训练和运行巨型语言模型而创建。NVIDIA 将 36 个 Grace 处理器与 72 个 Blackwell B200 加速器单元集成在一个针对exa级工作负载优化的配置中 🚀
创新架构和前沿组件
NVL72 平台采用第五代 NVLink 互连,它在所有 GPU 之间实现超高速通信,完全消除了复杂模型训练过程中数据交换的瓶颈。每个机架集成了36 个 Grace CPU,这些 CPU 专门设计用于与 Blackwell GPU 协作,形成一个平衡平台,其中中央处理和 AI 加速完美同步运行。
架构的主要特性:- 统一内存,允许模型无传统带宽限制访问海量数据
- Grace CPU 和 Blackwell GPU 之间的平衡配置,实现最大性能
- 第五代 NVLink 互连,实现无瓶颈通信
这些组件在一个机架中的集成,使处理数十亿参数模型的性能达到前所未有的水平
先进的热解决方案和能效
该系统在所有关键组件(包括 GPU、CPU 和 NVLink 互连基础设施)中实施直接液体冷却。这种高效率的热解决方案即使在长时间高强度工作负载下也能保持最佳工作温度,保证一致性能,同时与传统空气冷却系统相比大幅降低能耗 💧
冷却系统的优势:- 在长时间高强度操作中保持最佳温度
- 与空气冷却相比显著降低能耗
- 单个机架中前所未有的计算密度
实施的实际考虑
这个高能耗系统可能需要比一个小社区更多的电力,尽管它在冬季为设施提供额外的加热益处。然而,用户需要直接连接到主电网来为这个技术奇迹供电,从而为人工智能数据中心基础设施建立了新范式 ⚡