NVIDIA DGX Spark:Grace Blackwell超级计算机即将面世

发布于 2026年02月27日 | 从西班牙语翻译
Superordenador NVIDIA DGX Spark con chip GB10 Grace Blackwell en rack de data center, mostrando interconexiones NVLink y sistema de refrigeración líquida.

DGX Spark:当一台超级计算机装进一个机架并改变一切

NVIDIA 已正式宣布其基于 Grace Blackwell GB10 架构的超级计算机 DGX Spark 商业可用,这标志着大规模人工智能模型训练的一个转折点。该系统仅占用一个机架,但提供相当于以前需要整个服务器室的性能,专为训练超过万亿参数的下一代模型而设计。Grace CPU、Blackwell GPU 和第四代 NVLink 互连的结合,创造了一个重新定义 AI 研究与开发可能性的平台。🚀

Grace Blackwell 架构:CPU 与 GPU 的协同作用

DGX Spark 的非凡之处不仅仅是其部件之和,而是这些部件的集成方式。Grace Blackwell 架构通过 900 GB/s 的 NVLink 互连,将 Grace CPU(专为处理海量数据集和预处理操作而设计)与 Blackwell GPU(针对海量矩阵计算优化)连接起来,消除了先前系统中的瓶颈。这种统一内存一致性允许两个处理器像访问本地内存一样访问 1.5TB 的内存池,大幅简化了复杂工作负载的编程。

令人印象深刻的技术规格

DGX Spark 是多年 AI 专用硬件开发的巅峰之作,将前几代 DGX 系统吸取的经验教训与从零设计的全新技术相结合,专为训练极大规模模型而打造。

处理核心与内存

每个 DGX Spark 节点包括八个互连的 GB10 Blackwell GPU,每个配备 192GB HBM3e 内存和 20 petaFLOPS 的 FP8 性能。Grace CPU 拥有 144 个自定义 ARM 核心和 960GB LPDDR5X 内存。单个机架的完整系统提供 64 个互连 GPU,总计 12.3TB 统一 HBM3e 内存和 160 petaFLOPS 的聚合性能。这些数字使得一年前理论上可能但实际不可及的模型训练成为可能。

每个机架的关键规格:
  • 64 个 GB10 Blackwell GPU,每个 192GB HBM3e
  • 8 个 Grace CPU,每个 144 个 ARM 核心
  • 12.3TB 统一 HBM3e 内存
  • 160 petaFLOPS FP8 精度

互连与带宽

该系统采用第四代 NVLink Switch,提供 64 个 GPU 之间 7.2TB/s 的双向带宽,有效创建一个 12.3TB 的 超级 GPU。NVLink-NVLink 互连允许 GPU 间直接通信,而无需通过 CPU,这对于分布式训练算法至关重要。对于外部连接,它包括 400Gb/s InfiniBand 和 Ethernet 的 NVIDIA ConnectX-7 接口,允许扩展到多机架集群以支持最雄心勃勃的项目。

DGX Spark 不是进化,而是重新定义大规模训练 AI 的含义。

能效与冷却

每个完整机架功耗 120kW,NVIDIA 通过使用 4nm 自定义硅和低功耗内存架构优先考虑效率。该系统采用直接芯片液冷冷却 GPU,从而实现更高的持续时钟频率,同时保持最佳温度。与上一代相比,能效提升 4 倍,这对于这些系统连续运行数周训练的运营成本至关重要。

效率创新:
  • 直接芯片液冷
  • 4nm 自定义硅
  • 低功耗内存架构
  • 相比上一代效率提升 4 倍

对研究与实际应用的影响

DGX Spark 旨在应对 AI 中最复杂的挑战:从多万亿参数的语言模型到行星规模的科学模拟。在医学研究中,它将允许建模完整的蛋白质相互作用而非片段。在气候领域,它将实现高分辨率模拟,更早预测极端事件。对于科技企业,它将加速开发更强大的 AI 助手和更精确的推荐系统。访问这种计算能力可能加速原本需要数十年才能实现的科学发现。🔬

变革性应用:
  • 多万亿参数语言模型
  • 通过分子模拟的药物发现
  • 高分辨率气候建模
  • 核聚变与清洁能源研究

最终,DGX Spark 证明了一些问题需要超级计算规模的解决方案,尽管它可能会让你的开发工作站感觉有点……合适。💻