NVIDIA DGX Spark：Grace Blackwell超级计算机即将面世

Superordenador NVIDIA DGX Spark con chip GB10 Grace Blackwell en rack de data center, mostrando interconexiones NVLink y sistema de refrigeración líquida.

DGX Spark：当一台超级计算机装进一个机架并改变一切

NVIDIA 已正式宣布其基于 Grace Blackwell GB10 架构的超级计算机 DGX Spark 商业可用，这标志着大规模人工智能模型训练的一个转折点。该系统仅占用一个机架，但提供相当于以前需要整个服务器室的性能，专为训练超过万亿参数的下一代模型而设计。Grace CPU、Blackwell GPU 和第四代 NVLink 互连的结合，创造了一个重新定义 AI 研究与开发可能性的平台。🚀

Grace Blackwell 架构：CPU 与 GPU 的协同作用

DGX Spark 的非凡之处不仅仅是其部件之和，而是这些部件的集成方式。Grace Blackwell 架构通过 900 GB/s 的 NVLink 互连，将 Grace CPU（专为处理海量数据集和预处理操作而设计）与 Blackwell GPU（针对海量矩阵计算优化）连接起来，消除了先前系统中的瓶颈。这种统一内存一致性允许两个处理器像访问本地内存一样访问 1.5TB 的内存池，大幅简化了复杂工作负载的编程。

令人印象深刻的技术规格

DGX Spark 是多年 AI 专用硬件开发的巅峰之作，将前几代 DGX 系统吸取的经验教训与从零设计的全新技术相结合，专为训练极大规模模型而打造。

处理核心与内存

每个 DGX Spark 节点包括八个互连的 GB10 Blackwell GPU，每个配备 192GB HBM3e 内存和 20 petaFLOPS 的 FP8 性能。Grace CPU 拥有 144 个自定义 ARM 核心和 960GB LPDDR5X 内存。单个机架的完整系统提供 64 个互连 GPU，总计 12.3TB 统一 HBM3e 内存和 160 petaFLOPS 的聚合性能。这些数字使得一年前理论上可能但实际不可及的模型训练成为可能。

每个机架的关键规格：

64 个 GB10 Blackwell GPU，每个 192GB HBM3e
8 个 Grace CPU，每个 144 个 ARM 核心
12.3TB 统一 HBM3e 内存
160 petaFLOPS FP8 精度

互连与带宽

该系统采用第四代 NVLink Switch，提供 64 个 GPU 之间 7.2TB/s 的双向带宽，有效创建一个 12.3TB 的 超级 GPU。NVLink-NVLink 互连允许 GPU 间直接通信，而无需通过 CPU，这对于分布式训练算法至关重要。对于外部连接，它包括 400Gb/s InfiniBand 和 Ethernet 的 NVIDIA ConnectX-7 接口，允许扩展到多机架集群以支持最雄心勃勃的项目。

DGX Spark 不是进化，而是重新定义大规模训练 AI 的含义。

能效与冷却

每个完整机架功耗 120kW，NVIDIA 通过使用 4nm 自定义硅和低功耗内存架构优先考虑效率。该系统采用直接芯片液冷冷却 GPU，从而实现更高的持续时钟频率，同时保持最佳温度。与上一代相比，能效提升 4 倍，这对于这些系统连续运行数周训练的运营成本至关重要。

效率创新：

直接芯片液冷
4nm 自定义硅
低功耗内存架构
相比上一代效率提升 4 倍

对研究与实际应用的影响

DGX Spark 旨在应对 AI 中最复杂的挑战：从多万亿参数的语言模型到行星规模的科学模拟。在医学研究中，它将允许建模完整的蛋白质相互作用而非片段。在气候领域，它将实现高分辨率模拟，更早预测极端事件。对于科技企业，它将加速开发更强大的 AI 助手和更精确的推荐系统。访问这种计算能力可能加速原本需要数十年才能实现的科学发现。🔬

变革性应用：

多万亿参数语言模型
通过分子模拟的药物发现
高分辨率气候建模
核聚变与清洁能源研究

最终，DGX Spark 证明了一些问题需要超级计算规模的解决方案，尽管它可能会让你的开发工作站感觉有点……合适。💻