英伟达修改其加速器执行双精度计算的方式

发布于 2026年02月22日 | 从西班牙语翻译
Ilustración conceptual de un chip Nvidia con circuitos luminosos, mostrando cómo el software emula funciones de hardware para cálculos de doble precisión.

Nvidia 修改其加速器执行双精度计算的方式

公司Nvidia 已转变其处理 64 位浮点运算(FP64)的方式,用于其超级计算处理器。据报道,该公司已停止在新一代产品中开发专用硬件单元。取而代之的是,通过其CUDA库中的算法模拟这些任务。这种方法允许其在某些场景中匹配或超过理论性能,而无需消耗特定的硅片面积。🔄

性能数据揭示新方向

Nvidia 的官方数据显示了这一演变。其最新的加速器Rubin声明硬件矢量 FP64 操作为 33 太赫弗洛普斯,与多年前的 H100 相当。然而,通过启用软件仿真,Nvidia 声称 Rubin 在矩阵 FP64 计算中可达到高达200 太赫弗洛普斯。即使是Blackwell一代,使用此技术,也可达到 150 太赫弗洛普斯,是其前代 Hopper 原生执行的两倍多。📊

关键性能比较:
  • Rubin(硬件): 33 TFLOPS FP64 矢量。
  • Rubin(软件): 高达 200 TFLOPS 仿真 FP64 矩阵。
  • Blackwell(软件): 约 150 TFLOPS,大幅超过 Hopper。
在与合作伙伴的众多研究和内部研究中,我们发现通过仿真达到的精度至少与硬件张量核心获得的精度相同。

验证的精度推动变革

Nvidia 超级计算主管 Dan Ernst 解释了这一战略转变的原因。内部验证和与合作伙伴的验证确认,通过仿真 FP64 达到的精确度至少相当于在专用硬件核心上执行。该发现允许 Nvidia 优化芯片设计,以主导人工智能等领域,其中优先考虑较低精度(FP32、FP16),同时仍满足高性能计算(HPC)领域对 FP64 的需求。⚖️

软件仿真的优势:
  • 释放芯片中的晶体管和面积用于其他功能。
  • 允许在特定工作负载中达到更高的峰值性能。
  • 保持科学和工程应用所需的精度。

由软件定义的新架构

似乎在人工智能领导地位的竞争中,将硅资源用于仿真而不是原生执行已成为架构效率的新范式。这是一个软件不仅仅支持硬件,而是从根本上重新定义硬件所需的样子。两者之间的界限模糊,以创建更通用的解决方案。🚀