英伟达修改其加速器执行双精度计算的方式

Ilustración conceptual de un chip Nvidia con circuitos luminosos, mostrando cómo el software emula funciones de hardware para cálculos de doble precisión.

Nvidia 修改其加速器执行双精度计算的方式

公司Nvidia 已转变其处理 64 位浮点运算（FP64）的方式，用于其超级计算处理器。据报道，该公司已停止在新一代产品中开发专用硬件单元。取而代之的是，通过其CUDA库中的算法模拟这些任务。这种方法允许其在某些场景中匹配或超过理论性能，而无需消耗特定的硅片面积。🔄

性能数据揭示新方向

Nvidia 的官方数据显示了这一演变。其最新的加速器Rubin声明硬件矢量 FP64 操作为 33 太赫弗洛普斯，与多年前的 H100 相当。然而，通过启用软件仿真，Nvidia 声称 Rubin 在矩阵 FP64 计算中可达到高达200 太赫弗洛普斯。即使是Blackwell一代，使用此技术，也可达到 150 太赫弗洛普斯，是其前代 Hopper 原生执行的两倍多。📊

关键性能比较：

Rubin（硬件）： 33 TFLOPS FP64 矢量。
Rubin（软件）： 高达 200 TFLOPS 仿真 FP64 矩阵。
Blackwell（软件）： 约 150 TFLOPS，大幅超过 Hopper。

在与合作伙伴的众多研究和内部研究中，我们发现通过仿真达到的精度至少与硬件张量核心获得的精度相同。

验证的精度推动变革

Nvidia 超级计算主管 Dan Ernst 解释了这一战略转变的原因。内部验证和与合作伙伴的验证确认，通过仿真 FP64 达到的精确度至少相当于在专用硬件核心上执行。该发现允许 Nvidia 优化其芯片设计，以主导人工智能等领域，其中优先考虑较低精度（FP32、FP16），同时仍满足高性能计算（HPC）领域对 FP64 的需求。⚖️

软件仿真的优势：

释放芯片中的晶体管和面积用于其他功能。
允许在特定工作负载中达到更高的峰值性能。
保持科学和工程应用所需的精度。

由软件定义的新架构

似乎在人工智能领导地位的竞争中，将硅资源用于仿真而不是原生执行已成为架构效率的新范式。这是一个软件不仅仅支持硬件，而是从根本上重新定义硬件所需的样子。两者之间的界限模糊，以创建更通用的解决方案。🚀