Nvidia Scada：解放CPU的新一代E/S架构

Ilustración conceptual de una GPU Nvidia conectada directamente a unidades de almacenamiento NVMe SSD, con un flujo de datos intenso que evita el paso por la CPU, representando la arquitectura SCADA.

Nvidia Scada：释放CPU的新一代E/S架构

根据最近的消息，Nvidia 正在开发一种创新的输入/输出架构，名为 SCADA（Scaled Accelerated Data Access）。这一开发旨在实现根本性变革：图形处理单元 不仅进行计算，还能自主启动和管理对存储系统的访问操作。目标很明确：将处理器中央的一项繁重且重复的任务卸载，以优化现代苛刻的工作流程，尤其是在人工智能领域 🚀。

超越GPUDirect的质的飞跃

当前技术，即GPUDirect Storage，已经实现了重大进步，它允许GPU与NVMe SSD存储之间通过RDMA（远程直接内存访问）进行直接传输，避免通过CPU内存复制数据。然而，在这种模型中，中央处理器 仍然是必要的协调者，负责协调并为每次传输发出启动信号。SCADA提案革命性地将这一控制和管理逻辑也转移到GPU本身。这意味着加速器可以自行请求、监控和完成其E/S操作，而无需CPU的持续干预，实现前所未有的自主性。

SCADA旨在克服的限制：

对CPU的依赖：在GPUDirect中，CPU仍是行政瓶颈，消耗宝贵的周期用于协调任务。
小操作的延迟：从CPU管理多个小传输的开销变得显著。
缺乏最佳并行性：专为大规模并行设计的GPU，受限于CPU核心的顺序指令来访问其数据。

SCADA代表了向更独立和高效GPU的逻辑演进，能够管理自己的数据供应。

对AI周期的变革性影响

SCADA背后的动机直接源于AI工作负载的具体需求。在模型训练阶段，会处理海量数据集的密集突发。另一方面，在生产中的推理阶段，系统必须处理海量的请求，每个请求需要小数据块（通常小于4 KB）。在后一种场景中，传统的CPU管理显示出最大的低效。Nvidia的内部研究表明，通过让GPU自行启动这些微传输，可以大幅降低延迟，并加速推理的整体性能，为SCADA作为全面且必要解决方案铺平道路。

加速计算生态系统的关键益处：

更低延迟：消除每次传输的CPU往返授权，减少响应时间。
更高的CPU效率：中央处理器可以将资源用于其他系统或应用任务，提高整体性能。
改进的可扩展性：多GPU系统可以更独立地管理其E/S，在数据密集环境中更好地扩展。

计算任务分工的未来

Nvidia的SCADA架构不仅仅是技术上的增量改进；它象征着计算层次中的范式转变。几十年来作为无可争议的中央大脑管理所有操作的CPU，开始将其中最基本的功能之一——数据流控制——委托给最大消耗者：GPU。这并不意味着取代CPU，而是其向更战略性角色演进，从繁琐的低级任务中解放出来。同时，GPU不仅巩固为计算引擎，还成为智能且自主的子系统。结果承诺是一种更高效的协同，推动下一代人工智能和高性能计算应用 🤖。