
Nvidia Scada:释放CPU的新一代E/S架构
根据最近的消息,Nvidia 正在开发一种创新的输入/输出架构,名为 SCADA(Scaled Accelerated Data Access)。这一开发旨在实现根本性变革:图形处理单元 不仅进行计算,还能自主启动和管理对存储系统的访问操作。目标很明确:将处理器中央的一项繁重且重复的任务卸载,以优化现代苛刻的工作流程,尤其是在人工智能领域 🚀。
超越GPUDirect的质的飞跃
当前技术,即GPUDirect Storage,已经实现了重大进步,它允许GPU与NVMe SSD存储之间通过RDMA(远程直接内存访问)进行直接传输,避免通过CPU内存复制数据。然而,在这种模型中,中央处理器 仍然是必要的协调者,负责协调并为每次传输发出启动信号。SCADA提案革命性地将这一控制和管理逻辑也转移到GPU本身。这意味着加速器可以自行请求、监控和完成其E/S操作,而无需CPU的持续干预,实现前所未有的自主性。
SCADA旨在克服的限制:- 对CPU的依赖:在GPUDirect中,CPU仍是行政瓶颈,消耗宝贵的周期用于协调任务。
- 小操作的延迟:从CPU管理多个小传输的开销变得显著。
- 缺乏最佳并行性:专为大规模并行设计的GPU,受限于CPU核心的顺序指令来访问其数据。
SCADA代表了向更独立和高效GPU的逻辑演进,能够管理自己的数据供应。
对AI周期的变革性影响
SCADA背后的动机直接源于AI工作负载的具体需求。在模型训练阶段,会处理海量数据集的密集突发。另一方面,在生产中的推理阶段,系统必须处理海量的请求,每个请求需要小数据块(通常小于4 KB)。在后一种场景中,传统的CPU管理显示出最大的低效。Nvidia的内部研究表明,通过让GPU自行启动这些微传输,可以大幅降低延迟,并加速推理的整体性能,为SCADA作为全面且必要解决方案铺平道路。
加速计算生态系统的关键益处:- 更低延迟:消除每次传输的CPU往返授权,减少响应时间。
- 更高的CPU效率:中央处理器可以将资源用于其他系统或应用任务,提高整体性能。
- 改进的可扩展性:多GPU系统可以更独立地管理其E/S,在数据密集环境中更好地扩展。
计算任务分工的未来
Nvidia的SCADA架构不仅仅是技术上的增量改进;它象征着计算层次中的范式转变。几十年来作为无可争议的中央大脑管理所有操作的CPU,开始将其中最基本的功能之一——数据流控制——委托给最大消耗者:GPU。这并不意味着取代CPU,而是其向更战略性角色演进,从繁琐的低级任务中解放出来。同时,GPU不仅巩固为计算引擎,还成为智能且自主的子系统。结果承诺是一种更高效的协同,推动下一代人工智能和高性能计算应用 🤖。