
KSTAR 和 SuperX 通过液体冷却和激进模块化革新 AI 基础设施
在一次联合行动中,承诺转变 AI 数据中心设计,KSTAR 和 SuperX 宣布推出集成解决方案芯片直连液体冷却和模块化服务器,专为加速计算的严格要求而设计。这些创新出现在关键时刻,热节流和能量密度已成为大规模部署 AI 基础设施的主要瓶颈。此次合作将 KSTAR 在热管理方面的经验与 SuperX 在服务器架构的模块化方法相结合,为市场创造独特提案。❄️🖥️
现代 AI 的热挑战
随着最新一代 GPU 每单位消耗高达 700W,训练集群需要超过 50kW/机架的功率密度,传统空气冷却已达到物理极限。KSTAR 和 SuperX 通过系统性方法整合冷却和计算,从芯片级到整个数据中心来解决这个问题。
芯片直连液体冷却 (DLC)
KSTAR 的解决方案代表了热效率的重大进步,将冷却剂直接带到最强烈的热源。
微通道技术
冷板使用计算优化的微通道设计,最大化热传输同时最小化压力降,允许在同一回路冷却多个组件,包括 GPU、CPU 和 HBM 内存。
先进介电液体
系统采用单相和双相液体,具有优越的热性能,即使泄漏也零短路风险,配方即使在高温连续运行下也能保持稳定性。
液体冷却 DLC 特性:- 热效率比空气高 50 倍
- 每芯片消散超过 1kW 的能力
- 风扇能耗减少 90%
- 结温降低 30-40°C
SuperX 模块化服务器架构
SuperX 的模块化服务器引入可互换构建块方法,允许根据特定工作负载调整基础设施。
专用计算模块
每个模块针对特定类型的工作负载优化——大型模型训练、高密度推理或图形处理——允许根据不断变化的需求混合和组合。
超高速背板
系统整合支持 NVLink、Infinity Fabric 和 400G 以太网的背板,在模块间保持低延迟互连,同时极大地简化布线。
我们正在重新定义 AI 经济。我们的解决方案允许数据中心将计算密度提高 3 倍,同时将 PUE 降低至 1.1 以下——这是传统冷却技术不可能实现的。
无缝集成
真正的创新在于两种技术如何完美集成,创造出连贯解决方案。
智能分配歧管
液体分配系统实时监控流量、温度和压力,根据每个模块的热负载动态调整流量,并在热节流发生前预测需求。
预测性热管理
AI 算法分析工作负载模式和历史热 профиль,预先优化冷却,减少系统总能耗同时最大化计算性能。
运营和经济优势
液体冷却和模块化的结合提供多维度有形益处。
TCO 降低
用户可以期待总拥有成本节省 30-40%,得益于更低能耗、更高密度和所需物理空间减少。
运营灵活性
模块化架构允许渐进式升级而无需替换整个基础设施,延长投资寿命同时保持技术竞争力。
改进的性能指标:- 持续 95% GPU 利用率(对比典型 60-70%)
- 大型模型训练时间减少 40%
- 每 FLOP 能耗减少 60%
- 每机架占地密度提高 3 倍
应用和目标用例
这些解决方案专为加速计算中最严格的挑战设计。
基础模型训练
集群能够在连续训练数周期间保持最大性能,无热节流退化,这对开发自家大型语言模型的组织至关重要。
网络规模推理
针对每秒服务数千推理、超低延迟的系统,理想用于实时生成式 AI 应用和个性化推荐服务。
可持续性和能效
在AI 能耗日益受到审查的背景下,这些解决方案提供显著优势。
热回收
系统设计用于与数据中心热回收系统集成,允许重新利用散热用于建筑加热或其他工业过程。
减少用水
不同于传统蒸发冷却系统,直连液体冷却在封闭回路中运行,用水量最小且无军团菌风险。
可用性和未来路线图
KSTAR 和 SuperX 宣布了联合解决方案的激进部署计划。
分阶段推出
首批配置将于2024 年 Q4 向企业客户提供,2025 年扩展到云提供商和研究中心。
开发中创新
路线图包括与浸没式冷却集成,用于 DLC 未覆盖的组件,以及机架级冷却系统,完全消除传统 CRAC 的需求。
KSTAR 和 SuperX 的联合推出代表了AI 基础设施演进的转折点。通过同时解决热挑战和架构灵活性,这些解决方案不仅解决即时问题——它们正在为支持数字经济中人工智能持续扩展所需下一代数据中心铺平道路。对于寻求大规模实施 AI 的组织,这些创新可能意味着在数字转型中领先还是因基础设施限制而落后之间的区别。🌟🔧