半导体产业纵横 6小时前
芯片冷却,涌现大量“黑科技”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

文 | 半导体产业纵横

最近,英伟达在官方博客上宣布了一件事:其下一代 AI 计算平台 Rubin 将彻底取消风扇,100% 依赖液冷运行。同一个月,韩国科学技术院(KAIST)团队发表论文,展示了一种将室温水直接注入芯片内部微管道的冷却技术,性能系数达到此前世界纪录的 10 倍。再往前推几天,SK 海力士发布了在 HBM 内存封装中直接集成散热元件的 iHBM 方案。

这些消息密集地出现,并非巧合。当单颗 AI 加速器的功耗逼近 1000W、单个机架的功率接近 1 兆瓦时,空气冷却的物理极限已经到了。施耐德电气总裁的判断很直接:" 一旦单芯片功耗超过某个阈值,液冷就不再是可选项,而是必需品。"

围绕 " 散热 " 这件事,半导体产业正在经历一次从芯片内部到数据中心外墙的全链路重构。

01 KAIST 的颠覆性突破

在芯片级散热领域,传统的外部液冷方案正面临流体阻力大、泵送能耗高以及温度分布不均的瓶颈。6 月 16 日,KAIST 研究团队发表了一项突破性研究,展示了一种从芯片内部进行冷却的超高效液冷技术。

KAIST 团队没有依赖昂贵的合成金刚石等特种导热材料,而是将 " 歧管微通道 "(manifold microchannel)结构直接雕刻在硅半导体芯片内部。这种设计类似于一个高效的物流网络,通过在芯片上均匀分布多个微型入口和出口,大幅缩短了冷却流体的传输距离,从而显著降低了流阻和所需的泵送压力。

该技术的核心优势体现在三个维度:第一,极高的冷却效率——在实验中,该系统实现了 106,000 的冷却性能系数(COP),这一指标是 2020 年《Nature》所记录的世界纪录的 10 倍,意味着芯片制造商只需十分之一的泵送功率就能移除同等数量的热量。第二,极限热负荷下的稳定性——即使在每平方厘米 2000 瓦的极端热负荷下,该系统仍能使用普通的室温水将芯片温度控制在 100°C 的安全阈值以下。第三,与现有工艺的兼容性——整个微通道的制造工艺在 350°C 以下完成,完全兼容现有的商业半导体晶圆代工生产线,无需耗资数十亿美元采购新设备。

KAIST 教授 Sung Jin Kim 指出,随着 AI 半导体和先进电子封装的性能越来越受热量限制,这项技术有望成为未来高性能计算系统的基础冷却解决方案。微流控芯片冷却技术的商业化前景广阔,据 Fact.MR 的报告预测,全球微流控芯片冷却市场将从 2025 年的 3.843 亿美元激增至 2036 年的 28.6 亿美元,复合年增长率(CAGR)高达 20%。

02 HBM5 时代的 " 热防御战 "

在 AI 计算系统中,计算核心(GPU/ASIC)与高带宽内存(HBM)之间的数据传输是性能的关键。然而,随着 HBM 从 HBM3E 向 HBM4E 甚至 HBM5 演进,堆叠层数预计将达到 20 层左右,热量积聚已成为限制性能和可扩展性的核心瓶颈。存储芯片三巨头 SK 海力士、三星和美光的竞争焦点,已从单纯的容量和带宽比拼,转向了封装级热管理技术的较量。

5 月 27 日,SK 海力士率先发布了 "iHBM" 热解决方案,宣布将其应用于包括 HBM5 在内的下一代产品中。传统的 HBM 设计依赖于通过基础裸片散热,而 SK 海力士的 iHBM 方案则从结构上进行了颠覆。该技术将冷却元件直接集成到 HBM 堆栈与 GPU 之间的 D2D PHY 接口中。ICE 是一种硅基材料,具备高导热性但电绝缘,在封装内部构建了一条额外的散热通道。SK 海力士官方数据显示,该设计可将热阻降低 30%,同时显著提升系统在高负载下的运行稳定性。

三星电子不甘示弱,在随后的 COMPUTEX 2026 展会上展示了其搭载 HPB 技术的 HBM5 模型。三星 DS 部门首席技术官 Song Jae-hyuk 确认,HPB 技术已在 HBM4E 中实施,其可靠性得到了验证。与 SK 海力士类似,三星也瞄准了 D2D PHY 这一主要热源区域。HPB 技术在 D2D PHY 区域引入了独立的硅基热路径,以改善热传导。三星此前已将铜基 HPB 结构应用于其 Exynos 2600 应用处理器中,实现了高达 16% 的热阻降低。而在 HBM 应用中,三星正致力于将 HPB 集成到整个内存堆栈的全局设计中,优化基础裸片和核心裸片的布局。

美光科技则采取了不同的技术路线。美光将重点放在低功耗 HBM 设计上,主要通过其硅通孔(TSV)沟槽冷却技术来实现。该技术在 AI 加速器芯片的硅片内部蚀刻微观沟槽,并循环冷却液以减少内部热量积聚。此外,美光在 2025 年获得的一项美国专利揭示了一种基于电气被动冷却 TSV 的垂直热管理结构。这些专门的散热 TSV 与信号 TSV 位于同一封装引脚内,不占用额外的裸片面积,形成了一条低阻力的垂直散热通道。

HBM 厂商在热管理上的激烈角逐表明,先进封装技术已经超越了单纯的电气互连范畴,将热传导路径作为架构设计的核心要素。这一转变将深刻影响未来 AI 芯片的封装良率和制造成本。

03 英伟达 Rubin 平台的重构

如果说 KAIST 和存储厂商解决的是芯片和封装级别的散热问题,那么英伟达则在系统和数据中心级别推动了一场基础设施的革命。2026 年 6 月 21 日,英伟达官方博客发布了一篇文章,详细披露了其新一代 Rubin 平台的散热架构。

Rubin 平台是全球首个 100% 全液冷 AI 计算平台。在 Rubin 服务器中,不仅是 GPU 和 CPU,所有的网络组件也都完全由闭环液冷系统进行冷却,彻底消除了系统内的风扇。这种设计的核心突破在于其冷却液(75% 水和 25% 丙二醇的混合物)的运行温度。传统的冷却液入口温度通常在 30°C 左右,而 Rubin 系统将冷却液入口温度推高至 45°C,流出服务器时的温度达到约 55°C。

提高冷却液温度是基于一个基本的物理学原理:热量从高温物体流向低温物体。冷却液到达室外散热器时温度越高,无源室外干式冷却器就越容易在不依赖机械冷水机或蒸发冷却塔的情况下带走热量。据行业估计,冷水机组温度每提高 1 度,冷却能耗成本可降低约 4%。

英伟达数据中心冷却与基础设施总监 Ali Heydari 表示:"DSX 参考设计实现了零水消耗。除了在某些气候条件下可能有 1% 的时间需要冷水机组外,这几乎是一个无需蒸发冷却的闭环系统。" 对于一个 50 兆瓦的超大规模数据中心而言,转向这种液冷基础设施每年可节省超过 400 万美元的冷却能源和水资源成本。此外,全液冷架构大幅提升了机架密度,原本占用 6 个机架单元的系统现在只需 2 个单元,同时消除了传统风冷服务器高达 85 分贝以上的噪音。

英伟达的这一举措具有强大的产业号召力。由于 Rubin 平台采用全液冷设计,所有为该平台构建系统的云服务提供商(CSP)和数据中心运营商都必须完成向液冷技术的过渡。戴尔和 Supermicro 等服务器制造商已迅速响应。戴尔推出了无风扇、直接液冷的 PowerEdge XE8812 服务器,单机架可容纳 144 个 GPU,功率超过 300kW。Supermicro 则与埃克森美孚合作,验证基于 NVIDIA B300 AI 服务器的浸没式冷却技术,并交付了端到端的 Rubin NVL4 液冷机架解决方案。

04 液冷初创公司的黄金时代

随着液冷技术成为刚需,资本市场对该领域的关注度空前高涨。近期,液冷初创公司频频传出巨额融资消息。

Accelsius宣布完成 6500 万美元的 B 轮融资,由建筑技术巨头江森自控(Johnson Controls)领投。该公司的 NeuCool 两相直接到芯片液冷平台采用无水设计,据称与传统系统相比可节省高达 50% 的能源,每个插槽的冷却能力超过 4500W。

另一家备受瞩目的初创公司是Omen AI。该公司在 6 月底完成了由 Nava Ventures 领投的 3100 万美元 A 轮融资。随着液冷系统的普及,冷却液的健康状况成为影响数据中心稳定运行的隐患。Omen AI 开发了一种微型光谱仪,利用人工智能实时监测冷却液的化学成分,在细菌爆发或设备磨损导致数百万美元停机损失之前发出预警。目前,该公司已与包括 TensorWave 在内的十多家数据中心客户展开合作。

在资本市场的二级市场,投资者也用真金白银对液冷趋势投下了赞成票。在英伟达发布 Rubin 液冷细节后,传统 HVAC(供暖、通风与空调)股票应声下跌。这反映出市场认为传统风冷设备在 AI 数据中心市场的份额将被液冷技术迅速侵蚀。同时,Vertiv、施耐德电气等在液冷领域布局深厚的企业,其市值在过去一年中实现了显著增长。BNP Paribas 在 6 月的研报中将 Vertiv 和 Eaton 列为 AI 数据中心冷却领域的首选标的。

05 边界之外的挑战

尽管液冷技术在降低数据中心内部能耗和水耗方面展现出巨大潜力,但它并非解决 AI 能源危机的 " 万能药 "。

芝加哥大学计算机科学教授 Andrew Chien 指出,英伟达的 45°C 闭环系统确实是一项工程壮举,但所谓的 " 零水消耗 " 仅仅是数据中心物理边界内的统计结果。根据 Xylem 和 Global Water Intelligence 的分析,到 2050 年,直接用于数据中心冷却的水资源仅占 AI 新增水资源需求的约 4%。相比之下,为数据中心供电的发电厂消耗了 54% 的水资源,而半导体制造环节则消耗了 42%。这意味着,液冷技术虽然解决了 " 近水楼台 " 的冷却问题,但并未从根本上消除 AI 产业链对整体水资源和能源的庞大消耗。

此外,地理环境也是液冷技术普及的制约因素。英伟达的 45°C 系统在温带气候可以实现无冷水机组运行,但在亚利桑那、得克萨斯或新加坡等炎热地区,在最热的日子里仍需依赖机械冷却。而当前大量规划中的 AI 数据中心恰恰位于这些水资源紧张的地区。

在商业落地方面,浸没式冷却等先进技术仍面临维护复杂性的挑战。将服务器浸泡在介电液体中意味着硬件维护需要将设备从冷却槽中吊出、排液并清洁,这大大增加了运维的时间和难度。日本电信巨头 KDDI 与三菱重工合作,在大阪堺市部署了采用浸没式冷却的商业数据中心,将冷却能耗降低了 94%,PUE 降至 1.05。但这类部署的前期资本支出远高于风冷系统,且对现有老旧数据中心的改造难度极大。

经济学中的 " 杰文斯悖论 " 同样适用于此:当冷却每一瓦特算力的成本变得更低、更容易时,最可能的结果是部署更多、更密集的算力,从而在系统层面上抵消了单位能耗的节省。

06 结语

芯片冷却已经从一个边缘的工程支持环节,跃升为决定 AI 基础设施成败的核心战略要素。从 KAIST 的微通道创新,到 SK 海力士与三星的封装级热防御,再到英伟达主导的机架级全液冷革命,一条清晰的技术演进路线已经浮现:冷却系统正在不断向热源(硅片)逼近。

在这个由算力驱动的新时代,谁能最有效地管理热量,谁就能在性能、密度和运营成本上占据优势。热管理不再仅仅是物理学问题,它已经成为 AI 时代的 " 新摩尔定律 ",定义着算力增长的物理边界与商业天花板。对于半导体产业链的参与者而言,掌握先进冷却技术,就是在未来的 AI 算力版图中握住了至关重要的入场券。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论