全天候科技 10-22
2025OCP算力大会:超节点“Scale Up”是全场焦点
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

本文作者:鲍奕龙

来源:硬 AI

2025 年 OCP 全球峰会传递出明确信号,"Scale Up"(规模化扩展)架构已成为 AI 数据中心基础设施建设的核心主题。

10 月 20 日摩根士丹利亚太团队发表研报,指出为了满足 AI 对算力永无止境的需求,整个行业正全力冲向更大规模、更高密度的 "Scale Up"(规模化扩展)架构。

研报指出,投资焦点需从通用服务器组件转向能够支持超节点架构的核心技术供应商。本次大会明确指出了四大技术趋势与关键受益者:

更大机柜:AMD Helios 超宽机柜架构亮相,推动机柜内组件升级,纬创(Wistron)和纬颖(Wiwynn)成为主要受益者。

更高功率:800V 直流(VDC)供电方案成为下一代标准,将颠覆数据中心供配电架构,台达电子(Delta)和贸联(BizLink)处于领先地位。

更强冷却:2 兆瓦级(2MW)液冷分配单元(CDU)成为焦点,其中谷歌的 Deschutes 方案备受瞩目。

更快网络:为 AI 优化的以太网(ESUN)和 CPO 交换机技术崭露头角,智邦科技(Accton)等网络设备商将迎来升级机遇。

总而言之,整个行业都在为未来数年内即将到来的吉瓦级 AI 数据中心集群做准备,能够提供更高密度、更高效率解决方案的公司将在下一轮增长中占据核心位置。

双倍宽度机架开启 Scale Up 新时代

"Scale Up"(规模化扩展)是为实现更高密度的单节点算力,而这正让机柜形态发生革命性变化。

AMD 联合 Meta、纬颖等厂商共同推出了 Helios 机柜。其关键特征是采用了 ORW(Open Rack Wide)规格,宽度是传统 ORV3 机柜(21 英寸)的两倍。

当前高性能芯片的浮点运算性能(FLOPs)密度极高,为了在低延迟环境下连接更多计算核心,必须将它们置于同一扩展域(scale-up domain)内。

在当前铜线连接的技术限制下,这只能通过更大的背板或中板实现,从而催生了更大的机柜。

Meta 认为未来必须实现解耦合,虽然短期内机架功率密度将继续增加,但最终会因光学技术的应用而下降,摆脱铜互连的限制。

Helios 机架将于 2026 年下半年开始出货,主要客户包括 Meta、甲骨文和 OpenAI。

根据供应链调查,纬颖是 Meta 的主要 ODM 合作伙伴,而纬创是 GPU 模块、基板和交换机托盘的主要 ODM 合作伙伴,大多数 PCB 需要 M9 级 CCL 材料。

同时,这种超宽重型机柜对机箱、导轨等机械部件提出了更高要求,利好勤诚(Chenbro)和川湖(King Slide)等供应商。

800 伏直流电源架构引领下一代高效千兆瓦 AI 工厂

随着机柜功率密度飙升,传统供电架构已难以为继。800V 直流(VDC)供电方案成为全场焦点,它被视为驱动下一代吉瓦级 AI 工厂的关键技术。

与传统 50V 架构相比,800V 直流方案能在同等规格的铜缆上传输超过 150% 的电力,并能将电源使用效率(PUE)提升约 5%。

具体进展来看,台达电子已展出成熟的解决方案,包括 1.2MW 的固态变压器(SST,已量产,3MW 以上正在设计中)、800V 电子保险丝(eFuse)、90kW 的 DC-DC 电源架和 12kW 的配电板

预计新方案将使每瓦功率的供电价值比当前设计翻倍以上。贸联(BizLink)等电源互连供应商也将因液冷母线等更严苛规格的需求而受益。

研报表示800V 直流方案预计将于 2027 年下半年随英伟达的 Rubin Ultra 平台首次亮相。

大规模液冷系统成为焦点

散热是决定算力能否稳定输出的生命线。大会展示的技术路径十分清晰,从当前混合散热向全液冷演进。具体来看:

GB300 现状: 已进入量产的 GB300 计算托盘采用的是混合散热方案(85% 液冷 /15% 风冷),每个计算托盘仅有 6 组快换接头(QD)。良率已不再是市场担忧的重点。

VR200 前瞻: 下一代 VR200 平台将是完全液冷,每个计算托盘的快换接头将增至 14 组。目前已进入机柜级生产和测试阶段,预计 2026 年第三季度末交付。

CDU 大型化谷歌开源了其 2 兆瓦(MW)冷却液分配单元(CDU)设计,支持高达 80 PSI 的压力,为高阶冷板设计提供可能。BOYD、酷冷至尊、台达电子和英维克均展示了相关产品。

报告援引 Promersion 的预测,尽管冷板技术在 2030 年前仍将是市场主流,但浸没式液冷的拐点预计将在 2028 年出现。

网络技术持续优化以应对 AI 需求

除了在节点内部规模化扩展(Scale Up)的解决办法外,节点之间提升高速互联(Scale Out)也是发挥 AI 集群性能的关键。

研报指出为提升网络性能而推出的以太网解决方案(ESUN)以及 CPO 交换机,已被广泛应用于 Al 数据网络的优化中。

然而,这些产品的可靠性、可维护性以及成本问题,依然是影响其广泛应用的关键因素。具体进展来看:

智邦和天弘均展示了基于博通 Tomahawk 6 ASIC 的最新 1.6T 网络交换机产品,预计将在 2026 年底或 2027 年初开始早期应用。智邦还展示了基于 Tomahawk 6 ASIC 和 IRIS 光波长交换机的 CPO 交换机概念验证。

Meta公布的研究结果显示,其 51.2T CPO(共封装光学)交换机的年化链路故障率(ALFR)仅为 0.34%,远优于可插拔光模块的 1.58%,可靠性优势明显,但成本和可维护性仍是普及的关键。

与此同时,有源电缆(AEC)作为一种高性价比的方案正在崛起,在扩展网络(Scale-out)中份额不断提升。Meta 的 GB300 机柜就采用了 AEC,这一趋势预计将持续利好贸联等供应商。

总而言之,2025 年 OCP 全球峰会释放了一个极其明确的信号。AI 基础设施的军备竞赛已进入 " 巨型化 " 阶段,规模化扩展成为贯穿全场的核心主题。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 数据中心 amd 谷歌 摩根士丹利
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论