迈向10万卡集群！摩尔线程等制定128卡高密超节点参考设计

快科技 3 月 16 日消息，传统服务器一般就是单击配 2-8 块加速卡，但是智算集群的规模正在急剧膨胀，百卡、千卡、万卡甚至十万卡一路不停，所以具备强互联能力的超节点架构正成为焦点。

近日，依托 OISA 协同创新平台，摩尔线程、中国移动研究院、之江实验室等合作，正式发布了《OISA 高密超节点参考设计技术规范》。

该规范针对当前智算中心面临的互联瓶颈、供电压力及散热极限，提出了全栈式解决方案，支持构建自主可控、高性能的智算集群。

OISA 高密超节点大胆引入了大尺寸高密线缆方案，在主流 32 卡至 64 卡互联的基础上，实现了标准单宽机柜内 128 卡的全互联，并支持通过并柜扩展实现 256 卡部署。

核心协议层面，规范采用基于 OISA 2.0 版本的原生内存语义支持，可以实现跨节点的无障碍数据访问，配合创新报文重构技术，将卡间带宽推向 TB/s 级别，时延缩短至数百纳秒。

如今，单颗 GPU 算立卡的功耗已经攀升至 700W 甚至 1000W 以上，机柜功率则奔向 350kW 甚至更高。

OISA 参考设计重点变革了柜级供电、散热管理两个方面。

在供电侧，引入高压直流系统与柜内集中供电、盲插技术，减少中间电力转换层级，显著降低能耗损耗。

在散热侧，液冷技术在超节点架构中从 " 可选项 " 转变为 " 原生标配 "，针对单 GPU 2kW 以上的散热需求进行深度优化，将 PUE 值从风冷时代的 1.4 降至 1.05～1.15。

再结合全量监测流量、压力、温度的智能诊断系统，导热效率提升了数千倍。

展望未来，OISA 协同创新平台将继续融合 Chiplet、光互连、内存池等前沿技术，探索计算的极限。

宙世代