格隆汇 5 月 21 日|近日,智谱联合驭驯网络、清华大学在 GLM-5.1 的线上生产推理集群中,成功规模化落地了新一代网络架构 ZCube。
随着大模型推理需求爆发,特别是 Prefill 与 Decode 阶段分离部署后,集群内的数据传输呈现出高度的动态不对称性。传统网络拓扑会因结构性问题产生难以调优的链路拥塞与热点堆积等问题,成为制约万卡级集群性能释放的瓶颈。
智谱 ZCube 架构以完全扁平化的 GPU 互联方式,通过 " 单轨 + 多轨 " 混合接入的扁平化拓扑设计,确保全网任意两张 GPU 有且仅有一条存在唯一最优路径,从而在架构层面实现了网络流量的理想负载均衡。这一创新被网络领域顶会 ACM SIGCOMM 2025 评价为 " 显著改变整个行业对网络的认知方式 "。
该架构在不新增或更换任何 GPU、服务器,且软件栈与业务代码零改动的前提下,成功将集群推理吞吐提升了 15% 以上,并将 TTFT P99 尾时延降低了 40.6%。其所需的交换机与光模块硬件成本较传统方案节省了 33%。在万卡规模下,仅网络硬件一项即可节省投资约 2.1 亿至 6.4 亿元。
几乎在同一时期,OpenAI 联合 NVIDIA、AMD、Intel、Microsoft、Broadcom 等五大巨头发布了 MRC 协议,并已部署于其最大规模超算集群。两大领先模型厂商同时动作,共同印证了网络已成为超大规模 AI 基础设施竞争的新战场。


登录后才可以发布评论哦
打开小程序可以发布评论哦