OpenAI,这次又真 · Open 了一下。
刚刚,OpenAI 通过 OCP 开放了超大规模 AI 训练时使用的网络协议——MRC。
这次开放的 MRC,是实现微秒级故障恢复、能支持 10 万块以上 GPU 高效协作的底层通信协议。
核心奥义就是,在大规模的训练环境下,确保网络通信的稳定性。

而且这一波是和硬件厂商合作,在 OpenAI 的组织下,英伟达、AMD 和英特尔都参与了这个项目。
有网友表示,把这些厂商聚在一起合作制定标准,简直比实现 AGI 还难以协调。

大规模集群,也要通讯稳定
这套 MRC(Multipath Reliable Connection)协议,是 OpenAI 联合英伟达、AMD、英特尔、微软和博通,花了两年时间做出来的,上周通过 Open Compute Project 向全行业开放。
它现在跑在 OpenAI 所有最大规模的 NVIDIA GB200 超算上,包括 OCI 在德克萨斯 Abilene 建的星际之门和微软的 Fairwater 超算。
这件事的背景是,同步预训练(synchronous pretraining)的通信模式对网络极度敏感。
十几万块 GPU 在每个训练 step 里以 all-reduce 为主要通信原语协同工作,单次迭代可触发数百万次点对点数据传输。
这类集合通信的完成时间由最慢的那次传输决定,任何链路拥塞或丢包都会以滚雪球的形式传导到整个 job,轻则造成吞吐骤降,重则触发 checkpoint 回滚。
随着集群规模扩大,网络故障的绝对频率只会上升。

为了解决这个问题,MRC 主要做了三件事。
第一件是多平面网络拓扑(Multi-Plane Network)。
传统做法是把 800Gb/s 的网卡当一整条链路用,整个集群需要三四层交换机才能连起来。
MRC 把它拆成 8 条 100Gb/s 子链路,各自连到独立的交换机,形成 8 个并行的网络平面。
单台交换机能接入的端口数因此扩大了 8 倍,拓扑也随之扁平,层数从三四层压到两层,13 万块 GPU 的互联成本和故障点都随之大幅下降。
层数少还意味着故障点少,8 个平面并行又意味着冗余路径大幅增加,这也是后面两项技术能够成立的物理基础。

第二件是自适应包喷射(Adaptive Packet Spraying)。
经典 RoCE 要求同一条 RDMA 传输的所有数据包走同一路径以维持顺序语义,这在多平面环境下会造成严重的流量碰撞和路径利用率不足。

MRC 扩展了 RoCE 的乱序处理能力,在包头中嵌入目标内存地址,使接收端可以将乱序到达的包直接写入正确位置,从而允许将单次传输的包喷射到数百条路径上并行传输。
拥塞检测和路径切换则是在连接层完成,发现拥塞则换路,检测到丢包则立即停用该路径并触发重传,整个响应在微秒级完成。
这种模式可以理解为,原来一批货必须走同一辆车按顺序送达,MRC 让这批货同时上几百辆车分头跑,每个箱子上贴好收货地址,到了直接入库,哪条路堵就换哪条。
集合通信对尾延迟极度敏感,这套机制几乎消除了网络核心的拥塞,直接压低了训练 step 完成时间的抖动。

第三件是用SRv6(IPv6 Segment Routing)静态源路由取代动态路由协议。
传统方案依赖 BGP 在交换机间动态计算和同步路由,链路故障时路由收敛需要数秒甚至更长,这段时间内训练流量会大面积中断。
SRv6 将路径决策完全移到发送端,把逐跳的交换机标识符序列直接编码进数据包的目标地址,沿途每台交换机只需按本地静态路由表执行转发,无需感知任何拓扑变化。

还是拿物流来类比,这就相当于出发前就把完整路线写在包裹上,每个路口的工作人员只管照单操作,不需要和任何调度中心联系。
某条路径出现故障,MRC 发送端直接停止在该路径喷包、切换到其他路径,交换机侧零感知、零动作,整类路由收敛引发的抖动从根本上被消除。
三层设计从拓扑、传输、路由三个维度同时发力,确保了大规模下的网络可靠性。
One More Thing
MRC 技术博客公布之后,OpenAI 还同步发布了一期播客。
这期播客中,OpenAI 网络负责人 Mark Handley 和工作负载负责人 Greg Steinbrecher 聊了 MRC 从动机到落地的完整过程。

感兴趣的话,可以去听一听。
参考链接:
https://openai.com/index/mrc-supercomputer-networking/
播客地址:
https://www.youtube.com/watch?v=TiW96H5HmAw
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
5 月 20 日,我们将在北京金茂万丽酒店举办一年一度的中国 AIGC 产业峰会。
首波嘉宾阵容已公布!昆仑万维方汉、智谱吴玮杰、EverMind 邓亚峰、风行在线易正朝、百度秒哒朱广翔、Fusion Fund 张璐、香港大学黄超、MarsWave 冯雷都来了,了解详情
请你和我们一起,不再只是讨论 AI 的未来,而是现在就用起来。
一键关注 点亮星标
科技前沿进展每日见


