
(一)广域网,横跨海陆
为了 AI 还真是,
搞网络的钱不少花,
大动作,大投入,
数据中心内部网络,重做;
数据中心外部网络,也重做;
确切表达,不是完全推翻,但也是大变革。
数据中心里的网络,
谭老师我写了好几篇了,
高低得看看,跨数据中心的网络,也就是广域网,
这网规模大,非常大,巨大,
这么大,还想做好,岂不很难?
重做,要有很大决心,挑战一堆。
但有 AI 在,谁也阻挡不了头部大厂的决心。
有网络技术大佬曾和我说,
大网的难度比起小网,至少高两个数量级。
这种大网,动不动就跨海;
Meta 的广域网海底电缆怎么搞的呢?
2025 年 11 月,
《解锁 AI 潜力,跨越 5 万公里全球》;
5 万公里,比地球周长还长。
每根光缆里塞 16 对光纤;
这是老系统的两倍容量;
还要 " 疏通高层关系 ",
跨越 50 个司法管辖区,
花近 6 年时间,动用 35 艘海上船只,
累计运营时长相当于 32 年。

以前的海底光缆,大多是运营商专属,
要么一家独揽,要么几家瓜分,
小服务商想拿到带宽,不仅贵,还得看人脸色。
这么大的工程,为啥是美国 Meta 公司出头?
这背后,是科技巨头对全球广域网话语权的争夺;
就不展开了,C 位是广域网,
科技巨头的投入和野心,都浓缩在漫画里了。
跨海之后就上岸,城市之间建广域网,
那该怎么干呢?
(二)先问客户,需要一张什么样的广域网?
面对尊敬的金主(网络用户),
稳定性要高、性能要好、成本要低,
请努力保持微笑。
(此处有 3000 字的怨气没发出来)
稳定性,首屈一指重要,
或者说,稳定性是 n 个零前面的一,
历史中绝不缺少稳定性的教训,
不过,人类从历史中学到的唯一的教训,
就是没有从历史中吸取任何教训;
而且,广域网的故障,
从来没有 " 小教训 ";

风波历尽,在保障稳定的前提下,
就要比拼性能了。
性能有几个最重要的核心指标:
带宽、网络延时、丢包率;
而今,需求五花八门,
" 高性能 " 早已不再是单一维度的指标。
有些要低延迟,像视频会议;
有些追求极致低延迟,
如,股票高频交易;
有些更看重带宽稳定与零丢包,
如,AI 训练的数据同步;
正因如此,好网络不在于一味给带宽给资源,
而在于 " 对症下药 ",
根据每类(应用)需求,
恰如其分地提供服务质量,精细控制。
这种理念背后还有一个现实考量:
高性能,有成本,
如果为所有流量都配超低延迟,
零丢包和超高带宽,
不仅资源浪费严重,
整体系统成本也将难以承受。
事实上,许多应用对网络瑕疵很有容忍度。
例如,普通网页浏览,
过程中偶尔丢失几个数据包,
浏览器会自动重传,用户几乎毫无感知;
而同样的丢包,
若发生在 AI 模型训练的数据同步阶段,
则可能导致训练速度骤降,甚至任务失败。
于是," 差异化服务 " 这一能力走上舞台中央,
因此,理想的网络架构应当——
能识别不同业务类型,
并为其分配匹配的服务等级(SLA)。
啥业务配啥待遇,
不搞一刀切;
这种 " 因地制宜 " 的策略,
既保障了核心业务的性能需求,
又避免了不必要的开销。
归根结底,最好的性能并非 " 绝对最强 ",
而是 " 刚刚好 "。
这正是,网络的核心价值所在。
成本是商业逻辑的基础,无须多言;

再加一点,
离开规模谈稳定,性能和成本,
是耍流氓。
什么意思呢?一个 AI 实验室里,
5 台服务器 40 张 GPU 卡,
稳定和性能都可以十分卓越,
但,这种卓越无法复制于,
4000 张 GPU 卡的大规模集群。
站在头部大云厂商角度,
要以低成本提供高稳定,
高性价比的网络服务,
成本包括 Capx(资本性支出),
和 Opex(运营性支出),
其中 Opex 是大头,
也就是说,大规模网络的运维效率是重中之重,
怎么样提升?又做到何种程度?
我只能说,这种 " 理想 ",
AWS 做到了,谷歌,Meta 也做到了,
阿里云做到了,
这类代表性网络架构,也已成熟,
比如,阿里云 HPN。
这些是数据中心网络的情况,
而对于广域网而言,
则是另一番天地。
广域网历史包袱很重,
以前的广域网(技术架构),
过于复杂,已然事实,
想翻转此局面,
中小厂商肯定没有实力,
大厂商谁会出手?
在何时出手,而又如何出手?
复杂加复杂,直接遭遇不可能三角,走不通了。

(三)聊下广域网设计原则
如何达成 " 梦中情网 "?
简化的确是一条思路,
关键在于,怎么简化?
得找个真正的专家聊聊;
好在,有机会和,
阿里云广域网架构与研发总监苏远超聊了,
他是这么说的:
" 多年以前,当我还在思科做架构的时候,
我们就开始思考,
传统网络架构需要增加新功能,
恐怕勉为其难,力不从心;
比如,控制面特别繁重、扩展困难、
运维繁琐、容易出错 ……
但是重构这事,在思科公司落不了地,
它不只是网络本身的变革。
有很多依赖项,
需要网络和运营支撑系统一体化才能做成。"
这可能是阿里广域网(eCore)曾经的 " 野望 ",
而今,eCore 正在运行,用 " 现实 " 代替 " 想法 "。
几个小时,我们讨论得很充分,
还是那句老话,技术的突破,常在工程前沿阵地。
我顺手总结了超哥的核心观点:

一举解决从前传统广域网三十年的难题,
第一,最根本的一点就是 " 简化 "。
过去,网络协议繁杂,功能堆叠,
导致路由器设备十分庞大,
从上到下简化,将原有的 N 个协议,
精简至两个(ISIS 和 BGP),
大大缩小了难题的空间,
难度指数级地下降。
第二是高可靠架构设计,
架构高冗余,故障域减少;
AI 对网络稳定性的要求苛刻,
" 故障爆炸半径最小化 "。
第三是运维卓越,
第四是面向服务,此篇按下不表。
这些原则需要在具体设计中平衡。
不难观察:顶级厂商创新方向,
他们力图简化,
且追求获得更好的服务。
我总结一下:简化的工作很多,
不仅简化控制平面,
还重构网络分层、协议运行域划分等,
把全网的大域分解成,
小的平面和更紧凑的运行区域;
这样一来,协议状态无需全域同步,
从根本上缩小故障域,
从而提升稳定性。
" 稳定性 " 一词,总是频繁提到,
甚至有时候把一些表面上的改进,
也归为 " 为了稳定性 "。对稳定性的考验,
一天 24 小时,要真实数据加以说明。
苏远超告诉我:
" 今年城域网故障就减少了 80% 以上。"

(四)" 为何你们能做单栈单片 "?
单栈的 " 栈 " 是协议栈,
单片的 " 片 " 是芯片;
很明晰哪,单栈是软件,单片是硬件,
挑战性问题抛给阿里:
为何你们能做,而不是别人?
这就得从历史的相似性中找一些启发:
以前思科公司,
为了让一个路由器达到很大的带宽,
把一个路由器拓展到,
多框连在一起(Multi-Chassis Router),
可惜,这个做法很有局限性,
虽然解决了一个问题,
但是引入了更棘手的问题。
也就是:解决了规模和性能,
但是引入了,
高运维成本和难运维的问题;
这熟悉的配方,熟悉的套路,
这套 " 枷锁 " 和当下热门的 AI 超节点,
是不是十分类似?
我不下结论,交给读者自己判断。
打开这个 " 枷锁 " 的钥匙,
我认为是 " 单栈单片 ",
这是一种设计理念。
先把协议简化,简化软件,
再简化硬件,双管齐下。
为什么以前不这么干?
因为以前软件和硬件,都没准备好。
比如,路由器承载很多功能,
且要求大带宽。
芯片很难同时做到,
因为功能丰富和带宽是相互妥协的关系。
要么放弃丰富功能,要么放弃大带宽,
纠结很多年,总需要一个新出路。
这时候就不得不提,
源于思科公司的 Segment Routing 技术。
或者说,思科团队也追求简化思想,
需要和一个持有相同技术理念的软件团队,
双向奔赴。
于是,思科和阿里的合作,水到渠成。
协议简化之后,
路由器设备也可以采用大带宽芯片来实现功能。
然而,对于路由器设备来说,
仅仅依靠大带宽是不够的,
它还需要大缓存来支持长距离传输。
针对这一需求,
思科的 Silicon One
P200 芯片应运而生。
单栈单片架构,
既具备大带宽,又具备大缓存,
是经过特定优化的芯片。
于是,一通操作猛如虎,
带宽直达 51.2T。

架构和协议简化了,
高效且专门优化的,
大带宽芯片(51.2T)也有了,
此时,控制面和数据面的条件都已具备,
单芯片的路由器已然成为可能。
设备简化到什么程度呢?
披萨盒式(Pizza-box)白盒路由器,
最终,做到了:
原本,复杂设备(大框路由器),
需要多个芯片拼接在一起;
现在每台设备只配备一个芯片,
避免了多芯片协作的复杂性。
结果,虽然设备数量增多,
但每台设备变得简单,
整体架构高效和灵活。
简单来说,
这是协议栈的简化和大带宽芯片,
相辅相成的结果,
也就是" 单栈单片 "。
(五)架构设计图长啥样?
简化,听上去真不错,
但要落地,并非易事,
如何简化呢?最好先来看全局图;
苏远超给我看了一张《高层次设计图》,

将广域网分解成多个层次,
每个层次负责处理特定的功能或问题,
从而简化了整个网络的管理和操作,
层次化设计确实可以看作,
是一种 " 分而治之 " 的策略。
图上阿里云广域网络(名叫 eCore),
分为边缘(Edge)和核心(Core)两部分。
核心层里有 EC(核心路由器),
就像城市间的飞机,
数据经过 EC,好比坐上了飞机;
有飞机自动导航系统,
路由器之间使用 ISIS 协议,
在不同的城市之间,
比如,京沪牛马专线,传输数据;
而在边缘层是(也就是 EAR 和 ESR),
分别好比汽车和电瓶车,
负责处理从 overlay 网络(虚拟网络),
到 underlay 网络(底层网络)的转发。核心层里,
核心路由器主要任务是路由计算,
比如,最短路径选择,
让流量按最优路径传输。

我们按照进出的顺序撸一遍,
当要传输内容从数据中心出去时,
怎么走呢?
首先,会经过边缘路由器,
这些路由器擅长处理数据的封装,解封装。
接着,数据流会进入核心层路由器,
在这些核心路由器上,计算最优路径,
简而言之,核心层和边缘层的划分,
体现在路由器负责工作的不同。

怎么进出数据中心?
得好好理解核心层和边缘层,
再捋一下《数据中心一日游》攻略:
1.PKT(原始发送的内容)先到 ESR:
数据包从源头出发后,
首先到达 ESR(Edge Service Router)层。
在此阶段,原始数据包(PKT),
会被封装(overlay 网络),
形成一个新的封装层,
使得数据包可以通过虚拟网络进行传输。
2.ESR 封装后,进入 EAR:
给数据包封装(underlay 网络),
通过 EAR(Edge Access Router),
进入 underlay 网络。
尽管数据包仍然带有 overlay 封装,
EAR 会给数据包加上封装(underlay 网络),
使其能够在物理网络中转发。
EAR 负责将带有封装的数据包
(overlay 和 underlay),
传输到下游网络。
3. 数据包走出 EC 设备,
会在 EAR 剥掉封装(underlay 网络),
再在 ESR 阶段把封装剥掉(overlay 网络),
走出 EAR 和 ESR 之后,
进入数据中心前,会恢复为原始数据包(PKT)。
(六)为何服务得更细腻
理解这点,需要理解源路由技术,
英文名,Segment Routing,SR;
有了 SR,用上 SRV6 协议,
才能有提供精细服务的可能。
当然落地还需要芯片,
思科公司 Silicon One 芯片。
不过,得单拎出来讲;
这篇到此,下篇见。


登录后才可以发布评论哦
打开小程序可以发布评论哦