雪球 03-24
继续讨论GB200网络架构
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

GB200 网络架构的问题从周二一直研究到周五,各种猜想分歧很大,原因也很明显,NV 留了一个盲点,要么方案他们内部也没确定好,要么还有新东西等后面发布。今天仔细梳理了过去一周的所有信息,大概有了眉目。

首先,让我们回到 GTC 之前被广泛流传的那份 Taiwan 报告(后来线下肉身见到了报告原机构的 taiwan 兄弟,他们也没想到流传这么广 ....),鉴于其准确度几乎 99%,特意回去看了下报告中对 NVL72 网络部分的描述:

这就是 GTC 上发布的 NVL72,上面写的清清楚楚,这一款是 "Non-scalable",不可扩展。原因也很简单,18 个 GPU tray:9 个 NVLink Switch tray,也就是 72 GPU:18 NVS ASIC 芯片。72 张 GPU 1.8TB/s 双向互联总带宽需求是 72*1.8=129.6TB,18 个 NVS ASIC 也就提供了 18*7.2TB=129.6TB(就是这么配的),意味着负责把 72 张 GPU 全部互联的所谓下行带宽已经占满了这 9 个 NVS tray 的全部端口,根本没有留出上行带宽。那怎么办呢?报告中提供了 NV 另一种方案—— 2 个 36

而且写的清清楚楚,这款是 "scalable" 的 NVS,因为单 rack 内的 GPU:NVS ASIC 比例降低了一半,36:18,下行负载和上行负载各占一半。报告中描述如下:

这两个 36 机柜是 "back to back" 背对背

每个 NVS tray 一半端口连接背板,一半端口连接 18 个 OSFP(扩展端口)

rack to rack 用的啥?LACC Linear Active Copper Cables(但要特别注意,这里仅仅可以明确是 2 个 36 机柜之间用铜;更多 rack 的互联,OSFP 理论上可铜可光,且 LACC 的距离限制估计比较难满足最远 rack 之间的连接,大概率还是光)

这就很清楚了。要扩展,就用 36 卡的机柜。既可以用 LACC 连接隔壁 rack 的交换机,扩展为一个 72 卡的 NVL72。也可以继续扩展更多 rack,比如大家关心的 576 卡,一共 16 个小 rack(8 个大 rack),但这就需要再加一层 NVS 网络了(类似 GH200),每个 rack 的 L1 NVS 端口一半上行连接到 L2(前提是无阻塞上行)。但到这里,分歧来了。你会听到有人说类似 GH200 1:9,有人说第二层直接走 back end 网络也就是 IB,那就是 1:2.5/3.5 等等。当然,也出现了另一种最为激进的理论,就是 576 卡(8 72 rack 或 16 个 36 rack)之间全部或者一半用了 full mesh,直接走铜 ... 这个似乎过于激进 ... 因为首先 1)在 rack 距离进一步压缩之前,这可以说是挑战铜的物理极限了 ...(如果是真的我给 NV 跪了)。2 ) blackwell 这一代的理念就是尽量向前兼容供应链,你说 72 内用了这么多铜已经 invovle 了新供应商,用更多,似乎供应链也不太支持。

分歧的核心在哪儿呢?首先,NVLink 覆盖的是超节点(专业名词叫 HB,high-bandwidth Domain),而 IB 覆盖的是超节点之上的网络扩展。这一代 NVLink 选址范围 domain,也就是 HB Domain 在 36-576 之间。每个客户选择将 NVLink domain 做到多大,或者用 NVlink 实现全互联的颗粒度多大,产生了本质区别。比如 HB 颗粒度我选择 72,那好,非常省钱,NVL72 之上直接走 IB,只需要 1 层铜 NVL+IB; 但比如我 HB 颗粒度打满到 576,那好,巨贵,2 层 NVL+IB(和 GH200 一样的 1:9)。你会问,为什么 HB 不定 144、288。因为这代交换机 tray 端口 144,按照全互联端口充分利用的角度,144*144*2/18(18 是 GPU NVlink ports)=576。继续拆解上述问题:

1. 成本问题。也是上代 GH200 的痛点。将 NVlink 寻址范围做到 256,用了 2 层网络 1:9,代价是 256 个卡对应 2304 个 800G(还没算 IB 哦),即 250 万美金光模块,对应单卡成本就增加了 1 万美金,也就是 GPU 成本的 50%.... 哪个客户愿意买?因此这代 NVL72 实现了上代 GH200 256 卡一样的算力且 NVLINK 全连接,但打掉了 1:9 的光模块!直接降低了组网成本。前提是你的 HB 颗粒度选择定在 72。如果你在训练超大模型(10 万亿参数)或超大模型推理,那好,有可能这个客户会选择 HB domain 定在 576,那你就要接受 5184 个 1.6T 光模块即 1244 万美金,对应单卡成本增加 2 万美金,也就是 GPU 成本的 60%....

2. 需求问题:小模型训练、微调、推理,当然 1EFlops 的 NVL72 就解决了,不在我们讨论范围。我们更关心的是未来的前沿模型超大集群训练和推理,到底 HB domain 或者 NVL domain 应该如何选?这个关键问题,恰好一位 HW 网络大神给了我一份非常重要的 paper(已传星球),你说巧不巧 ... 这是 Meta 和 MIT 一起搞的研究,结论就是超节点 GH200 做到 256 就够了,再往上边际效果快速降低。此外 IB 网络需要 1 层其实也就够了。

但这个研究有个问题,其考虑的最大模型就是 1 万亿参数,显然没考虑未来即将出现的 10 万亿甚至几十万亿参数模型。虽然不清楚,但似乎可以线性外推,随着模型参数 *10,是否意味着最优 HB domain 也需要 *10。那可能意味着的确目前的 NVL72 做 HB 对现有模型完全足够,但未来模型真不一定够用 ...

3. 供给问题。和问题 2 对上了,还是那份 tw 报告,从中窥探到 NVLink 寻址范围会到 2000+,继续用之前计算方法,假设下一步 NVS tray 继续 double 成 4 颗 die,端口乘以 2,那么 2 层 NVL 全互联的最优节点是多少?288*288/2/18=2304。数不一定对,因为下一代端口数、NVLink ports 数都可能略微不同。意味着英伟达基于自己对最前沿模型(比如 OpenAI)的洞察,HB Domain 还会上升 ....

4. 另一个供给问题。芯片还会继续压缩,下一代 X100 比如 4 颗 die 的 chiplet,意味着目前 576 卡的算力,很有可能下一代也只需要 76 卡 .. 什么意思?又全给塞到一个机柜里,又可以用一层 NVL 铜了 ...(当然这需要交换机 ASIC 等等要一起翻倍)

因此,这个问题是一个复杂函数,多个反向因子,相互影响。还没考虑越来越快的 serdes 迭代速度、模型迭代速度、推理复杂度急速提升、硅光 /CPO/LPO 等其他技术加速 ..... 想到这我脑子已经炸了,下次再继续写,只求老黄在 ComputeX 上给出更多答案 ....

文中 paper、报告已上传星球(毕竟 GTC 开完了 ... 我就传了吧)

/xz

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

gpu 芯片
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论