如果你觉得英伟达的 GB200 机架式系统已经够庞大了,那么 CEO 黄仁勋的野心才刚刚开始。在上个月的 GTC 大会上,这家全球市值最高的公司公布了计划,拟利用光子互连技术,在 2028 年前将超过一千个 GPU 集成到一个巨型系统中。
该公司并未坐等供应链的稳定。过去一个月,这家 GPU 巨头已向 Marvell、Coherent 和 Lumentum 等光学和互连技术公司投资数十亿美元,为这些系统的广泛部署做好准备。
黄仁勋在 GTC 主题演讲中表示:" 对于我们生态系统中的所有参与者来说,我们需要更大的产能。我们需要更大的铜缆产能;我们需要更大的光器件产能;我们需要更大的 CPO 产能;正因如此,我们一直在与大家合作,为实现这一增长水平奠定基础。"
然而,英伟达走到今天这一步的历程其实开始得更早。事实上,早在 2022 年底 OpenAI 向世界发布 ChatGPT 时,英伟达就已经意识到自己遇到了问题。
当时,这家 GPU 巨头最强大的系统也只有 8 个 GPU,而推动人工智能蓬勃发展的模型却需要数千个 GPU 进行训练。英伟达需要更大的处理器,或者至少需要一个速度更快的网络,能够有效地将工作负载分配到数十个芯片上。
我们在 2023 年英伟达的 Grace Hopper 超级芯片上首次窥见了这种技术的雏形,但直到 2024 年初,其全貌才得以展现。同年在 GTC 大会上亮相的 Grace Blackwell NVL72,是一款功率高达 120 千瓦的巨型机器,它采用铜质背板,内部布满数英里的线缆,使 36 个节点和 72 个 GPU 能够像一个巨大的 AI 加速器一样协同工作。
Nvidia 网络高级副总裁 Gilad Shainer 告诉 El Reg ,铜是实现这一目标的自然选择。
" 如果条件允许,铜线是最佳的连接方式," 他说。" 它非常经济实惠,价格低廉,而且零功耗。它非常可靠,也没有任何有源元件。"
但铜线并非完美无缺。在 1.8 TB/s 的传输速率下,由于 GPU 之间通信,铜线只能延伸几英尺,信号就会开始衰减。如果你曾经好奇为什么 NVL72 的 NVSwitch 都位于机架中央,那是因为线路长度有限。铜线传输距离的局限性也意味着英伟达必须尽可能多地将 GPU 塞进单个机架中。
两年后,英伟达正迅速接近铜的极限,如果想要组装更大的 GPU 系统,就需要采用光学技术。
可插拔问题
当黄先生首次展示代号为 Oberon 的 NVL72 机架时,将两个加速器进行光学连接的唯一商业可行方法是使用可插拔光学器件。
这些模块的大小和一包口香糖差不多,包含了将电信号转换成光信号以及将光信号转换回电信号所需的所有激光器、定时器和数字信号处理装置。
可插拔设备在数据中心网络中并不新鲜,但将其用于像英伟达的 NVLink 这样的纵向扩展计算架构,会带来一些问题。
为了达到 1.8 TB/s 的带宽,每块 Blackwell GPU 需要 18 个 800 Gbps 的可插拔模块:9 个用于加速器,另外 9 个用于交换机。这些可插拔模块本身功耗并不高——大约 10-15 瓦——但 72 块 GPU 加起来,功耗就相当可观了。
正如黄在 2024 年 GTC 主题演讲中指出的那样,光学器件需要额外的 20,000 瓦功率。
然而,自 Oberon 机架首次亮相以来,很多情况都发生了变化。共封装光学器件 ( CPO ) 技术的进步,将光引擎直接集成到交换机 ASIC 旁边,有助于降低功耗。
2025 年,英伟达成为首批采用 CPO 技术的 AI 基础设施提供商之一,将其直接集成到 Spectrum 以太网和 Quantum InfiniBand 交换机中。(博通旗下的 Micas Networks 也在采取类似举措。)
这大大减少了构建人工智能训练集群所需的可插拔组件数量。然而,直到最近,该公司才开始探讨在其 NVSwitch 架构中使用光模块和 CPO(共封装光学模块)。
NVLink 实现光纤化
两年前,黄仁勋还对光互连过于耗电嗤之以鼻,但今年春天在 GTC 大会上,他又重新审视了这一话题,推出了 Vera Rubin NVL576 和 Rosa Feynman NVL1152,这两个多机架系统将利用光子学技术将其计算域扩展八倍。
如果您觉得 NVL576 这个数字耳熟,那是因为它之前就出现过。事实上,在最初的 NVL72 机架式显卡发布时,Nvidia 就曾预告过一款配置了这么多 GPU 的显卡,但据我们所知,这样的系统从未在实际应用中部署过。
Nvidia 也曾短暂地以 NVL576 品牌销售其 Vera Rubin Ultra Kyber 机架,但后来决定实际上并不想将每个单独的 GPU 芯片计为一个独立的加速器。
除非英伟达的市场营销或路线图再次发生变化,否则真正的 Vera Rubin NVL576 将采用铜和光纤互连的组合。
黄仁勋在本次 GTC 主题演讲中表示:" 现在有很多关于‘英伟达是会扩大铜缆规模还是扩大光缆规模?’的讨论。我们将两者都做。"
据英伟达超大规模和高性能计算副总裁伊恩 · 巴克 ( Ian Buck ) 介绍,网络的第一层将采用机架内的铜缆互连,这意味着 GPU 无需任何改动。第二层主干网将采用可插拔模块。
我们尚不清楚英伟达计划为此使用哪种拓扑结构,但两层胖树肯定符合要求,并且脊柱层只需要一个机架的交换机(总共 72 个 ASIC)。
对于模块本身而言,可插拔模块是最简单的选择,但英伟达也可以选择近封装光学器件 ( NPO ) ,就像 Lightmatter 上个月展示的那样。
Vera Rubin 认为,英伟达目前只谈论其 Oberon NVL72 机架的光学缩放,而不是其 NVL144 Kyber 系统。
我们不太清楚英伟达做出这个决定的具体原因,但值得注意的是,如果支持光刻扩展,就不需要把所有东西都塞进一个机架里。因此,从散热和功耗的角度来看,支持跨越八个机架的光刻扩展可能更合理。
Nvidia Feynman 采用共封装
真正有趣的地方在于英伟达的费曼一代产品,预计将于 2028 年中后期开始出货。据悉,这些系统将提供铜缆或共封装光纤 NVLink 互连两种选择。
英伟达对这一切将如何运作守口如瓶,但有几种可能的途径。
最简单的选择是将 CPO 集成到 NVLink 交换机 ASIC 中,并继续在机架中使用铜互连。
这将需要一个两层 NVSwitch 架构和两到三个不同的交换机 ASIC:一个半光纤的,一个全光纤的,以及一个可能没有 CPO 的。
这样做可以让英伟达通过简单地更换 NVLink 交换机托架或根据需要推入脊柱机架来支持多种配置。
更有趣的方案是将 CPO 集成到交换机和 GPU 封装中。这几乎肯定会导致 Feynman GPU 推出多个 SKU ——一个带光模块,一个不带——但可以将网络架构简化为单层结构。
上个月在 GTC 大会上,Shainer 在接受 El Reg 采访时拒绝评论公司计划采用哪种方法,但他强调了单层计算架构的优势。
他说:" 如果没有必要,就不要构建多个层级,因为要尽量减少计算引擎之间的延迟。"
虽然可以将 CPO 集成到 GPU 中,但单层 NVL1152 系统需要一个极其高阶的交换机。不过,考虑到 Feynman 芯片不太可能在 2028 年中后期上市,我们认为这并非不可能。
保障生产资料
无论哪种方案,都需要充足的激光模块供应。虽然 CPO(集成光刻)技术将大部分光学和信号处理功能集成到封装中,但为了便于维护,激光器通常仍保持独立。这或许可以解释英伟达上个月为何向 Coherent 和 Lumentum 这两家专注于光学激光器的公司分别投资 40 亿美元(各 20 亿美元)。如果英伟达想要真正有效地采用 CPO 技术,其供应链必须做好准备。
进一步的证据表明,英伟达正在转向加速器上的 CPO 策略,例如该公司本周早些时候宣布与 Marvell 达成 20 亿美元的合作协议。
作为这项投资的一部分,英伟达将与 Marvell 合作,将 NVLink Fusion(其高速互连技术的授权版本)集成到定制的 XPU 中,供英伟达 Vera CPU 使用。双方还将合作开发光纤 I/O 技术,但具体合作范围并未透露。
正如 The Next Platform 本周早些时候 讨论的那样,Marvell 以 32.5 亿美元收购 Celestial AI 的交易可能与此有关。
这家初创公司的光子互连技术可用于构建跨多个机架的相干存储网络,这对于英伟达来说可能极具吸引力,正如它对 Marvell 最大的客户之一(包括 AWS)一样。您可能还记得,AWS 是英伟达 NVLink Fusion 的最大客户之一,并计划在其下一代 Trainium4 计算集群中使用这项技术。
总之,英伟达显然已经意识到光学扩展的重要性,我们可以预期 CPO 将在其未来的系统设计中发挥更大的作用。


登录后才可以发布评论哦
打开小程序可以发布评论哦