半导体行业观察 05-03
AI芯片的一块重要拼图
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

如果您希望可以时常见面,欢迎标星收藏哦 ~

01

因为大模型的火爆,对算力的的渴求持续攀升。过去两年,让我们知道了英伟达 H100 芯片的影响力。与之相伴随的,高带宽内存(HBM)、CoWos 封装等相关的技术也让大家有所耳闻。殊不知,互联的作用不亚于这些技术。互联技术也是 AI 芯片中很重要的一块拼图。

AI 芯片之间互联一直是个难题,随着近年来越来越多的加速器被集成到一起,如何高效传输数据成为了瓶颈。当需要连接成千上万个加速器时,性能损耗和带宽瓶颈就会显现出来。这正在持续倒逼互联的迭代加速。

可以说,当前,我们正处于重大互联技术转型的风口浪尖。

超越 PCIe:AI 芯片厂商自研互联技术

由于 PCIe 技术的发展速度跟不上时代需求,目前主流的 AI 芯片厂商都已经自研了互联技术,其中较为代表的就是英伟达的 NVLink 和 AMD 的 Infinity Fabric。

英伟达的 NVLink

自 2014 年开始,英伟达在其 GPU 中引入了 NVLink 互联技术。NVLink 是由 Nvidia 开发的一种高带宽、低延迟的点对点数据传输通道。它的主要用途是连接 Nvidia GPU,或者 GPU 与 CPU 之间的通信,允许它们以高速率共享数据。这对于那些要求高数据吞吐量和低通信延迟的应用至关重要,如深度学习、科学计算和大规模模拟。过去十年间,NVLink 已成为英伟达 GPU 芯片的核心技术及其生态系统的重要组成部分。

让我们再来细细回顾下 NVLink 这一技术的发展历程。2014 年,NVLink 1.0 发布并在 P100 GPU 芯片之间实现,两个 GPU 之间有四个 NVLink,每个链路由八个通道组成,每个通道的速度为 20Gb/s,系 2 统整体双向带宽为 160GB/s(20*8*4*2)/8=160GB/s),是 PCle3x16 的五倍;

2017 年英伟达推出了第二代 NVLink,两个 V100 GPU 芯片之间通过六个 NVLink 2.0 连接,每个链路也是由八个通道组成,不过每个通道的速度提升至为 25Gb/s,从而实现 300GB/s 的双向系统带宽(25*8*6*2)/8=300GB/s),几乎是 NVLink1.0 的两倍。此外,为了实现八个 GPU 之间的完全互连,Nvidia 引入了 NVSwitch 技术。NVSwitch1.0 有 18 个端口,每个端口的带宽为 50GB/s,总带宽为 900GB/s。每个 NVSwitch 保留两个用于连接 CPU 的端口。通过使用 6 个 NVSwitch,可以在 8 个 GPUV100 芯片之间建立一个全连接的网络。

2020 年,推出 NVLink 3.0 技术。它通过 12 个 NVLink 连接连接两个 GPU A100 芯片,每个链路由四个通道组成。每个通道以 50Gb/s 的速度运行,从而产生 600GB/s 的双向系统带宽,是 NVLink2.0 的两倍。随着 NVLink 数量的增加,NVSwitch 上的端口数量也增加到 36 个,每个端口的运行速度为 50GB/s。

DGX A100 系统由 8 个 GPU A100 芯片和 4 个 NVSwitch 组成

2022 年,NVLink 技术升级到第四代,允许两个 GPU H100 芯片通过 18 条 NVLink 链路互连。每个链路由 2 个通道组成,每个通道支持 100Gb/s(PAM4)的速度,从而使双向总带宽增加到 900GB/s。NVSwitch 也升级到了第三代,每个 NVSwitch 支持 64 个端口,每个端口的运行速度为 50GB/s。

2024 年,随着英伟达全新 Blackwell 架构的发布,NVLink 5.0 也随之而来。NVLink 5.0 以每秒 100 GB 的速度在处理器之间移动数据。每个 GPU 有 18 个 NVLink 连接,Blackwell GPU 将为其他 GPU 或 Hopper CPU 提供每秒 1.8 TB 的总带宽,这是 NVLink 4.0 带宽的两倍,是行业标准 PCIe Gen5 总线带宽的 14 倍。NVSwitch 升级到了第四代,每个 NVSwitch 支持 144 个 NVLink 端口,无阻塞交换容量为 14.4TB/s。

NVLink 设计之初,就是为了解决传统的 PCI Express ( PCIe ) 总线在处理高性能计算任务时带宽不足的问题。从下面两幅图的对比中,可以发现,从单通道速度的角度来看,NVLink 的速度通常是同代 PCle 的两倍左右。总带宽的优势更加明显,NVLink 提供的总带宽约为 PCle 的五倍。

各代 NVLink 的性能参数

各代 PCIe 的参数(图源:naddod)

除了 NVLink,另外一个值得一提的互联技术是 InfiniBand。英伟达收购的 Mellanox 在 InfiniBand 领域也处于佼佼者。自收购 Mellanox 以来,NVIDIA 也开始将 NVLink 技术与 InfiniBand(IB)技术相结合,推出新一代 NVSwitch 芯片和具有 SHARP 功能的交换机,针对外部 GPU 服务器网络进行了优化。

InfiniBand 是一种开放标准的网络互连技术,具有高带宽、低延迟、高可靠性的特点。该技术由 IBTA(InfiniBand 贸易联盟)定义。该技术广泛应用于超级计算机集群领域。同时,随着人工智能的兴起,它也是 GPU 服务器的首选网络互连技术。由于 RDMA(远程直接内存访问)等功能,InfiniBand 在人工智能等数据密集型任务中通常优于以太网。据 Dell'Oro 估计,约 90% 的 AI 部署都是使用 Nvidia/Mellanox 的 InfiniBand,而不是以太网。这些部署将 Nvidia 的网络收入推至每年 100 亿美元。

近日传奇 CPU 设计师兼 Tenstorrent 首席执行官 Jim Keller 是开放标准的坚定支持者,他建议 Nvidia 应该在基于 Blackwell 的 GB200 GPU 中使用以太网协议芯片到芯片连接,而不是专有的 NVLink,背后的主要原因是,这可能会使软件移植到其他硬件平台变得更加复杂。而凯勒认为,使用以太网协议可以为英伟达及其硬件用户节省大量资金。

AMD 的 Infinity Fabric

与英伟达的 NVLink 相似,AMD 则推出了其 Infinity Fabric 技术,支持芯片间、芯片对芯片,以及即将推出的节点对节点的数据传输。Infinity Fabric 是 AMD 在其 "Zen" 微架构中引入的一个关键特性,旨在提高整体系统性能,特别是在多核心处理器和数据中心环境中。

Infinity Fabric 由两部分组成:数据布线(Data Fabric)和控制布线(Control Fabric)。数据布线用于处理器内部和处理器之间的数据传输,而控制布线则负责处理器的功耗、时钟和安全性等方面的管理。Infinity Fabric 的主要特点包括:1)高效率:Infinity Fabric 设计用于提供高效率的数据传输,支持多个设备之间的高速通信;2)模块化:Infinity Fabric 支持 AMD 的小芯片(chiplet)架构,允许不同功能的芯片模块通过高速互连进行组合;3)内存共享:Infinity Fabric 支持 CPU 和 GPU 之间的内存共享,有助于提高异构计算的效率;4)扩展性:Infinity Fabric 的设计允许它随着技术进步和需求增长而扩展。

视频已经上传至公众号后台:epyc_infinity_architecture-alpha

AMD 最新的 AI 加速器 Instinct MI300X 平台,就通过第四代 AMD Infinity Fabric 链路将 8 个完全连接的 MI300X GPU OAM 模块集成到行业标准 OCP 设计中,为低延迟 AI 处理提供高达 1.5TB HBM3 容量。第四代 Infinity Fabric 支持每通道高达 32Gbps,每链路产生 128GB/s 的双向带宽。

不同于英伟达 NVLink 仅限于内部使用,AMD 已经开始向新合作伙伴开放其 Infinity Fabric 生态系统。在去年年末 AMD MI3000 的发布会上,Broadcom 宣布其下一代 PCIe 交换机将支持 XGMI/Infinity Fabric。不仅如此,AMD 还希望 Arista、博通、Cisco 等合作伙伴能推出适用于 Infinity Fabric 等产品的交换机,能够方便 MI3000 在单一系统外实现芯片间通信。这类似于英伟达的 NVSwitch。

英特尔:以太网的坚实拥护者

英特尔的用于生成式 AI 的 Gaudi AI 芯片则一直沿用传统的以太网互联技术。Gaudi 2 每个芯片使用了 24 个 100Gb 以太网链路;Gaudi 3 也使用了 24 个 200 Gbps 以太网 RDMA NIC,但是他们将这些链路的带宽增加了一倍,达到 200Gb/ 秒,使芯片的外部以太网 I/O 总带宽达到 8.4TB/ 秒。

在近日的 intel vision 峰会上,英特尔还宣布正在开发一款用于超以太网联盟(UEC)兼容网络的 AI NIC ASIC 以及一款 AI NIC 小芯片,这些创新的 AI 高速互联技术(AI Fabrics)将用于其未来的 XPU 和 Gaudi 3 处理器。这些创新旨在革新可大规模纵向(scale-up)和横向(scale-out)扩展的 AI 高速互联技术。

一直以来,英特尔都希望通过采用纯以太网交换机来赢得那些不想投资 InfiniBand 等专有 / 替代互连技术的客户。InfiniBand 非常适合那些运行少量非常大的工作负载(例如 GPT3 或数字孪生)的用户。但在更加动态的超大规模和云环境中,以太网通常是首选。Nvidia 最新的 Quantum InfiniBand 交换机的最高速度为 51.2 Tb/s,端口为 400 Gb/s。相比之下,以太网交换在近两年前就达到了 51.2 Tb/s,并可支持 800 Gb/s 的端口速度。

虽然 InfiniBand 在很多情况下表现都不错,但它也有缺点,比如只能在特定范围内使用,而且成本也不低,将整个网络升级到 InfiniBand 需要大量投资。相比之下,以太网因为兼容性强,成本适中,以及能够胜任大多数工作负载,所以在网络技术领域里一直很受欢迎,建立了一个庞大的 " 以太网生态 "。

Dell'Oro 预计 InfiniBand 将在可预见的未来保持其在 AI 交换领域的领先地位,但该集团预测在云和超大规模数据中心运营商的推动下,以太网将取得大幅增长,到 2027 年大约将占据 20% 的市场份额。

不仅是英特尔,在 2023 年的 AI Day 上,AMD 也表示将重点支持以太网,特别是超级以太网联盟。虽然 Infinity Fabric 提供了 GPU 之间的一致互连,但 AMD 正在推广以太网作为其首选的 GPU 到 GPU 网络。

此外,英特尔还提出了一种开放性互联协议 Compute Express Link(CXL)。关于 CXL 互联技术,业界看法不一。英伟达的 GPU 一向单打独斗,并不支持 CXL;AMD 透露其 MI300A 会支持 CXL。目前来看,像三星、SK 海力士、美光等存储厂商更加青睐于 CXL。

AI 互联的下一步:迈向光互联时代

诚然,这些互联技术都已是目前最好的互联技术,但是一个不争的事实是,随着计算数据的爆炸式增长、神经网络的复杂性不断增加,以及新的人工智能和图形工作负载和工作流程以及传统科学模拟的出现,对更高带宽的需求还在继续增长。这些互联技术将不可避免的存在性能瓶颈。例如 Nvidia 的 NVLink 虽然速度很快,但是功耗也相当高;而 AMD 的 Infinity Fabric 则适合于芯片内部的连接,对于芯片之间的互联效率并不理想。

是时候进行范式转变了。光互联凭借高带宽、低功耗等优势,几乎成为公认的未来 AI 互联技术的发展方向。Nvidia 数据中心产品首席平台架构师 Rob Ober 在媒体咨询中表示:" 在过去的十年中,Nvidia 加速计算在人工智能方面实现了数百万倍的加速。" " 下一个百万将需要光学 I/O 等新的先进技术来支持未来 AI 和 ML 工作负载和系统架构的带宽、功率和规模要求。"

在光互联之路上,谷歌的 TPU 芯片已经率先起了个好头儿。作为 AI 芯片的重要玩家,谷歌的 TPU 一直可圈可点。过去几年时间,谷歌一直在悄悄地检修其数据中心,它被称为 " 阿波罗任务 ",主要是用光代替电子,并用光路交换机(OCS)取代传统的网络交换机。

自 TPU v4 开始,谷歌引入了其内部研发的创新的互联技术:光路交换机 ( OCS ) 。TPU v4 是第一台部署可重新配置 OCS 的超级计算机,它内部的 4096 个芯片通过 OCS 互连,能够提供百亿亿次的机器学习性能。OCS 可以动态地重新配置其互连拓扑,以提高规模、可用性、利用率、模块化、部署、安全性、功耗和性能。

据谷歌声称,OCS 比 Infiniband 更便宜、功耗更低且速度更快,OCS 和底层光学组件的成本和功耗只占 TPU v4 系统的一小部分,不到 5%。下图显示了 OCS 如何使用两个 MEM 阵列工作。无需光到电到光转换或耗电的网络数据包交换机,从而节省电力。谷歌表示,TPU 超级计算机的性能、可扩展性和可用性使其成为 LaMDA、MUM 和 PaLM 等大型语言模型的主力。Midjourney 一直在使用 Cloud TPU v4 来训练他们最先进的模型。

到了 TPU v5 代,其每个 Pod 网络中包含 8,960 个芯片,这些芯片也是通过专有的 OCS 互连,并提供 4,800 Gbps 的吞吐量。与 TPU v4 相比,TPU v5p 的 FLOPS 提高了 2 倍以上,高带宽内存 ( HBM ) 提高了 3 倍,达到 95GB,TPU v4 Pod 具有 32GB HBM。

Broadcom、Marvell、思科等厂商则在光电共封交换机领域发力。其中博通和 Marvell 都已经推出了 51.2Tbps 的交换机。关于光电共封的更多知识,可以翻看《芯片巨头的 " 新 " 战场》一文。

博通表示,光学互连对于大规模生成式 AI 集群中的前端和后端网络都至关重要。如今,可插拔光收发器消耗大约 50% 的系统功耗,占传统交换机系统成本的 50% 以上。新一代 GPU 不断增长的带宽需求,加上 AI 集群规模的不断增大,需要颠覆性的节能且经济高效的光学互连,超越分立解决方案。

2024 年 3 月 14 日,博通已向客户交付业界首款 51.2 Tbps 共封装光学 ( CPO ) 以太网交换机 Bailly。该产品集成了八个基于硅光子的 6.4-Tbps 光学引擎和 Broadcom 的 StrataXGS Tomahawk5 交换芯片。与可插拔收发器解决方案相比,Bailly 使光学互连的运行功耗降低了 70%,并将硅片面积效率提高了 8 倍。

初创公司在硅光子互联领域大展身手

在硅光互联这个新技术领域,得益于技术创新和商业模式的灵活性,初创公司在硅光子互联领域取得了突破性进展,为这个市场带来了更多的活力。

Celestial AI 是这一领域的一个重要参与者,其 Photonic Fabric(光子交换机)技术可以将 AI 计算和内存解耦,旨在通过光传输的方式来连接不同的 AI 处理单元。这种技术已吸引了包括 AMD Ventures 在内的多个投资者。

Celestial 的技术主要包括三大类:chiplets、interposers 和一种基于英特尔 EMIB 或台积电 CoWoS 的称为 OMIB 的光学解决方案。其中 chiplet 是最为核心的部件,可以作为额外的内存扩展卡,也可以作为一个芯片与芯片之间的高速互联通道,有点类似于光学版的 NVLink 或 Infinity Fabric。据该公司称,单个 chiplet 的尺寸略小于一个 HBM 存储器堆栈,可以提供高达 14.4 Tb/s 的光电互联速率,当然这不是上限,只是现有芯片架构能够处理的结果。具体而言,Celestial 的第一代技术每平方毫米可支持约 1.8 Tb/ 秒。第二代 Photonic 结构将从 56 Gb/ 秒提高到 112 Gb/ 秒 PAM4 SerDes,并将通道数量从 4 个增加到 8 个,从而有效地将带宽增加到四倍。

Celestial AI 宣称,这种方案的内存事务能量开销约为每比特 6.2 皮焦,相比于 NVLink、NVSwitch 大约 62.5 皮焦的方案降低了 90% 以上,同时延迟也控制在了可接受的范围内。Celestial AI 公司预计将在 2025 年下半年开始向客户提供光子交换机芯片样品,并预计在 2027 年左右实现量产。

除了 Celestial AI 之外,还有其他几家创业公司也在研发光子互联技术。

Ayar Labs 是一家得到英特尔投资支持的光子学初创公司,它已经将其光子互连集成到原型加速器中,实现了小规模量产和出货。Ayar Labs CEO 在 2024 OFC(光纤通信大会)上表示:" 如果想最终改变计算行业,就需要实现电 IO 到光学 IO 的巨大的提升。" 早在 2022 年,英伟达还与之合作开发光互联技术,与 Nvidia 的合作将侧重于集成 Ayar Labs 的 IP,为未来的 Nvidia 产品开发通过高带宽、低延迟和超低功耗基于光学的互连实现的横向扩展架构。

然后是 Lightmatter,该公司在 12 月份获得了 1.55 亿美元的 C 轮融资,估值高达 12 亿美元。Lightmatter 的技术被称为 Passage,他们提供一个功能类似于 OCS(光路交换机)的通信层,该层位于基本和 ASIC 之间,几乎可以实现全方位通信,这个通信层可以进行动态的配置。通过采用硅内置光学(或光子)互连的形式,使其硬件能够直接与 GPU 等硅芯片上的晶体管连接,这使得在芯片之间传输数据的带宽是普通带宽的 100 倍。该公司声称,Passage 将于 2026 年上市。

Lightmatter 的 Passage 技术

(图源:Lightmatter)

Coherent 在 2024 OFC 的上推出了一款支持高密度人工智能集群的光路交换机(OCS)。该设备预计明年批量发货,具有 300 个输入端口和 300 个输出端口。在 OCS 中,数据信号在传输交换机时保留在光域中;消除 OEO 转换可以显着节省成本和功耗。此外,与传统交换机不同的是,当下一代 AI 集群配备更高速的连接时,OCS 不需要升级。对于数据中心来说,这显着提高了资本支出回报率。

成立于 2020 年 Nubis Communications 也是一个不容小觑的初创公司,该公司在 2023 年 2 月份发布其基于硅光芯片的 1.6T 光引擎 XT1600,单通道速率为 112Gbps, 功耗达到 4.9pJ/bit,带宽密度达到 250Gbps/mm。XT1600 通过新颖的 2D 光纤阵列和高度集成的高速硅光子学实现。Nubis 的突破基于重新思考光学设计,大幅降低光学 DSP 所需的性能和功耗,甚至完全消除它。据其称,与传统光学解决方案相比,人工智能加速器或类似的大型 ASIC 可以在数据中心内实现全带宽连接,而功耗仅为传统光学解决方案的一小部分。XT1600 光学引擎的样品现已提供给客户。而且这种光互连非常适合新兴的盒式架构以及本地 chiplet 实施,以便在未来实现更紧密的集成。

国内在这一领域,曦智科技发力于光子计算和光子网络两大产品线。2023 年,曦智科技发布了首个计算光互连产品 Photowave、以及首款片上光网络(oNOC)AI 处理器 OptiHummingbird。Photowave 通过光学器件实现 CXL 2.0/PCIe Gen 5 的连接,可配置 x16、x8、x4、x2 等不同通道数,覆盖多种部署场景。

结语

总体来看,在众多厂商的参与下,互联技术将会迎来重大的发展。尤其是围绕光电共封装和硅光子中继层技术的光互连,正在成为 AI 领域热门赛道。

行业分析公司 LightCounting 首席执行官 Vlad Kozlov 证实:"800G 及以上的数据中心光学器件将继续强劲增长,到 2027 年,可插拔收发器、有源光缆和共封装光学器件的总价值将达到 84 亿美元。未来五年,将有大量全新的光学产品问世。"

参考链接

1、《Unveiling The Evolution of NVLink》,naddod

2、Jim Keller suggests Nvidia should have used Ethernet to stitch together Blackwell GPUs — Nvidia could have saved billions,tomshardware

点这里加关注,锁定更多原创内容

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

ai芯片 英伟达 深度学习 gpu 芯片
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论