去年 AMD、博通(Broadcom)、思科(Cisco)、谷歌(Google)、Hewlett Packard Enterprise (HPE)、英特尔(Intel)、Meta 和微软(Microsoft)宣布成立 Ultra Accelerator Link (UALink)联盟,共同制定一项新的行业标准,致力于推进数据中心中扩展 AI 系统的高速和低延迟通信。随后苹果、阿里云、以及 Synopsys加入,被选为 UALink 联盟董事会新成员。
UALink 联盟宣布,正式发布 UALink 1.0 规范,意味着小组成员现在可以对支持新技术的芯片进行流片。其允许在一个计算集群(Pod)内,让接入的 GPU 等加速器附带的内存之间实现直接加载和存储,提升共同完成大规模计算任务的效率。
UALink 协议栈包括四个硬件优化层,分别是物理层、数据链路层、事务层和协议层。其中物理层使用标准以太网组件(例如 200GBASE-KR1/CR1),并包括使用 FEC 减少延迟的修改;数据链路层将事务层的 64 字节的数据打包成 640 字节的单位,应用 CRC 和可选的重试逻辑,另外还负责处理设备间的消息传递;事务层实现压缩寻址,在实际工作负载下以高达 95% 的协议效率简化数据传输。针对现代数据中心使用,还集成了安全和管理功能,计算集群将通过专用控制软件和固件代理,使用 PCIe 和以太网等标准接口进行管理。
UALink 1.0 规范支持每通道 200 GT/s 的双向数据速率,信号速率为 212.5 GT/s,以适应前向纠错和编码开销。UALink 可以配置为 x1、x2 或 x4 通道,其中四通道链路在发送和接收方向的速度最高可达 800 GT/s。
单个 UALink 1.0 系统支持连接多达 1024 个 AI 加速器,通过 UALink 交换机连接,每个 AI 加速器分配一个端口和一个 10-bit 唯一标识符,以实现精确路由。UALink 电缆长度经过优化,长度小于 4 米,在 64B/640B 有效载荷下实现小于 1 µ s 的往返延迟。此外,这些链路支持跨一到四个机架的确定性性能。
在外界看来,UALink 联盟的创立就是为了改变英伟达在人工智能芯片领域一家独大的格局,竞争目标是称为 "NVLink" 的互连通信协议。UALink 1.0 规范允许在连接到处理器的内存之间直接传输数据,这对于 AI 训练工作负载尤其重要。
登录后才可以发布评论哦
打开小程序可以发布评论哦