智东西
作者 | ZeR0
编辑 | 漠影
智东西 10 月 13 日报道,刚刚,在圣何塞 OCP 全球峰会上,英伟达展示了十亿瓦 AI 工厂的未来,并宣布 Meta 和甲骨文将使用英伟达 Spectrum-X 以太网网络交换机来增强其 AI 数据中心网络,加快大规模部署,实现 AI 训练效率的指数级增长。
英伟达创始人兼 CEO 黄仁勋说,Spectrum-X 不仅仅是更快的以太网,更是 "AI 工厂的神经系统 ",使超大规模计算企业能够将数百万张 GPU 连接到一台巨型计算机中,以训练有史以来最大规模的模型。
专为万亿参数模型时代而设计的英伟达 Spectrum-X 以太网平台由 Spectrum-X 以太网交换机和 Spectrum-X 以太网超级网卡组成,是首个专为 AI 打造的以太网平台。
Spectrum-X 以太网已展现出创纪录的效率,其拥塞控制技术使全球最大的 AI 超级计算机实现了 95% 的数据吞吐量。相比之下,现成的大规模以太网会遭遇数千次流量冲突,导致吞吐量限制在 60% 左右。
这一效率飞跃标志着 AI 可扩展网络在经济性和性能方面的突破。英伟达 Spectrum-XGS 以太网技术是 Spectrum-X 以太网网络平台的一部分,能够实现跨规模扩展,将跨城市、国家、大洲的数据中心连接成庞大的十亿级 AI 超级工厂。
Spectrum-X 基于英伟达全栈平台(包括 GPU、CPU、NVLink 和软件),提供从计算到网络的无缝性能。其先进的拥塞控制、自适应路由和 AI 驱动的遥测功能可确保大规模 AI 训练和推理集群的效率和可预测性。
甲骨文将建设通过 Spectrum-X 以太网互连的十亿级 AI 工厂。
" 通过采用 Spectrum-X 以太网,我们能以突破性的效率互连数百万张 GPU,从而使我们的客户能够更快地训练、部署并受益于下一波生成式和推理式 AI。" 甲骨文云基础设施执行副总裁 Mahesh Thiagarajan 说。
Meta 将把 Spectrum 以太网交换机集成到其 Facebook 开放交换系统(FBOSS)的网络基础设施中。FBOSS 是一个专为大规模管理和控制网络交换机而开发的软件平台。此次集成将加速大规模部署,从而提升 AI 训练效率并缩短洞察时间。
据 Meta 网络工程副总裁 Gaya Nagarajan 分享:"Meta 的下一代 AI 基础架构需要业界前所未有的规模的开放高效网络。通过将英伟达 Spectrum 以太网集成到 Minipack3N 交换机和 FBOSS 中,我们可以扩展我们的开放网络方法,同时释放训练更大规模模型所需的效率和可预测性,并将生成式 AI 应用带给数十亿人。"
英伟达 NVLink Fusion 也正快速发展,使企业能够将其半定制芯片无缝集成到高度优化且广泛部署的数据中心架构中,从而降低复杂性并加快产品上市时间。
英特尔和三星代工厂正在加入 NVLink Fusion 生态系统。该生态系统包括定制芯片设计者、CPU 和 IP 合作伙伴,以便 AI 工厂能够快速扩展,以处理模型训练和 Agentic AI 推理的苛刻工作负载。
全新 NVLink Fusion 生态伙伴包括:
CPU 合作伙伴:富士通,英特尔,高通。
定制芯片合作伙伴:AIchip,Astera Labs,GUC,Marvell,联发科,三星。
技术合作伙伴:楷登电子(Cadence),新思科技(Synopsys)。
作为最近宣布的英伟达和英特尔合作的一部分,英特尔将构建使用 NVLink Fusion 集成到英伟达基础设施平台的 x86 CPU。
三星代工厂已与英伟达合作,以满足对定制 CPU 和定制 XPU 日益增长的需求,为定制芯片提供从设计到制造的体验。
如今,十亿瓦 AI 集群已经成为 AI 芯片龙头企业们共同的目标。英伟达 Spectrum-X 以太网和 Spectrum-XGS 结合了 OCP 的开放性和领先性能,被 Meta 和甲骨文两大科技巨头选用部署。
这些旨在实现跨规模扩展的技术,将为大规模 AI 训练及推理带来更可观的效率,进而加速生成式 AI 应用的开发与普及。
登录后才可以发布评论哦
打开小程序可以发布评论哦