作者 | ZeR0
编辑 | 漠影
智东西圣何塞 3 月 18 日报道,在扩展 AI 基础设施版图这件事上,英伟达已经是 Next Level 了。
一年一度的 "AI 界春晚 " 英伟达 GTC 大会本周盛大开幕,今日,面向 AI 时代的新型基础设施,英伟达发布两款新品,一款聚焦网络,推光电一体化封装网络交换机,为更大规模的 AI 工厂铺路,一款聚焦企业存储,构建 AI 数据平台,旨在提高 AI 智能体工作流程的性能和准确性。
英伟达将超大规模新型数据中心定义为 AI 工厂。随着 AI 工厂规模持续扩大,AI 网络基础设施也需要迭代升级,而将硅光直接集成到交换机中是一项行之有效的策略。
数据是 AI 时代的原材料。英伟达通过与全球领先的存储企业合作,打造在混合数据中心部署和扩展 AI 智能体所需的新型企业基础设施,来更高效地挖掘存储在企业系统中的数据价值。
一、光交换机最快今年上市,将 AI 工厂扩展至数百万 GPU
英伟达今日宣布推出光电一体化封装网络交换机 NVIDIA Spectrum-X Photonics 和 Quantum-X,使 AI 工厂能够跨区域连接数百万 GPU 级别,同时大幅降低能耗和运营成本。
每端口 1.6Tb/s 的英伟达硅光交换机,创新地集成了光器件,激光器数量减少至 1/4,与传统方法相比,能源效率提高到 3.5 倍,信号完整性提高到 63 倍,大规模组网可靠性提高到 10 倍,部署速度提高到 1.3 倍。
NVIDIA Quantum-X Photonics InfiniBand 交换机预计将在今年晚些时候上市,领先的基础设施和系统供应商将在 2026 年推出 Spectrum-X Photonics 以太网交换机。
与传统以太网相比,Spectrum-X 以太网网络平台可为多租户、超大规模 AI 工厂提供卓越的性能和 1.6 倍的带宽密度。
Spectrum-X 光交换机具有多种配置,包括 128 个 800Gb/s 端口或 512 个 200Gb/s 端口,总带宽可达到 100Tb/s,以及 512 个 800Gb/s 或 2048 个 200Gb/s 端口,总吞吐量可达 400Tb/s。
NVIDIA Quantum-X 光交换机提供 144 个基于 200Gb/s SerDes 的 800Gb/s InfiniBand 端口,并采用液冷设计对板载硅光器件进行高效散热。其 AI 计算网的速度是上一代产品的 2 倍,扩展性是上一代产品的 5 倍。
在英伟达创始人兼 CEO 黄仁勋 GTC 主题演讲期间播放的视频中,Quantum-X 光交换机的带宽达到 115.2Tb/s。
内置有交换机管理模块,采用液冷散热。
Quantum-X 光学封装里有 Quantum-X800 ASIC 芯片、6 个光学子组件和 18 个硅光引擎。
Quantum-X800 ASIC 的总吞吐量达到 28.8Tb/s,采用台积电 4N 工艺,拥有 1070 亿颗晶体管,网络内自带 3.6 TFLOPS FP8 SHARP 算力。
324 个光学连接器串联起这一系统,总计有 36 个激光输入和 288 个数据连接,内置光纤管理功能。
其中,光子组件是可拆卸的,每个组件拥有 3 个硅光引擎,总吞吐量为 4.8Tb/s。
每个硅光芯片引擎拥有 200GB/s 的微光调制器,总吞吐量为 1.6Tb/s,可实现 3.5 倍节能。
硅光引擎采用台积电 N6 工艺,拥有 2.2 亿颗晶体管、1000 个集成的光学器件。
这一系统还拥有多平面数据连接器,拥有 1152 个单模光纤。
外置光源有 8 个集成激光系统,具备自动温度检测和波长、能耗稳定功能。
上述部件的总和,便是下图这一拥有 4460 亿颗晶体管的庞大系统,吞吐量达到 115Tb/s。
英伟达的硅光生态系统伙伴包括台积电、富士康、Browave、Coherent、Corning Incorporated、Fabrinet、Lumentum、SENKO、SPIL、Sumitomo Electric Industries、TFC Communication,共同发明与合作,打造集成硅、光工艺和供应链。
台积电董事长兼 CEO 魏哲家分享说,台积电的硅光解决方案结合了其先进的芯片工艺和台积电 SoIC 3D 芯片封装的优势,帮助英伟达充分发挥 AI 工厂的能力,助力 AI 工厂扩展到 100 万块 GPU 甚至更多。
英伟达光技术将推动新一代先进 AI 工厂的大规模增长,并和 Coherent、Eoptolink、Fabrinet、Innolight 等业界领先企业的可插拔光模块技术共同推动这一发展。
二、助建存储基础设施,让 AI 智能体提供更准响应
英伟达今日还推出了 NVIDIA AI 数据平台,这是一项可自定义的参考设计,可被存储提供商用于构建搭载专用 AI 查询智能体的全新 AI 基础设施,满足 AI 推理工作负载的严苛要求。
这些 AI 智能体利用英伟达加速计算、网络、软件,针对复杂查询进行推理并快速生成准确响应,可助力企业应用 NVIDIA AI Enterprise 软件平台(包括全新英伟达 Llama Nemotron 推理模型的 NVIDIA NIM 微服务)以及全新的 NVIDIA AI-Q 蓝图,近乎实时地生成数据洞察。
AI 数据平台存储基础设施利用英伟达 AI-Q 蓝图开发,可进行推理并连接企业数据的 AI 智能体系统,能够将专有企业知识(包括内部文档、客户记录、特定领域的信息)无缝集成到 AI 工作流中,提供更准确、更贴合情景的响应。
它可以快速访问海量数据并处理各类数据,包括有多个来源的结构化、半结构化和非结构化数据,包括文本、PDF、图像、视频。
AI-Q 蓝图利用 NVIDIA NeMo Retriever 微服务,可将英伟达 GPU 上的数据提取和检索速度加快高达 15 倍。
AI 数据平台的核心功能是相当于一个智能 AI 路由器,通过高速、低延迟网络进行负载平衡和交换提示和键值(KV)缓存,以提高推理速度和准确性。
存储提供商可借助英伟达 Blackwell GPU、BlueField DPU、Spectrum-X 网络、 NVIDIA Dynamo 开源推理库,来优化基础设施,为 AI 查询智能体提供强劲支持。
AI 数据平台优化了 GPU、节点和大语言模型内存管理之间的 AI 工作负载分配,利用智能路由、负载平衡、高级缓存来加速数据处理,并实现可扩展的复杂 AI 工作流程,因此 AI 智能体可以更高效、更低延迟地分析和处理大量业务知识。
英伟达 Blackwell GPU、BlueField DPU、Spectrum-X 网络组合在一起提供了一款加速引擎,可加快 AI 查询智能体访问存储在企业系统中的数据。
BlueField DPU 的性能比基于 CPU 的存储性能提升最高可达 1.6 倍,而功耗又比其降低可达 50%,每瓦性能提高 3 倍以上。与传统以太网相比,Spectrum-X 通过采用动态路由和优化的拥塞控制,可将 AI 存储流量提速最高达 48%。
DDN、戴尔、HPE、日立、IBM、NetApp、Nutanix、Pure Storage、VAST Data、WEKA 等领先数据平台和存储提供商均选择与英伟达合作,打造可定制化的 AI 数据平台,充分运用企业数据进行推理并响应复杂查询。
英伟达认证的存储合作伙伴正与英伟达共同打造定制化 AI 数据平台。经英伟达认证的存储提供商计划从本月开始提供使用 NVIDIA AI 数据平台构建的解决方案。
结语:AI 基础设施多点布局,英伟达正不断扩大优势
从面向网络和存储的两项发布,可以看出英伟达对 AI 基础设施趋势的多点布局和精准卡位。英伟达多年打磨的丰富网络产品组合,使其在加速 AI 智能体连接数据的生态中占据中心位。
对共封装光学技术的布局则更是意在长远,理论上大规模实现硅光通信的融合在节省能耗和成本方面的优势显著,不过这项前沿技术在实际落地中的成熟度还有待验证,业界也仍在探索如何以更低成本和更高可靠性制造相应的光学器件。
如今提升 AI 性能和效率的关键因素已远远超出算力范畴。英伟达的前瞻布局正使之不断扩大在 AI 基础设施的领先优势,与垂直行业龙头企业的合作又进一步加深了其护城河。
登录后才可以发布评论哦
打开小程序可以发布评论哦