全天候科技 昨天
关于谷歌TPU性能大涨、Meta算力投资、光模块、以太网推动Scale Up...,一文读懂Hot Chips 2025大会要点
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

AI 需求增长远未放缓,多项技术突破正在重塑行业格局。

9 月 3 日,摩根大通在最新研报中称,该行分析师在参加 Hot Chips 2025 大会后认为,AI 在消费端和企业端的爆炸式增长将继续推动先进计算、内存和网络技术的多年强劲需求周期。

研报称,大会上每个会议都强调 AI 是技术进步和产品需求的最重要驱动力,传递的核心信息是:AI 基础设施需求的增长动能依然强劲,且正在从单纯的计算力竞争扩展到网络和光学技术的全面升级。该行认为,以下几个重要趋势值得关注:

谷歌 Ironwood TPU 性能大幅跃升,与英伟达 GPU 性能差距快速缩小;

Meta 扩展 100k+ GPU 集群规模,未来十年预计增长 10 倍;

网络技术成为 AI 基础设施关键增长点,以太网向 Scale-up 领域扩张;

光学集成技术加速发展以应对功耗限制。

谷歌 Ironwood TPU:性能飞跃缩小与 GPU 差距

摩根大通称,谷歌在大会上披露了 Ironwood TPU(TPU v6)的最新细节,展现出令人瞩目的性能提升。与 TPU v5p 相比,Ironwood 的峰值 FLOPS 性能提升约 10 倍,功效比提升 5.6 倍

存储容量和带宽同样大幅改善,Ironwood 配备 192GB HBM3E 内存,带宽达 7.3TB/s,相比 TPU v5p 的 96GB HBM2 和 2.8TB/s 带宽有显著提升

Ironwood 超级集群可扩展至 9,216 颗芯片(较此前 4,096 颗大幅提升),由 144 个机架组成,每个机架包含 64 颗芯片,总计 1.77PB 直接可寻址 HBM 内存和 42.5 exaflops FP8 计算能力

性能对比显示:Ironwood 的 4.2 TFLOPS/ 瓦功效比仅略低于英伟达 B200/300 GPU 的 4.5 TFLOPS/ 瓦。摩根大通称:

这一数据突出表明,先进 AI 专用芯片正快速缩小与领先 GPU 的性能差距,推动超大规模云服务商加大对定制 ASIC 项目的投资。

据摩根大通预测,该芯片采用与博通合作的 3 纳米工艺,将在 2025 年下半年量产。预计 Ironwood 将在未来 6-7 个月为博通带来 90 亿美元收入,生命周期总收入超过 150 亿美元。

Meta 定制化部署,凸显 MGX 架构优势

研报指出,Meta 在会上详细介绍了其定制 NVL72 系统 Catalina 的架构设计。与英伟达标准 NVL72 参考设计不同,Catalina 分布在两个 IT 机架中,并配备四个辅助冷却机架。

从内部配置看,每个 B200 GPU 都配对一个 Grace CPU,而非标准的 2 个 B200 配 1 个 Grace CPU 配置。这一设计使系统中 Grace CPU 总数翻倍至 72 个,LPDDR 内存从 17.3TB 增至 34.6TB,缓存一致性内存总量从 30TB 增至 48TB,增幅达 60%。

Meta 表示,选择定制 NVL72 设计主要基于模型需求和物理基础设施考虑。模型需求不仅包括大语言模型,还涵盖排序和推荐引擎。物理基础设施方面,需要将这些功耗密集型系统部署到传统数据中心基础设施中。

Meta 强调,英伟达采用符合 OCP 标准的 MGX 模块化参考设计架构,为客户基于个性化架构需求进行定制化提供了可能。

网络技术成焦点,Scale Up 带来新机遇

网络技术成为大会的重要议题,Scale Up 和 Scale Out 领域都出现显著增长机会

博通重点介绍了最新推出的 51.2TB/s Tomahawk Ultra 交换机,该公司将其描述为 " 专为 HPC 和 AI 应用构建的低延迟 Scale Up 交换机 "。

Tomahawk Ultra 是博通 102.4TB/s Tomahawk 6 交换机的后续产品,支持该公司推动以太网在 Scale Up 和 Scale Out 领域采用的战略。

该行分析师指出,Scale Up 特别代表着博通 TAM 扩展的重要机会,尤其是超大规模云服务商部署越来越大的 XPU 集群

英伟达继续推进以太网布局,推出 "Spectrum-XGS" 以太网技术,旨在解决客户运行跨多个数据中心的分布式集群所产生的 " 跨规模 " 机会。

英伟达称 Spectrum-XGS 相比现成以太网解决方案具有多项优势,包括无限制扩展和自动调整负载均衡,并宣布 CoreWeave 成为首个部署该技术的客户。

光学技术深度集成,应对功耗和成本挑战

光学技术成为大会另一焦点领域,多个演讲者强调了推动光学技术深度集成到 AI 基础设施的关键动力,包括铜互连的限制、快速增长的机架功率密度,以及光学收发器相对较高的成本和功耗。

Lightmatter 展示了其 Passage M1000"AI 3D 光子互连器 ",解决了 I/O 连接位于芯片周边导致连接性扩展不如芯片性能扩展快速的挑战。M1000 的核心是跨越 4000 平方毫米的有源多掩模光子互连器,能够在单个封装内创建大型芯片复合体。

Ayar Labs 讨论了其用于 AI Scale Up 的 TeraPHY 光学 I/O 芯片,这是 UCIe 光学中继器的首个实现,确保与其他制造商芯片的兼容性和互操作性。该技术支持高达 8.192TB/s 的双向带宽,功耗效率比传统可插拔光学器件加电气 SerDes 高 4-8 倍。

尽管 CPO 和其他前沿光子技术尚未广泛部署,但分析师预计数据中心功耗限制将成为 2027-2028 年广泛采用的关键驱动因素。M1000 的光学波导分布在整个芯片表面,消除了传统设计的 " 海岸线 " 限制,同时功耗显著低于电气信令。

AMD 产品线扩展,2026 年推出 MI400 系列

AMD 在会上深入介绍了 MI350 GPU 系列的技术细节。MI355X 运行在更高的 TBP 和最大时钟频率下,TBP 为 1.4kW,时钟频率 2.4GHz,而 MI350X 为 1.0kW 和 2.2GHz。

因此 MI355X 主要部署在液冷数据中心基础设施中,MI350X 则主要服务于传统风冷基础设施的客户。

性能方面,MI355X 的计算性能较 MI350X 高出 9%,但单芯片内存容量和带宽保持一致。

部署配置上,MI355X 可部署在最多 128 个 GPU 的机架系统中,而 MI350X 机架最多支持 64 个 GPU,这主要由风冷系统与直接液冷系统的热管理能力差异决定。不过两者的 Scale Up 域都保持在 8 个 GPU。

AMD 重申 MI400 系列及其 "Helios" 机架解决方案将按计划于 2026 年推出,摩根大通预计时间为 2026 年下半年,MI500 系列计划于 2027 年发布

摩根大通分析师认为,AMD 在推理计算市场具备良好定位,该市场需求增长超过训练市场,AMD 产品相对英伟达替代方案具有强劲性能和总体拥有成本优势。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

谷歌 ai 摩根大通 gpu 芯片
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论