华为曝AI芯片大招，搭载自研HBM！全球最强算力超节点和集群赢麻了

每代昇腾芯片内存升级，算力翻倍。

作者 | ZeR0

编辑 | 漠影

智东西 9 月 18 日报道，今日，在华为全联接大会 2025 开幕式上，华为副董事长、轮值董事长徐直军发表主题演讲，公布华为昇腾 AI 芯片 4 年 5 款产品路线图，并正式发布全球最强算力超节点和集群。

华为在今年第一季度推出昇腾 910C AI 芯片，预计将于 2026 年第一季度推出昇腾 950PR，2026 年第四季度推出昇腾 950DT，2027 年第四季度推出昇腾 960，2028 年第四季度推出昇腾 970。

▲昇腾芯片路线图（芯东西制表）

本次大会，华为推出基于灵衢和超节点架构的全新产品，包括全液冷数据中心 AI 超节点Atlas 950 SuperPoD、企业级风冷 AI 超节点服务器Atlas 850和Atlas 860、AI 新一代标卡Atlas 350、业界首个通算超节点Taishan 950 SuperPoD等。

其中Atlas 350标卡采用的便是下一代昇腾 950PR芯片。

01.

4 款全新 AI 芯片：

大内存、高带宽、强算力

昇腾 950芯片架构新增支持低精度数据格式，FP8、MXFP8、HiF8 精度下 AI 算力可达到 1PFLOPS，MXFP4 精度下 AI 算力可达到 2PFLOPS，互联带宽提升 2.5 倍至 2TB/s。

该系列芯片还提升了向量算力配比，支持 SIMD/SIMT，并支持更精细粒度内存访问（512B → 128B）。

其支持华为自研 HBM。昇腾 950PR采用的是 HiBL 1.0，内存容量为 128GB、带宽为 1.6TB/s；昇腾 950DT采用的是 HiZQ 2.0，内存容量为 144GB、带宽为 4TB/s。

昇腾 950PR提升了推理 Prefill 性能，支持 FP8、MXFP8、HiF8、MXFP4，并优化了推荐业务性能。

昇腾 950DT提升了推理 Decode 性能，支持 FP8、MXFP8、HiF8、MXFP4；还提升了训练性能，支持 FP8、MXFP8、HiF8。

昇腾 960大幅提升训练和推理性能，算力、内存容量、内存带宽、互联端口数均翻倍，内存容量升级到 288GB，内存带宽为 9.6TB/s，支持 40 个互联端口，支持自研 HiF4 数据格式（最优 4bit 精度实现）。

该芯片在 FP8 精度下 AI 算力达到 2PFLOPS，FP4 精度下 AI 算力达到 4PFLOPS。

昇腾 970的训练和推理性能继续翻倍，FP8 精度下 AI 算力达到 4PFLOPS，FP4 精度下 AI 算力达到 8PFLOPS，内存带宽为 14.4TB/s，互联带宽为 4TB/s。

总体而言，昇腾芯片迭代路径是支持更多数值类型、升级更大内存容量与带宽、实现更高算力、更加易用。

02.

全球最强算力超节点和集群来了！

支持百万卡互联

" 算力过去是，未来也将继续是人工智能的关键，更是中国人工智能的关键，" 徐直军谈道，"基于中国可获得的芯片制造工艺，华为努力打造「超节点 + 集群」算力解决方案，来满足持续增长的算力需求。"

超节点在物理上由多台机器组成，但逻辑上以一台机器学习、思考、推理。

徐直军宣布，新发布的华为 Atlas 950 SuperPoD和Atlas 960 SuperPoD 超节点，分别支持8192 张及15488 张昇腾卡，在卡规模、总算力、内存容量、互联带宽等关键指标上全面领先，在未来多年都将是全球最强算力的超节点。

基于超节点，华为同时发布了全球最强超节点集群，分别是Atlas 950 SuperCluster和Atlas 960 SuperCluster，算力规模分别超过50 万卡和达到百万卡。

徐直军说，基于全球最强算力的超节点和集群，华为对于为人工智能的长期快速发展提供可持续且充裕算力，充满信心。

同时，华为率先把超节点技术引入通用计算领域，发布全球首个通用计算超节点 TaiShan 950 SuperPoD，结合 GaussDB 分布式数据库，能彻底取代各种应用场景的大型机和小型机以及 Exadata 数据库一体机，将成为各类大型机、小型机的终结者。

华为基于三十多年构筑的联接技术能力，通过系统性创新，突破了大规模超节点的互联技术巨大挑战，开创了面向超节点的互联协议灵衢（UnifiedBus）。

徐直军宣布华为将开放灵衢 2.0 技术规范，欢迎产业界伙伴基于灵衢研发相关产品和部件，共建灵衢开放生态。

华为董事、ICT BG CEO 杨超斌说，基于灵衢互联协议，华为开创了超节点架构，可将多台物理机器深度互联，实现逻辑层面像一台机器一样学习、思考与推理，重新定义了高效、稳定、可扩展的大规模有效算力新范式。

华为Atlas 900 A3 SuperPoD超节点至今已累计部署 300 多套，服务于互联网、金融、运营商、电力、制造等行业的 20 多个客户。

华为在本次大会上推出基于灵衢和超节点架构的全新产品，包括全液冷数据中心 AI 超节点 Atlas 950 SuperPoD、企业级风冷 AI 超节点服务器 Atlas 850 和 Atlas 860、AI 新一代标卡 Atlas 350、业界首个通算超节点 Taishan 950 SuperPoD 等。

Atlas 950 SuperPoD，被称作 " 面向超大型 AI 计算任务的最佳选择 "，从基础器件、协议算法到光电技术，实现系统级创新突破。

通过正交架构，Atlas 950 实现零线缆电互联，采用液冷接头浮动盲插设计做到零漏液，其独创的材料和工艺让光模块液冷可靠性提升1 倍。

其创新的 UB-Mesh 递归直连拓扑网络架构，支持单板内、单板间和机架间的 NPU 全互联，以 64 卡为步长按需扩展，最大可实现8192 卡无收敛全互联。

Atlas 850，是业界首个企业级风冷 AI 超节点服务器，内部搭载 8 张昇腾 NPU，有效满足企业模型后训练、多场景推理等需求。

该服务器支持多柜灵活部署，最大可形成128 台 1024 卡的超节点集群。这是目前业内唯一可在风冷机房实现超节点架构的算力集群。

Atlas 350标卡，采用最新的昇腾 950PR芯片，向量算力提升2 倍，支持更细粒度的 Cacheline 访问，在推荐推理场景可实现2.5 倍性能提升，且单卡即可运行。

Atlas 350 支持 4 个灵衢端口互联，实现算力、内存等资源池化，让更大参数模型、更低时延应用可以在标卡上实现。

TaiShan 950 SuperPoD，是华为推出的业界首款通算超节点，具备370 纳秒超低时延、2.8T超大带宽和内存池化能力，能大幅提升数据库、虚机热迁移和大数据场景等业务性能，为通算性能提升开辟全新路径。

03.

结语：全面开放超节点技术，

推动协同创新

华为宣布全面开放超节点技术，与产业界共享技术红利，共同推动超节点技术走向普惠与协同创新。

首先，开放灵衢协议和超节点参考架构，允许产业界基于技术规范自研相关产品或部件。

其次，全面开放超节点基础硬件，包括 NPU 模组、风冷刀片、液冷刀片、AI 标卡、CPU 主板和级联卡等不同形态的硬件，方便客户和伙伴进行增量开发，设计基于灵衢的各种产品。

操作系统灵衢组件也将全部开源，组件代码将陆续合入 openEuler 等多个上游操作系统开源社区。

用户可以根据实际需求，将部分或全部源代码集成到现有操作系统中，自行迭代维护版本，也可以将整个组件直接合入现有操作系统，未来演进与开源社区版本同步。

同时，昇腾 CANN 全面开源开放，Mind 系列组件也同步开源，并优先支持 PyTorch、vLLM 等业界开源社区，加速开发者自主创新。

宙世代

一起剪

相关标签