智东西 前天
华为曝AI芯片大招,搭载自研HBM!全球最强算力超节点和集群赢麻了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

每代昇腾芯片内存升级,算力翻倍。

作者 | ZeR0

编辑 | 漠影

智东西 9 月 18 日报道,今日,在华为全联接大会 2025 开幕式上,华为副董事长、轮值董事长徐直军发表主题演讲,公布华为昇腾 AI 芯片 4 年 5 款产品路线图,并正式发布全球最强算力超节点和集群

华为在今年第一季度推出昇腾 910C AI 芯片,预计将于 2026 年第一季度推出昇腾 950PR,2026 年第四季度推出昇腾 950DT,2027 年第四季度推出昇腾 960,2028 年第四季度推出昇腾 970

▲昇腾芯片路线图(芯东西制表)

本次大会,华为推出基于灵衢和超节点架构的全新产品,包括全液冷数据中心 AI 超节点Atlas 950 SuperPoD、企业级风冷 AI 超节点服务器Atlas 850Atlas 860、AI 新一代标卡Atlas 350、业界首个通算超节点Taishan 950 SuperPoD等。

其中Atlas 350标卡采用的便是下一代昇腾 950PR芯片。

01.

4 款全新 AI 芯片:

大内存、高带宽、强算力

昇腾 950芯片架构新增支持低精度数据格式,FP8、MXFP8、HiF8 精度下 AI 算力可达到 1PFLOPS,MXFP4 精度下 AI 算力可达到 2PFLOPS,互联带宽提升 2.5 倍至 2TB/s。

该系列芯片还提升了向量算力配比,支持 SIMD/SIMT,并支持更精细粒度内存访问(512B → 128B)。

其支持华为自研 HBM。昇腾 950PR采用的是 HiBL 1.0,内存容量为 128GB、带宽为 1.6TB/s;昇腾 950DT采用的是 HiZQ 2.0,内存容量为 144GB、带宽为 4TB/s。

昇腾 950PR提升了推理 Prefill 性能,支持 FP8、MXFP8、HiF8、MXFP4,并优化了推荐业务性能。

昇腾 950DT提升了推理 Decode 性能,支持 FP8、MXFP8、HiF8、MXFP4;还提升了训练性能,支持 FP8、MXFP8、HiF8。

昇腾 960大幅提升训练和推理性能,算力、内存容量、内存带宽、互联端口数均翻倍,内存容量升级到 288GB,内存带宽为 9.6TB/s,支持 40 个互联端口,支持自研 HiF4 数据格式(最优 4bit 精度实现)。

该芯片在 FP8 精度下 AI 算力达到 2PFLOPS,FP4 精度下 AI 算力达到 4PFLOPS。

昇腾 970的训练和推理性能继续翻倍,FP8 精度下 AI 算力达到 4PFLOPS,FP4 精度下 AI 算力达到 8PFLOPS,内存带宽为 14.4TB/s,互联带宽为 4TB/s。

总体而言,昇腾芯片迭代路径是支持更多数值类型、升级更大内存容量与带宽、实现更高算力、更加易用。

02.

全球最强算力超节点和集群来了!

支持百万卡互联

" 算力过去是,未来也将继续是人工智能的关键,更是中国人工智能的关键," 徐直军谈道,"基于中国可获得的芯片制造工艺,华为努力打造「超节点 + 集群」算力解决方案,来满足持续增长的算力需求。"

超节点在物理上由多台机器组成,但逻辑上以一台机器学习、思考、推理。

徐直军宣布,新发布的华为 Atlas 950 SuperPoDAtlas 960 SuperPoD 超节点,分别支持8192 张15488 张昇腾卡,在卡规模、总算力、内存容量、互联带宽等关键指标上全面领先,在未来多年都将是全球最强算力的超节点

基于超节点,华为同时发布了全球最强超节点集群,分别是Atlas 950 SuperClusterAtlas 960 SuperCluster,算力规模分别超过50 万卡和达到百万卡

徐直军说,基于全球最强算力的超节点和集群,华为对于为人工智能的长期快速发展提供可持续且充裕算力,充满信心。

同时,华为率先把超节点技术引入通用计算领域,发布全球首个通用计算超节点 TaiShan 950 SuperPoD,结合 GaussDB 分布式数据库,能彻底取代各种应用场景的大型机和小型机以及 Exadata 数据库一体机,将成为各类大型机、小型机的终结者。

华为基于三十多年构筑的联接技术能力,通过系统性创新,突破了大规模超节点的互联技术巨大挑战,开创了面向超节点的互联协议灵衢(UnifiedBus)

徐直军宣布华为将开放灵衢 2.0 技术规范,欢迎产业界伙伴基于灵衢研发相关产品和部件,共建灵衢开放生态。

华为董事、ICT BG CEO 杨超斌说,基于灵衢互联协议,华为开创了超节点架构,可将多台物理机器深度互联,实现逻辑层面像一台机器一样学习、思考与推理,重新定义了高效、稳定、可扩展的大规模有效算力新范式。

华为Atlas 900 A3 SuperPoD超节点至今已累计部署 300 多套,服务于互联网、金融、运营商、电力、制造等行业的 20 多个客户。

华为在本次大会上推出基于灵衢和超节点架构的全新产品,包括全液冷数据中心 AI 超节点 Atlas 950 SuperPoD、企业级风冷 AI 超节点服务器 Atlas 850 和 Atlas 860、AI 新一代标卡 Atlas 350、业界首个通算超节点 Taishan 950 SuperPoD 等。

Atlas 950 SuperPoD,被称作 " 面向超大型 AI 计算任务的最佳选择 ",从基础器件、协议算法到光电技术,实现系统级创新突破。

通过正交架构,Atlas 950 实现零线缆电互联,采用液冷接头浮动盲插设计做到零漏液,其独创的材料和工艺让光模块液冷可靠性提升1 倍

其创新的 UB-Mesh 递归直连拓扑网络架构,支持单板内、单板间和机架间的 NPU 全互联,以 64 卡为步长按需扩展,最大可实现8192 卡无收敛全互联。

Atlas 850,是业界首个企业级风冷 AI 超节点服务器,内部搭载 8 张昇腾 NPU,有效满足企业模型后训练、多场景推理等需求。

该服务器支持多柜灵活部署,最大可形成128 台 1024 卡的超节点集群。这是目前业内唯一可在风冷机房实现超节点架构的算力集群。

Atlas 350标卡,采用最新的昇腾 950PR芯片,向量算力提升2 倍,支持更细粒度的 Cacheline 访问,在推荐推理场景可实现2.5 倍性能提升,且单卡即可运行。

Atlas 350 支持 4 个灵衢端口互联,实现算力、内存等资源池化,让更大参数模型、更低时延应用可以在标卡上实现。

TaiShan 950 SuperPoD,是华为推出的业界首款通算超节点,具备370 纳秒超低时延、2.8T超大带宽和内存池化能力,能大幅提升数据库、虚机热迁移和大数据场景等业务性能,为通算性能提升开辟全新路径。

03.

结语:全面开放超节点技术,

推动协同创新

华为宣布全面开放超节点技术,与产业界共享技术红利,共同推动超节点技术走向普惠与协同创新。

首先,开放灵衢协议和超节点参考架构,允许产业界基于技术规范自研相关产品或部件。

其次,全面开放超节点基础硬件,包括 NPU 模组、风冷刀片、液冷刀片、AI 标卡、CPU 主板和级联卡等不同形态的硬件,方便客户和伙伴进行增量开发,设计基于灵衢的各种产品。

操作系统灵衢组件也将全部开源,组件代码将陆续合入 openEuler 等多个上游操作系统开源社区。

用户可以根据实际需求,将部分或全部源代码集成到现有操作系统中,自行迭代维护版本,也可以将整个组件直接合入现有操作系统,未来演进与开源社区版本同步。

同时,昇腾 CANN 全面开源开放,Mind 系列组件也同步开源,并优先支持 PyTorch、vLLM 等业界开源社区,加速开发者自主创新。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

华为 ai芯片 ai 芯片 徐直军
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论