雷锋网 前天
以开创的超节点互联技术,引领AI基础设施新范式
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

[ 中国,上海,2025 年 9 月 18 日 ] 女士们、先生们,各位老朋友、新朋友,大家上午好!欢迎来参加 2025 年华为全联接大会,时隔一年,很高兴再次与大家相聚在上海。我想大家都能感受到,过去的一年对所有 AI 从业者、关注者来讲是记忆深刻的一年,DeepSeek 横空出世,让全国人民过了一个快乐的 AI 年,也让所有大模型训练者开启了不知多少个不眠之夜,调整训练方式,复现 DeepSeek 结果,当然也给我们带来了巨大冲击。从春节开始,到今年 4 月 30 日,经过多团队的协同作战,终于使 Ascend 910B/910C 的推理能力达成了客户的基本需求。

在进入今天的具体分享之前,请允许我回顾一下去年的 HC,我讲到了如下几点:

第一、智能化的可持续,首先是算力的可持续;

第二、中国半导体制造工艺将在相当长时间处于落后状态;

第三、可持续的算力只能基于实际可获得的芯片制造工艺;

第四、人工智能成为主导性算力需求,促使计算系统正在发生结构性变化;

第五、开创计算架构,打造 " 超节点 + 集群 " 算力解决方案持续满足算力需求。

但第五点没有展开讲,本来想讲,但我的团队不同意。今天,我想利用此机会,来把我去年 HC 没有完成的任务完成,也算是答卷。我今天分享的主题是:" 以开创的超节点互联技术,引领 AI 基础设施新范式 ",也是回答去年 HC 提到的第五点:如何开创计算架构,打造 " 超节点 + 集群 " 算力解决方案来持续满足算力需求。

在展开今天主题前,回到 DeepSeek 对产业界、对华为的冲击,DeepSeek 开源后,我们的客户对华为的昇腾发展指出了很多问题,也充满了期待,并一直在给我们不断地提建议。为此,经过内部的充分讨论并达成共识,我们于 2025 年 8 月 5 日在北京专门举办了昇腾产业峰会,我代表华为给出了回应,在座的有的参加了,有的可能没有参加。今天,我也利用此机会就主要的决定给大家汇报一下。主要有四点:

一、华为坚持昇腾硬件变现;

二、CANN 编译器和虚拟指令集接口开放,其它软件全开源,CANN 基于 Ascend 910B/C 的开源开放将于 2025 年 12 月 31 日前完成,未来开源开放与产品上市同步;

三、Mind 系列应用使能套件及工具链全面开源,并于 2025 年 12 月 31 日前完成;

四、openPangu 基础大模型全面开源。

接下来回到今天的主题。尽管 DeepSeek 开创的模式可以大幅减少算力需求,但要走向 AGI、要走向物理 AI,我们认为,算力,过去是,未来也将继续是人工智能的关键,更是中国人工智能的关键。

算力的基础是芯片,昇腾芯片是华为 AI 算力战略的基础。自 2018 年发布 Ascend 310 芯片,2019 年发布 Ascend 910 芯片,到 2025 年,Ascend 910C 芯片随着 Atlas 900 超节点规模部署,为大家所熟悉。在过去几年,客户和伙伴们对昇腾芯片有很多诉求,对昇腾芯片也有很多期待。面向未来,华为的芯片路标是如何规划的?想必是大家普遍关心的话题,可能也是最关心的内容。

因此,今天,我就直入主题来介绍昇腾芯片及其路标。我很确定地告诉大家,昇腾芯片将持续演进,为中国乃至世界的 AI 算力构筑坚固根基。

未来 3 年,至 2028 年,我们在开发和规划了三个系列,分别是 Ascend 950 系列,包括两颗芯片:Ascend 950PR 和 Ascend 950DT,以及 Ascend 960、Ascend 970 系列,更多具体芯片还在规划中。下面我分别介绍快要推出的和已规划的 4 颗昇腾芯片。

我们正在开发、且即将推出的芯片叫Ascend 950系列。我首先介绍一下 Ascend 950 系列的芯片架构,Ascend 950 PR 和 Ascend 950 DT 共用了 Ascend 950 Die。与前一代昇腾芯片相比,Ascend 950 在以下几个方面实现了根本性提升。

第一,新增支持业界标准 FP8/MXFP8/MXFP4 等低数值精度数据格式,算力分别达到 1P 和 2P,提升训练效率和推理吞吐。并特别支持华为自研的 HiF8,在保持 FP8 的高效的同时,精度非常接近 FP16。

第二,大幅度提升了向量算力。这主要通过三个方面实现:其一,提升向量算力占比;其二,采用创新的新同构设计,即支持 SIMD/SIMT 双编程模型,SIMD 能够像流水线一样处理 " 大块 " 向量,而 SIMT 便于灵活处理 " 碎片化 " 数据;其三,把内存访问颗粒度从 512 字节减少到 128 字节,内存访问更精细,从而更好地支持了离散且不连续的内存访问。

第三,互联带宽相比 Ascend 910C 提升了 2.5 倍,达到 2TB/s。

第四,结合推理不同阶段对于算力、内存、访存带宽及推荐、训练的需求不同,我们自研了两种 HBM,分别是:HiBL 1.0 和 HiZQ 2.0。不同的自研 HBM 与 Ascend 950 Die 合封,分别构成芯片 Ascend 950PR:面向 Prefill 和推荐场景,以及 Ascend 950DT:面向 Decode 和训练场景。

下面分别介绍。

首先是我们的第一颗芯片,Ascend 950PR,主要面向推理 Prefill 阶段和推荐业务场景。首先,我们发现,随着 Agent 的快速发展,输入上下文越来越长,首 Token 输出阶段占用计算资源越来越多。其次是在电子商务、内容平台、社交媒体等业务应用中,要求推荐算法具有更高的准确度和更低的时延,对计算能力的需求也越来越大。推理 Prefill 阶段和推荐算法都是计算密集型,对计算并行的能力要求高,但对内存访问带宽的需求相对低。通过分级内存解决方案,推理 Prefill 阶段和推荐算法对本地内存容量的需求相对也不高。Ascend   950PR 采用了华为自研的低成本 HBM,HiBL 1.0,相比高性能、高价格的 HBM3e/4e,能够大大降低推理 Prefill 阶段和推荐业务的投资。

这颗芯片将在 2026 年一季度推出,首先支持的产品形态是标卡和超节点服务器。

接下来这一颗是 Ascend 950DT,相比 Ascend 950PR,它更注重推理 Decode 阶段和训练场景。由于推理 Decode 阶段和训练对互联带宽和访存带宽要求高,我们开发了 HiZQ 2.0,使内存容量达到 144GB,内存访问带宽达到 4TB/s。同时把互联带宽提升到了 2TB/s。其次,支持了 FP8/MXFP8/MXFP4/HiF8 数据格式。

Ascend 950DT 将在 2026 年 Q4 推出。

第三颗是在规划中的芯片 Ascend 960。它在算力、内存访问带宽、内存容量、互联端口数等各种规格上相比 Ascend 950 翻倍,大幅度提升训练、推理等场景的性能;同时还支持华为自研的 HiF4 数据格式。它是目前业界最优的 4bit 精度实现,能进一步提升推理吞吐,并且比业界 FP4 方案的推理精度更优。

Ascend 960 将在 2027 年四季度推出。

最后一颗是在规划中的 Ascend 970,这颗芯片的一些规格还在讨论中。总体方向是,在各项指标上大幅度升级,全面升级训练和推理性能。目前的初步考虑是,相比 Ascend 960,Ascend 970 的 FP4 算力、FP8 算力、互联带宽要全面翻倍,内存访问带宽至少增加 1.5 倍。Ascend 970 计划在 2028 年四季度推出。大家届时可以期待它的惊人表现。

这是刚才介绍的昇腾芯片的主要具体规格和路标,总体上,我们将以几乎一年一代算力翻倍的速度,同时围绕更易用,更多数据格式、更高带宽等方向持续演进,持续满足 AI 算力不断增长的需求。可以看到,相比 Ascend 910B/910C,从 Ascend 950 开始的主要变化包括:

引入 SIMD/SIMT 新同构,提升编程易用性;

支持更加丰富的数据格式,包括 FP32 /HF32 /FP16/BF16/FP8/MXFP8/HiF8/MXFP4/HiF4 等;

支持更大的互联带宽,其中 950 系列为 2TB/s,970 系列提升到 4TB/s;

支持更大的算力,FP8 算力从 950 系列的 1 PFLOPS 提升到 960 的 2 PFLOPS、970 的 4 PFLOPS;FP4 算力从 950 的 2 PFLOPS 提升到 960 的 4 PFLOPS、970 的 8 PFLOPS;

内存容量逐渐加倍,而内存访问带宽将翻两番。

有了昇腾芯片为基础,我们就能够打造满足客户需求的算力解决方案。从大型 AI 算力基础设施建设的技术方向看,超节点已经成为主导性产品形态,并正在成为 AI 基础设施建设的新常态。超节点事实上就是一台能学习、思考、推理的计算机,物理上由多台机器组成,但逻辑上以一台机器学习、思考、推理。随着算力需求的持续增长,超节点的规模也在持续、快速增大。

今年 3 月份,华为正式推出了 Atlas 900 超节点,满配支持 384 卡。因为是超节点,这 384 颗 Ascend 910C 芯片,能够像一台计算机一样工作,最大算力可达 300 PFLOPS。到目前为止,Atlas 900 依然是全球算力最大的超节点。大家经常听到的 CloudMatrix384 超节点,是华为云基于 Atlas 900 超节点构建的云服务实例。Atlas 900 超节点自上市以来,已经累计部署超过 300 套,服务 20 多个客户,涵盖互联网、电信、制造等多个行业。可以说,Atlas 900 于 2025 年,开启了华为 AI 超节点的征程。

今天,结合我们已经推出或正在研发中的昇腾芯片,我将为大家带来更多超节点和集群产品。现在进入今天最激动人心的时刻,就是新产品发布环节。

今天我要发布的第一款产品,Atlas 950 超节点,基于 Ascend 950DT 打造。

Atlas 950 超节点支持 8192 张基于 Ascend 950DT 的昇腾卡,是 Atlas 900 超节点的 20 多倍,我们习惯称呼的昇腾卡,每张卡对应一颗 Ascend 950DT 芯片,8192 张昇腾卡等同于 8192 颗 Ascend 950DT 芯片。

Atlas 950 超节点满配包括由 128 个计算柜、32 个互联柜,共计 160 个机柜组成,占地面积 1000 平方米左右,柜间采用全光互联。总算力大幅度提升,其中,FP8 算力达到 8E FLOPS,FP4 算力达到 16E FLOPS。互联带宽达到 16PB/s,这个数字意味着,Atlas 950 一个产品的总互联带宽,已经超过今天全球互联网峰值带宽的 10 倍有余。

Atlas 950 超节点的上市时间是:2026 年四季度。

我们很自豪的看到,Atlas 950 超节点,至少在未来多年都将保持是全球最强算力的超节点,并且在各项主要能力上都远超业界主要产品。其中,相比英伟达同样将在明年下半年上市的 NVL144,Atlas 950 超节点卡的规模是其 56.8 倍,总算力是其 6.7 倍,内存容量是其 15 倍,达到 1152TB;互联带宽是其 62 倍,达到 16.3PB/s。即使是与英伟达计划 2027 年上市的 NVL576 相比,Atlas 950 超节点在各方面依然是领先的。

算力、内存容量、内存访问速度、互联带宽等能力的大幅度增强,为大模型训练性能和推理吞吐带来显著提升。相比华为已经推出的 Atlas 900 超节点,Atlas 950 超节点的训练性能提升 17 倍,达到 4.91M TPS。通过支持 FP4 数据格式,Atlas 950 超节点的推理性能提升达 26.5 倍,达到 19.6M TPS。

8192 卡超节点并不是我们的终点,我们还在继续努力。我今天发布的第二款超节点产品,Atlas 960 超节点。基于 Ascend 960,Atlas 960 超节点最大可支持 15488 卡。Atlas 960 超节点 由 176 个计算柜,44 个互联柜,共 220 个机柜,占地面积约 2200 平方米。

Atlas 960 超节点的上市时间是:2027 年四季度。

伴随卡的规模的再次升级,Atlas 960 超节点让我们在 AI 超节点的优势再度增强。基于 Ascend 960,其总算力、内存容量、互联带宽在 Atlas 950 基础上再翻倍。其中,FP8 总算力将达到 30E FLOPS,而 FP4 总算力将达到 60 EFLOPS;内存容量达到 4460TB,互联带宽达到 34PB/s。大模型训练和推理的性能相比 Atlas 950 超节点,将分别提升 3 倍和 4 倍以上,达到 15.9M TPS 和 80.5M TPS。通过 Atlas 950 和 Atlas 960,我们对于为人工智能的长期快速发展提供可持续且充裕算力,充满信心。

超节点已经重新定义 AI 基础设施的范式,但不仅仅局限于 AI。在通用计算领域,我们同样认为,超节点技术能够带来很大的价值。从需求角度考虑,金融核心业务等目前仍然有部分承载在大型机和小型机之上,相比普通服务器集群,它们对服务器的性能和可靠性有更高的诉求,通用计算超节点在这两点上正好切合需求。从技术角度考虑,超节点同样可以为通算领域注入全新活力。

因此,鲲鹏处理器主要围绕支持超节点,更多核、更高性能等方向持续演进。同时,通过自研的双线程灵犀核,使鲲鹏处理器能方便支持更多线程。

2026 年 Q1,我们将推出 Kunpeng 950 处理器,包括两个版本,分别是:96 核 /192 线程和 192 核 /384 线程;支持通用计算超节点;安全方面新增四层隔离,成为鲲鹏首颗实现机密计算的数据中心处理器。

2028 年 Q1,鲲鹏处理器将在芯片微架构、先进封装技术等领域持续突破关键技术,将再次推出两个版本,分别是高性能版本,96 核 /192 线程,单核性能提升 50%+,主要面向 AI host、数据库等场景。以及高密版本,不少于 256 核 /512 线程,主要面向虚拟化、容器、大数据、数仓等场景。

接下来是今天我发布的第三款产品:TaiShan 950 超节点,基于 Kunpeng 950 打造,全球首个通用计算超节点,其最大支持 16 节点,32 个处理器,最大内存 48TB,同时支持内存、SSD、DPU 池化。

这款产品不只是通用计算领域的一次技术升级,除了大幅提升通用计算场景下的业务性能,还能帮助金融系统破解核心难题。当前大型机、小型机替换的核心挑战是数据库分布式改造,而基于 TaiShan 950 超节点打造的 GaussDB 多写架构,无需改造,但性能提升 2.9 倍,最终可平滑替代大型机、小型机上的传统数据库。TaiShan 950 加上分布式 GaussDB 将成为各类大型机、小型机的终结者,彻底取代各种应用场景的大型机和小型机以及 Oracle 的 Exadata 数据库服务器。

除了核心数据库场景,TaiShan 950 超节点在更广泛的场景里,表现也很亮眼:比如虚拟化环境的内存利用率提升 20%,在 Spark 大数据场景,实时数据处理时间缩短 30%。

TaiShan 950 超节点上市时间是:2026 年一季度,敬请期待。

超节点的价值,不仅仅体现在智算和通算传统业务领域。互联网产业广泛应用的推荐系统,正在从传统推荐算法向生成式推荐系统演进。我们可以基于 TaiShan 950 和 Atlas 950 打造成混合超节点,为下一代生成式推荐系统打开全新架构方向。

一方面,通过超大带宽、超低时延互联以及超大内存,混合超节点构成超大共享内存池,支持 PB 级推荐系统嵌入表,从而支撑超高维度用户特征;另一方面,混合超节点的超大 AI 算力,能够支持超低时延推理和特征检索。因此,混合超节点是面向下一代生成式推荐系统的解决方案的全新选择。

大规模超节点把智算和通算的能力都推向新的高度,同时也对互联技术提出了重大挑战。华为作为联接领域的领导者,当然不惧挑战。在定义和设计 Atlas 950、Atlas 960 两个超节点的技术规格时,我们遭遇到了互联技术的巨大挑战,主要在两个方面:

第一是如何做到长距离而且高可靠。大规模超节点机柜多,柜间联接距离长,当前电互联和光互联技术都不能满足需求。其中,当前的电互联技术在高速时联接距离短,最多只能支持两柜互联,而当前的光互联技术虽然可以把长距离的多机柜联接在一起,但无法满足可靠性需求。

第二是如何做到大带宽而且低时延。当前跨柜卡间互联带宽低,和超节点的需求差距达 5 倍;跨柜的卡间时延大,当前互联技术最好只能做到 3 微秒左右,和 Atlas 950/960 设计需求仍然有 24% 的差距,当时延已经低至 2~3 个微秒时,已经逼近物理极限,哪怕 0.1 微秒的提升,挑战都很大。

华为基于三十多年构筑的技术能力,通过系统性创新,彻底解决了当前技术存在的问题,超标达成 Atlas 950/960 超节点的设计需求,使万卡超节点成为可能。

首先,为了解决长距离且高可靠问题,我们在互联协议的物理层、数据链路层、网络层、传输层等每一层都引入了高可靠机制;同时在光路引入了百纳秒级故障检测和保护切换,当出现光模块闪断或故障时,让应用无感;并且,我们重新定义和设计了光器件、光模块和互联芯片。这些创新和设计让光互联的可靠性提升 100 倍,且互联距离超过 200 米,实现了电的可靠和光的距离。

其次,为了解决大带宽且低时延问题,我们突破了多端口聚合与高密封装技术,以及平等架构和统一协议,实现了 TB 级的超大带宽,2.1 微秒的超低时延。正是因为一系列系统性、原创性的技术创新,我们才攻克了超节点互联技术,满足了高可靠、全光互联、高带宽、低时延的互联要求,让大规模超节点成为了可能。

为了达成 Atlas 950/960 超节点对互联的技术要求,为了实现万卡超节点还能是一台计算机,华为开创了超节点架构并开创了新型的互联协议,能够支撑万卡级超节点架构。基于这个互联协议的超节点架构的核心价值主张是:万卡超节点,一台计算机,也就是说,通过该互联协议,把数万规模的计算卡,联接成一个超节点,能够像一台计算机一样工作、学习、思考、推理。

在技术上,我们总结认为,万卡级超节点架构应该具备 6 大特征,分别是总线级互联、平等协同、全量池化、协议归一、大规模组网、高可用性。我们为这个面向超节点的新型互联协议取名 " 灵衢 ",英文名称:UB,UnifiedBus

今天,我们正式发布灵衢、UnifiedBus,一个面向超节点的互联协议。

同时,我宣布,华为将开放灵衢 2.0 技术规范。为什么从灵衢 2.0 开始开放?事实上,灵衢的研究是从 2019 年开始的,因为众所周知的原因,先进工艺不可获得,我们需要从多芯片上突破,希望把更多的计算资源联接在一起。我们取了一个名字叫 UnifiedBus,简称 UB,中文名字 " 灵衢 ",意味着类似九省通衢,实现大规模算力的联通。基于灵衢  1.0 的 Atlas 900 超节点自 2025 年 3 月开始交付,至今已商用部署 300 多套,灵衢 1.0 技术得到充分验证。在灵衢 1.0 的基础上,我们继续丰富功能,优化性能,提升规模,进一步完善了协议,形成了灵衢 2.0,前面发布的 Atlas 950 超节点就是基于灵衢 2.0。

我们认为灵衢 2.0 具备了开放的条件,为了更广泛地促进互联技术发展和产业进步,今天华为决定开放灵衢 2.0 技术规范,欢迎产业界伙伴基于灵衢研发相关产品和部件,共建灵衢开放生态。

我在去年 HC 会上强调过,基于中国可获得的芯片制造工艺,我们努力打造 " 超节点 + 集群 " 算力解决方案,来持续满足算力需求。今天已经介绍了三个超节点产品。灵衢既为超节点而生,是面向超节点的互联协议,也是构建算力集群产品最优的互联技术。

接下来为大家带来两个集群产品:首先是,Atlas 950 SuperCluster 50 万卡集群!

Atlas 950 SuperCluster 集群由 64 个 Atlas 950 超节点互联组成,把 1 万多机柜中的 52 万多片昇腾 950DT 组成为一个整体,FP8 总算力可达 524 EFLOPS。上市时间与 Atlas 950 超节点同步,即 2026 年 Q4。

在集群组网上,我们同时支持 UBoE 与 RoCE 两种协议,UBoE 是把 UB 协议承载在以太网上,让客户能够利用现有以太交换机。相比传统 RoCE,UBoE 组网的静态时延更低、可靠性更高,交换机和光模块数量都更节省,所以,我们推荐 UBoE。

这就是我们的 Atlas 950 SuperCluster 集群。相比当前世界上最大的集群 xAI Colossus,规模是其 2.5 倍,算力是其 1.3 倍,是当之无愧的全世界最强算力集群!无论是当下主流的千亿稠密、稀疏大模型训练任务,还是未来的万亿、十万亿大模型训练,超节点集群都可以成为性能强悍的算力底座,高效稳定地支持人工智能持续创新。

相应的,在 2027 年 Q4,我们还将基于 Atlas 960 超节点,同步推出Atlas 960 SuperCluster,集群规模进一步提升到百万卡级,FP8 总算力达到 2 ZFLOPS!FP4 总算力达到 4 ZFLOPS。并且,它同样也支持 UBoE 与 RoCE 两种协议,在 UBoE 协议加持下,性能与可靠性同样更优,并且,静态时延和网络无故障时间优势进一步扩大,因此继续推荐 UBoE 组网。通过 Atlas 960 SuperCluster,我们将持续加速客户应用创新,探索智能水平新高。

很高兴今天给大家带来一系列新产品,我们希望和产业界一起,以开创的灵衢超节点互联技术,引领 AI 基础设施新范式;以基于灵衢的超节点和集群持续满足算力快速增长的需求,推动人工智能持续发展,创造更大的价值,谢谢!

2025 年 9 月 18-20 日,第十届华为全联接大会在上海世博展览馆及世博中心举办。本届大会以 " 跃升行业智能化 " 为主题,通过 " 战略全景 - 产业技术 - 生态发展 " 的三维视角,阐释华为全面智能化战略的最新举措,并发布全新的数智基础设施产品、行业场景化解决方案、开发工具等。欲了解更多详情,请参阅华为全联接大会官网:www.huawei.com/cn/events/huaweiconnect

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 华为 开源 基础设施 上海
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论