驱动之家 07-27
华为首次线下展出昇腾384超节点!任正非的话应验:芯片问题其实没必要担心
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

快科技 7 月 27 日消息,今年 6 月,华为 CEO 任正非接受人民日报采访时曾表示,芯片问题其实没必要担心,用叠加和集群等方法,计算结果上与最先进水平是相当的。

" 我们单芯片还是落后美国一代,我们用数学补物理、非摩尔补摩尔,用群计算补单芯片,在结果上也能达到实用状况。" 他说。

如今,这句话已经应验。

7 月 26 日,2025 世界人工智能大会(WAIC)在上海世博中心启幕,华为首次线下展出昇腾 384 超节点,即 Atlas 900 A3 SuperPoD,该产品基于超节点架构,通过总线技术实现 384 个 NPU 之间的大带宽低时延互联,解决集群内计算、存储等各资源之间的通信瓶颈。

通过系统工程的优化,实现资源的高效调度,让超节点像一台计算机一样工作。

在今年 5 月的鲲鹏昇腾开发者大会上,华为推出了昇腾超节点(CloudMatrix 384),成功实现业界最大规模的 384 卡高速总线互联。昇腾超节点具备超大带宽、超低时延、超强性能的三大优势,包括多款训练和推理产品,基于超节点创新架构,更好的满足模型训练和推理对低时延,大带宽,长稳可靠的要求。

本月初,华为云官微通过一段视频展示了 CloudMatrix 384 超节点算力集群的威力——

384 颗昇腾 NPU(昇腾 910C)+192 颗鲲鹏 CPU 全对等互联,形成一台 " 超级 AI 服务器 ";

业界最大单卡推理吞吐量—— 2300Tokens/s;

业界最大集群算力—— 16 万卡,万卡线性度高达 95%;

云上确定性运维 -40 天长稳训练、10 分钟快速恢复。

华为云表示,新一代昇腾 AI 云服务,是最适合大模型应用的算力服务。

简单来说,华为 CloudMatrix 并非简单的 " 堆卡 ",而是通过高带宽全对等互联(Peer-to-Peer)来设计,这也是 CloudMatrix 384 硬件架构的一大创新。

传统的 AI 集群中,CPU 相当于公司领导的角色,NPU 等其它硬件更像是下属,数据传输的过程中就需要 CPU 审批和签字,效率就会大打折扣。

但在 CloudMatrix384 中,CPU 和 NPU 等硬件更像是一个扁平化管理的团队,它们之间的地位比较平等,直接通过 UB 网络通信直接对话,效率自然就上来了。

今年 4 月份,国际知名半导体研究和咨询机构 SemiAnalysis 发布专题报道称,华为云最新推出的 AI 算力集群解决方案 CloudMatrix 384(简称 CM384)凭借其颠覆性的系统架构设计与全栈技术创新,在多项关键指标上实现对英伟达旗舰产品 GB200 NVL72 的超越,标志着中国在人工智能基础设施领域实现里程碑式突破。

据 SemiAnalysis 披露,华为云 CM384 基于 384 颗昇腾芯片构建,通过全互连拓扑架构实现芯片间高效协同,可提供高达 300 PFLOPs 的密集 BF16 算力,接近达到英伟达 GB200 NVL72 系统的两倍。此外,CM384 在内存容量和带宽方面同样占据优势,总内存容量超出英伟达方案 3.6 倍,内存带宽也达到 2.1 倍,为大规模 AI 训练和推理提供了更高效的硬件支持。

(图片引自 SemiAnalysis 报道)

报道分析称,尽管单颗昇腾芯片性能约为英伟达 Blackwell 架构 GPU 的三分之一,但华为通过规模化系统设计,成功实现整体算力跃升,并在超大规模模型训练、实时推理等场景中展现更强竞争力。

SemiAnalysis 也指出,华为的工程优势不仅体现在芯片层面,更在于系统级的创新,包括网络架构、光学互联和软件优化,使得 CM384 能够充分发挥集群算力,满足超大规模 AI 计算需求。

此次华为云 CloudMatrix 384 的发布,标志着中国在 AI 计算系统领域已具备与国际巨头正面竞争的实力。

SemiAnalysis 在报道中特别指出,华为的规模化解决方案 " 领先于英伟达和 AMD 目前市场上的产品一代 ",并认为中国在 AI 基础设施上的突破将对全球 AI 产业格局产生深远影响。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

华为 任正非 ai 芯片 华为云
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论