华为首次线下展出昇腾384超节点！任正非的话应验：芯片问题其实没必要担心

快科技 7 月 27 日消息，今年 6 月，华为 CEO 任正非接受人民日报采访时曾表示，芯片问题其实没必要担心，用叠加和集群等方法，计算结果上与最先进水平是相当的。

" 我们单芯片还是落后美国一代，我们用数学补物理、非摩尔补摩尔，用群计算补单芯片，在结果上也能达到实用状况。" 他说。

如今，这句话已经应验。

7 月 26 日，2025 世界人工智能大会（WAIC）在上海世博中心启幕，华为首次线下展出昇腾 384 超节点，即 Atlas 900 A3 SuperPoD，该产品基于超节点架构，通过总线技术实现 384 个 NPU 之间的大带宽低时延互联，解决集群内计算、存储等各资源之间的通信瓶颈。

通过系统工程的优化，实现资源的高效调度，让超节点像一台计算机一样工作。

在今年 5 月的鲲鹏昇腾开发者大会上，华为推出了昇腾超节点（CloudMatrix 384），成功实现业界最大规模的 384 卡高速总线互联。昇腾超节点具备超大带宽、超低时延、超强性能的三大优势，包括多款训练和推理产品，基于超节点创新架构，更好的满足模型训练和推理对低时延，大带宽，长稳可靠的要求。

本月初，华为云官微通过一段视频展示了 CloudMatrix 384 超节点算力集群的威力——

384 颗昇腾 NPU（昇腾 910C）+192 颗鲲鹏 CPU 全对等互联，形成一台 " 超级 AI 服务器 "；

业界最大单卡推理吞吐量—— 2300Tokens/s；

业界最大集群算力—— 16 万卡，万卡线性度高达 95%；

云上确定性运维 -40 天长稳训练、10 分钟快速恢复。

华为云表示，新一代昇腾 AI 云服务，是最适合大模型应用的算力服务。

简单来说，华为 CloudMatrix 并非简单的 " 堆卡 "，而是通过高带宽全对等互联（Peer-to-Peer）来设计，这也是 CloudMatrix 384 硬件架构的一大创新。

传统的 AI 集群中，CPU 相当于公司领导的角色，NPU 等其它硬件更像是下属，数据传输的过程中就需要 CPU 审批和签字，效率就会大打折扣。

但在 CloudMatrix384 中，CPU 和 NPU 等硬件更像是一个扁平化管理的团队，它们之间的地位比较平等，直接通过 UB 网络通信直接对话，效率自然就上来了。

今年 4 月份，国际知名半导体研究和咨询机构 SemiAnalysis 发布专题报道称，华为云最新推出的 AI 算力集群解决方案 CloudMatrix 384（简称 CM384）凭借其颠覆性的系统架构设计与全栈技术创新，在多项关键指标上实现对英伟达旗舰产品 GB200 NVL72 的超越，标志着中国在人工智能基础设施领域实现里程碑式突破。

据 SemiAnalysis 披露，华为云 CM384 基于 384 颗昇腾芯片构建，通过全互连拓扑架构实现芯片间高效协同，可提供高达 300 PFLOPs 的密集 BF16 算力，接近达到英伟达 GB200 NVL72 系统的两倍。此外，CM384 在内存容量和带宽方面同样占据优势，总内存容量超出英伟达方案 3.6 倍，内存带宽也达到 2.1 倍，为大规模 AI 训练和推理提供了更高效的硬件支持。

（图片引自 SemiAnalysis 报道）

报道分析称，尽管单颗昇腾芯片性能约为英伟达 Blackwell 架构 GPU 的三分之一，但华为通过规模化系统设计，成功实现整体算力跃升，并在超大规模模型训练、实时推理等场景中展现更强竞争力。

SemiAnalysis 也指出，华为的工程优势不仅体现在芯片层面，更在于系统级的创新，包括网络架构、光学互联和软件优化，使得 CM384 能够充分发挥集群算力，满足超大规模 AI 计算需求。

此次华为云 CloudMatrix 384 的发布，标志着中国在 AI 计算系统领域已具备与国际巨头正面竞争的实力。

SemiAnalysis 在报道中特别指出，华为的规模化解决方案 " 领先于英伟达和 AMD 目前市场上的产品一代 "，并认为中国在 AI 基础设施上的突破将对全球 AI 产业格局产生深远影响。

宙世代

一起剪

相关标签