在摩尔定律逐渐放缓,单卡算力提升有限的背景下,通过重构计算互联架构,实现了整体系统级最优,完成了国产算力从 " 能用 " 到 " 好用 " 的跨越。
撰文|张贺飞
编辑|沈菲菲
半个月前的 HDC 2025 上,华为云全面上线了基于 CloudMatrix384 超节点的昇腾 AI 云服务,在行业内外掀起了不小的轰动。
让我们印象最为深刻的是一组数据:与非超节点相比,CloudMatrix384 超节点的单卡吞吐量从 600Tokens/s 提升到了 2300Tokens/s;增量 Token 的输出时延,也从原来的 100ms 降低到了 50ms 以下。
为了探究指标背后的技术密码,我们找到了华为联合硅基流动发表的一篇论文,详细介绍了 CloudMatrix 的架构创新和 CloudMatrix384 的生产级实践,并在测试结果中写道——运行DeepSeek-R1时的单卡吞吐,已经超过英伟达H100。
在大模型的产业叙事从训练转向推理局面下,新一代昇腾 AI 云服务刷新纪录的单卡吞吐能力,对整个算力行业意味着什么?
01.
怎么做到的?一场"系统工程的胜利"
需要回答的第一个问题是:单卡吞吐量近乎 4 倍的性能跃升,CloudMatrix384 超节点到底是怎么做到的?
答案在于工程创新。
为了提高大模型的推理性能,传统的做法集中在单点优化:增加更多的节点数量,通过堆叠算力来提升推理能力;对模型进行量化与剪枝,减少不必要的计算量;对 KV Cache 进行优化,加速增量推理;以及利用自动图优化工具将多个算子融合为一个高效核函数,减少中间内存拷贝……
可大模型的参数量仍在增长、MoE 架构被广泛采用、上下文长度急剧扩展,单点优化暴露出了越来越多的局限性:比如多卡并行推理的通信瓶颈、芯片与内存之间的耦合差、" 整卡 " 调度的资源浪费等等,无论是吞吐性能,还是推理成本,均已经满足不了快速增长的应用部署需求。
CloudMatrix384 超节点提出了新的设计架构,不同于简单的 " 算力叠加 ",进一步实现了一切可池化、一切皆对等、一切可组合。
理解了三个 " 一切 ",也就读懂了工程创新的价值。
一切可池化:通过统一的、超高性能的网络(MatrixLink),将 NPU、CPU、内存、网络等资源解耦,形成可独立扩展的资源池。
一切皆对等:有别于传统 GPU 为中心的计算范式,资源池里的所有资源不再是 " 主从式 " 关系,而是更高效、更灵活的对等架构。
一切可组合:意思是 CloudMatrix384 超节点池化的所有资源,可以根据不同的任务需求,像搭积木一样进行灵活调配组合。
用一句话来总结:CloudMatrix384 超节点将 384 颗昇腾 NPU 和 192 颗鲲鹏 CPU 通过全新高速网络 MatrixLink 全对等互联,形成了一台拥有超大带宽、超大内存、超高算力的超级 "AI 服务器 "。
之所以采用全对等互联的架构,目的是为了匹配大模型的训推任务,特别是 MoE 混合架构的大模型。
传统集群模式下进行推理,要在每张单卡上分配所有 " 专家 ",将所有问题都计算一遍,导致每个 " 专家 " 只能获得少量的计算和通信能力。
而一个 CloudMatrix384 超节点可以支持数百个专家并行推理,实现 " 一卡一专家 " 模式,即每张卡只部署一个 " 专家 ",集中处理所有相关问题,增加单次推理的批量大小,减少单位计算的调度开销,大幅提升推理效率。同时,超节点还可以支持 " 一卡一算子任务 ",灵活分配资源,提升任务并行处理,减少等待,将算力有效使用率(MFU)提升 50% 以上。
再比如大模型的推理过程分为 Prefill 和 Decode 两个阶段,Prefill 生成 KV Cache,Decode 使用和更新 KV Cache。CloudMatrix384 超节点的解耦式共享内存池,可以保存更多的 KV Cache,让 Prefill 和 Decode 任务更快、更均衡地访问 KV Cache,大幅降低系统延迟。
也就是说,2300Tokens/s 的单卡推理吞吐量和 50ms 以下的输出延迟,可以归结为一场 " 系统工程的胜利 "。在摩尔定律逐渐放缓,单卡算力提升有限的背景下,通过重构计算互联架构,实现了整体系统级最优,完成了国产算力从 " 能用 " 到 " 好用 " 的跨越。
02.
改变了什么?大模型落地"越过山丘"
进入 2025 年后,大模型的角色快速蜕变,走出了实验室,在政务、金融、医疗、能源等领域加速落地。
但在落地过程中,响应慢、吞吐低、成本高等现实问题,成了不少企业在部署大模型时难以绕开的 " 瓶颈 ",不仅拖慢了业务节奏,还拉高了技术回报的门槛。如果说 " 训得好 " 是一场军备竞赛," 用得起 " 则是产业拐点。
华为在工程创新上的 " 弯道超车 ",为大模型落地部署的挑战,提供了一种经过验证的解题范式。
先从大模型训练来看。
万亿、十万亿参数的大模型训练任务,催生了万卡乃至十万卡的集群需求,也带来了算力紧缺的 " 危机 "。
一个乐观的消息在于,在云数据中心,CloudMatrix384 超节点最高可以将 432 个超节点级联成 16 万卡的超大集群,提供 10 万 PFlops 的算力。其中一个关键指标是线性度,即节点数量增加后,性能是否能 " 按比例提升 "。目前 CloudMatrix384 万卡集群的线性度已经超过 95%,实现了性能提升与资源扩展的比例接近 1:1,可同时支持 1300 个千亿参数大模型训练。
为了帮助客户最优使用资源,CloudMatrix384 超节点昇腾 AI 云服务还支持训推算力一体部署,比如 " 日推夜训 " 模式,白天推理,晚上训练;以及 "40 天长稳训练、10 分钟快速恢复 " 能力,保障长周期训练的稳定性和中断后的快速恢复。
更深刻的影响在于推理层面。
正如前面所提到的,CloudMatrix384 超节点的单卡吞吐量提升到了 2300Tokens/s,一同被改变的还有推理成本。
根据一位知乎网友的方式推算:单卡吞吐量 2300Tokens/s,每小时可以产出 828 万 Token,每小时租金按照 15 元计算,百万 Token 的成本约为 1.8 元,推理成本比英伟达的 GPU 方案还要低。
在大模型推理领域,有一个著名的 " 不可能三角 " ——推理成本低、响应速度快、输出准确性高几乎不可能同时满足。
CloudMatrix384 超节点给出了否定的答案,以 DeepSeek-R1 为例,有 256 个固定专家、32 个共享专家,CloudMatrix384 超节点的 " 一卡一专家 " 模式完美契合了 DeepSeek-R1 的推理需求,保障推理性能的同时,仍可以实现高吞吐、低时延的目标。
在 " 推理成本决定最终胜利 " 的大模型竞赛中,CloudMatrix384 超节点可以说是现阶段的 " 最优解 ",在技术上攻克了响应速度、吞吐能力与输出准确性的三重矛盾,为千行万业搬开了大模型落地的 " 大山 "。
可以佐证的案例有很多。
新浪基于 CloudMatrix384 昇腾 AI 云服务,为 " 智慧小浪 " 智能服务体系构建了统一的推理平台,推理的交付效率提升超过 50%。
面壁智能使用 CloudMatrix384 昇腾 AI 云服务,让 " 小钢炮 " 模型的推理业务性能得到了 2.7 倍的提升。
360 正在开启与昇腾 AI 云服务的全面合作,纳米 AI 搜索已经实现了上百款大模型的高效协作,为用户提供超级 AI 搜索服务。
03.
写在最后
巴克莱银行曾在 2025 年初的研报中表示:AI 推理计算需求将快速提升,预计将占到通用人工智能总计算需求的 70% 以上,推理计算的需求甚至将大幅超过训练,达到后者的 4.5 倍。
谁解决了推理效率,谁就掌握了大模型落地的主导权。
由此再来审视 CloudMatrix384 超节点昇腾 AI 云服务,不仅仅是技术指标的跃升,而是系统级工程创新的深度验证,重新定义了未来的算力范式:" 芯片性能 " 不再是唯一的衡量尺度,以 " 整体系统效率 "" 推理成本 "" 模型结构适配性 " 构建新的竞争标准,为整个 AI 产业打开了一条更加高效、普惠、可持续的技术道路。
截止到目前,基于 CloudMatrix384 超节点的昇腾 AI 云服务已经在芜湖、贵安、乌兰察布、和林格尔等地的华为云数据中心上线,依托百 TB 级带宽的光纤骨干网,10 毫秒时延圈覆盖了全国 19 个城市群。正在通过工程创新的胜利,承接大模型时代的产业落点。
主理人 | 张贺飞(Alter)
前媒体人、公关,现专职科技自媒体
钛媒体、36kr、创业邦、福布斯中国等专栏作者
转载、商务、开白以及读者交流,请联系个人微信「imhefei」
登录后才可以发布评论哦
打开小程序可以发布评论哦