智东西 昨天
破解300倍算力增长瓶颈,华为云Tokens服务全面接入384超节点
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 王涵

编辑 | 漠影

智东西 8 月 27 日报道,今天下午,在第四届 828 B2B 企业节开幕式上,华为云宣布其 Tokens 服务全面接入 CloudMatrix384 超节点。

借助 xDeepServe 架构创新,该服务单芯片最高可实现 2400TPS 的吞吐量与 50ms 的 TPOT(Token 处理时延)。

一、中国日均 Token 消耗量暴增超 300 倍,接入超节点突破性能瓶颈

数据显示,过去 18 个月中国 AI 算力需求呈指数级增长。2024 年初中国日均 Token 消耗量为 1000 亿,截至 2025 年 6 月底,这一数据已突破 30 万亿,1 年半内增长超 300 倍,这对算力基础设施提出了更高要求。

2025 年 3 月,华为云在传统按卡时计费模式基础上,推出基于 MaaS(模型即服务)的 Tokens 服务,提供在线版、进线版、离线版及尊享版等多种规格,适配不同应用场景的性能与时延需求。

此次接入 CloudMatrix384 超节点后,依托超节点原生的 xDeepServe 框架,Tokens 服务吞吐量从 2025 年初的 1920TPS 提升至 2400TPS。

华为云认为,大算力构建需全栈创新,涵盖硬件、软件、算子、存储、推理框架及超节点等环节。

其中,CloudMatrix384 超节点通过计算架构创新突破性能瓶颈;CANN 昇腾硬件优化算子与通信策略;EMS 弹性内存存储打破 AI 内存限制;xDeepServe 分布式推理框架则以架构提升算力效率。

二、xDeepServe 架构拆解模型,优化算力调用

作为 CloudMatrix384 超节点的原生服务,xDeepServe 采用 Transformerless 极致分离架构,将 MoE 大模型拆解为 Attention、FFN、Expert 三个可独立伸缩的微模块,分配至不同 NPU 同步处理,再通过微秒级 XCCL 通信库与 FlowServe 自研推理引擎整合,形成 Tokens 处理 " 流水线 "。

经优化后,单卡吞吐从非超节点的 600tokens/s 提升至 2400tokens/s。

CANN 作为硬件加速计算中间层,包含算子库、XCCL 高性能通信库等组件。其中 XCCL 专为超节点大语言模型服务设计,可发挥 CloudMatrix384 扩展后 UB 互联架构的潜力,为架构分离提供带宽与时延支持。

FlowServe 分布式引擎将 CloudMatrix384 划分为自治的 DP 小组,每个小组配备 Tokenizer、执行器、RTC 缓存与网络栈,可实现千卡并发无拥堵。

华为云透露,xDeepServe 已实现 MA 分离,下一步计划将 Attention、MoE、Decode 改造为数据流,并扩展至多台超节点,以线性提升推理吞吐。

三、支持主流大模型与 Agent 平台,已落地多行业场景

目前,华为云 MaaS 服务已支持 DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan 等主流大模型,以及 versatile、Dify、扣子等主流 Agent 平台。

在模型性能优化方面,文生图大模型通过 Int8 量化、旋转位置编码融合算子等方式,在轻微损失画质下,出图速度达到业界主流平台的 2 倍,最大支持 2K×2K 尺寸。

文生视频大模型通过量化、通算并行等手段,降低延迟与显存占用,性能较友商提升 3.5 倍。

应用层面,华为云已与超 100 家伙伴合作,在调研分析、内容创作、智慧办公、智能运维等领域开发 AI Agent。

例如,基于 MaaS 平台的今日人才数智员工解决方案,集成自然语言处理、机器学习等技术,可提升服务效率与客户满意度;北京方寸无忧科技开发的无忧智慧公文解决方案,能助力政企办公智能化转型。

结语:华为云超节点让算力更适配 AI 应用需求

当前,AI 技术正从模型研发向产业渗透加速迈进,而算力作为核心基础设施,其性能、成本与适配能力将直接决定着产业智能化的推进速度。

随着后续更多超节点扩展计划的推进,以及更多行业场景的深度适配,这类 AI 基础设施的升级,或将进一步降低企业接入 AI 技术的门槛,让技术更加深度地融入生活。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 华为云 吞吐量
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论