前几天,AI 圈流传着一个 " 骇人 " 的消息:
某大型企业因为没有给员工使用 Claude 设置额度上限,一个月竟跑出了 5 亿美元的 AI 账单!
很多人第一反应是:Claude 怎么这么贵?
但抛开传闻本身,这个话题确实引出了一个值得思考的趋势—— Agent 时代的新挑战。
过去,我们问 AI 一个问题,消耗几百上千个 Token。
现在你说一句:" 帮我找下周三从上海到深圳最便宜的商务舱航班,上午出发,预算 3000 元以内。"
Agent 在背后会疯狂调用大模型、搜索引擎、数据库、知识库、代码执行器等工具,涉及数十次推理、数百次网络通信、大量数据访问。
真正的瓶颈已经不再仅仅是模型本身,而是整个数据中心如何高效协同计算、存储和网络资源。
传统的云计算架构,正在面临一次深刻的重构。
01
Agent 时代,发生了什么变化?
先看几组数据:
据国家数据局分析,Token 消耗量到 2025 年底预计达到每天 100 万亿——一年增长 1000 倍。
今年 4 月,佐治亚理工学院与 Intel 联合研究发现:在数学、编码、问答等 Agent 任务中,CPU 耗时占比最高可达 90%。
另外,Agent 导致序列长度大幅增加,主力模型从 256K 迈向百万级,甚至有研究开始探索亿级序列。长序列在内存管理和 KV 缓存上带来了巨大挑战。
这些变化说明:Agent 时代,我们需要从架构上重新思考整个云基础设施。
面对这个挑战,华为云提出了一个大胆的构想:把整个数据中心看作一台计算机。
在这个构想中,分散在不同服务器、机柜甚至机房里的 CPU、NPU、内存和存储,不再是彼此孤立的资源,而是像一台超级计算机内部的器件一样协同工作。
02
什么是 Agentic 计算机?
简单说,你可以把 Agentic 计算机理解为为 AI 时代从头设计的 " 超级电脑 "。
从技术上看,这个超级电脑就是数据中心本身——它通过一个叫做灵衢(UB)的高速网络,把分散在数百个机柜中的 CPU、NPU、SSD 和内存互联起来,使它们能够像同一台计算机里的设备一样协同工作。

看到这里,很多人会想到英伟达的 NVLink。
两者确实有相似之处,都是通过高速互联突破单机边界。
区别在于:NVLink 主要解决 GPU 与 GPU 之间的高速通信(虽然 NVLink-C2C 也能连接 GPU 与 CPU,但对于更广泛的存储和网络设备,仍需配合 PCIe 或 DPU 使用);而 UB 的目标是实现整个数据中心内计算、存储和网络资源的统一池化。
从业务模式看,这台超级电脑的服务对象不再只是人,更是 AI Agent。
它提供的不是 " 几个 CPU 核心、几张 GPU 卡 ",而是 Token 能力——你说要处理 100 万 Token,系统自动配齐算力和内存,用完即散,像用电一样按度收费。
所以,这不是简单的扩展,而是对数据中心的一次彻底重构。
03
Agentic 计算机优势在哪里?
1. 推理效率很高
现在大模型都流行 MoE(Mixture of Experts,专家混合模型)技术,它的特点是模型里面有很多专家(Expert),但每次推理只激活少数几个专家。
例如,一共 256 个专家,每次只调用 8 个,这样既保持模型能力,又降低计算量。
传统的方案是,一张卡上承担很多专家,像这样:
GPU/NPU
├─ Expert 1
├─ Expert 2
├─ Expert 3
├─ Expert 4
├─ ...
└─ Expert 16
这样做的问题很明显,大量时间花在数据搬运上,显存压力大 ,专家切换频繁 ,资源利用率低 。
你可能会问了,为什么不搞成一卡一专家啊,理论上可以,但如果没有足够快的网络,专家之间的 All-to-All 通信会爆炸式增长,反而拖慢整体速度。
华为云则拥有一个独家的灵衢(UB)超高速网络,可以让 GPU/NPU 之间实现 TB 级的通信,每个专家都可以驻留一个 NPU 上:
NPU1 → Expert 1
NPU2 → Expert 2
NPU3 → Expert 3
NPU128 → Expert 128
这样,整个集群变成一个超级推理引擎,客户感受到的就是吞吐量更高,延迟更低,推理成本更低。
2 支持更长的上下文
以前我们用 AI,主要就是回答问题,4K、8K、16K 的上下文基本够用。
但现在的 Agent 干的活儿,复杂度完全不是一个量级了。
比如你让它 " 帮我分析过去三年的销售数据,并生成未来六个月经营计划 ",这个 Agent 可能要:读取几十份文件、调用多个工具、生成中间结果、保留完整的执行历史……上下文长度轻轻松松就突破百万级,甚至上千万。
所以真正的挑战,已经从算力悄悄转移到了内存。内存瓶颈,正在成为最要命的问题。
熟悉计算机体系结构的同学都知道经典的分级存储:

华为云提出 "Agentic 计算机 ",思路其实是一样的,它用灵衢(UB)超高速网络,把各种存储资源统一连接,形成一套分级存储体系:

在此基础上,华为云推出了弹性内存服务(EMS):先在超节点内部形成 TB 级内存池(例如 1K 超节点可提供 96TB 内存池),今年更进一步在灵衢网络上增加了智能存储单元(SSU)——这是全球首个将存储芯片与 DPU 合一的方案,单盘带宽可达 40GB/s,是普通 SSD 的 4 倍。
EMS 服务因此升级为 " 内存池 +SSU 池 ",提供 PB 级大容量缓存,可保存更长时间的 KV Cache,缓存命中率提升至 95%,成本节省高达 63%。
在传统的推理架构下,GPU 像一个人,他的桌子很小,放不下太多资料。
而在 Agentic 计算机中,GPU 的旁边有个大型资料馆,随时取资料,这样就支持了长期记忆和超长上下文。
3 任务执行速度更快:CPU 重新成为主角
很多人认为,AI 的速度,主要看 GPU 的速度,实际上在 Agentic 时代, Agent ≠ 大模型
因为 Agent 执行过程中,大模型推理只占一部分时间。
例如 " 帮我做市场调研 ", Agent 需要调用 LLM 分析,搜索网页,调用数据库,读取文档,运行代码,生成报告。
这其中 LLM 推理可能只占 10%, 而 CPU 处理,网络 IO,数据处理,工具调用占了 90% 的时间。
可以说在 Agent 时代,CPU 重新变得重要了。
但是传统的云计算在应对这种场景的时候效率是很低的,从 GPU 集群到 CPU 服务器,从 CPU 服务器到数据库,每一步都需要跨越网络,都会产生延迟,数据复制和调度开销。
华为云提出 "Agentic 计算机 " 将 CPU 资源也融合到 UB 高速网络中,对延迟敏感或数据量大的紧耦合场景(如缓存、数据预处理 / 后处理、极速沙箱),则通过 UB 网络提供弹性紧耦合 CPU 算力池,实现 CPU 与 NPU、CPU 与分级内存池之间的低时延、高带宽互通。

这大幅提升了 Agent 任务的运行效率。业界已有模式为了 2.5 倍推理速度付出 6 倍成本,而优化 CPU 路径往往更容易且成本更低。
04
为什么是华为?
有人会问:英伟达、阿里云都很强,为什么偏偏是华为云在做这样一张高速网络?
因为这件事的工程难度远超想象。
英伟达凭借 NVLink 和 InfiniBand 等方案,构建了强大的 AI 算力生态。但过去 NVLink 主要面向 GPU 互联,铜缆在机柜内部效率很高,可一旦要把范围从一块芯片扩展到整个机房,铜缆的信号衰减就成问题。
英伟达也在向光通信努力(例如 NVLink over Optics),但长距离、高密度的数据中心内部光互联,其工程复杂度极高,英伟达在这方面的积累不如华为深厚。
阿里云的优势在软件系统和云平台,难以从芯片到光纤全链路拉通。
而华为在光通信领域积淀极深——从上世纪 90 年代开始,这已是其技术壁垒最高的业务之一,全球独一档。
十几年前,华为就开始围绕数据中心设计芯片,储备了处理器、网络、接口、存储、光模块、高速光互联等核心技术。
六年前,华为正式启动 UB 技术研究,核心理念是 " 对等池化 ":CPU 池、NPU 池、SSD 池、DPU 池、Memory 池,统一编址、统一访问。
华为云给 CPU、NPU、DPU、SSD 这些设备都预留 UB 了位置,这样才能通过统一的 UB 网络实现低时延,高带宽协同。
更重要的是,华为云在整体架构上持续演进:
超节点规模持续扩大:
今年 7 月将基于新一代昇腾 950 发布灵衢智能计算集群 AICS,规模提升到 1024 卡,更大的超节点可以灵活支持万亿模型,并探索大 EP 模式、MLP-Attention 分离、投机解码等高效推理方式。
分布式架构:多网合一
华为云规划了分布式架构,将以往与服务器绑定的 DPU 池化,带宽可在多个 CPU/NPU 间灵活分配,而且将 Scale Out 网络与 VPC 网络归一,简化多网络平面体验,峰值带宽提升至 3.2T。就算网卡故障时,业务不再受单硬件影响。
因此,灵衢(UB)网络并非凭空出现,而是华为在芯片、网络、光通信和云基础设施上几十年积累的一次集中爆发。
某种意义上说,Agent 时代与华为的相遇,并非巧合。
05
谁在使用?
基于华为云 Agentic Infra 进行业务创新的客户已经不少。
比如小红书,此前用华为云 CloudMatrix 384 超节点(内部即为灵衢 UB 网络)支撑大模型推理业务,实现了 " 低时延、高吞吐 "。
超节点支持 MoE 模型的 " 一卡一专家 " 部署,384 个专家并行推理,单卡吞吐量从 600 Tokens/s 提升到 2300 Tokens/s,增量 Token 输出时延(在特定模型和配置下)从 100ms 降至 50ms 以下,算力有效使用率(MFU)相对提升 50% 以上——这充分验证了超节点和 UB 网络在互联网大流量、高并发场景下的工程可靠性。
再如国产万亿参数大模型 Ling-1T,已正式上架华为云平台。Ling-1T 是一个大规模 MoE 模型,与华为云超节点、UB 网络深度互补,有效化解分布式推理中的通信瓶颈。
通过使用包括华为在内的国产芯片训练,Ling-1T 在 MoE 训练中将计算成本从约 635 万元 / 万亿 Token 降至 508 万元,降低约 20%,效果与使用英伟达 H800 等芯片相当。万卡规模的国产算力集群,训练任务稳定性超过 98%。
此外还有芒果 TV、面壁智能、WPS、美宜佳等客户,这里不再详述。
06
总结
面对大模型参数持续增长、序列越来越长、Agent 长时间自主工作,以及世界模型等对大规模高效训练的需求,我们需要构建一个超大规模、PB 级缓存、通算与智算融合、高性能极简网络统一连接的系统。
这就是华为云打造的 "Agentic 计算机 " 内核。
当 AI 能够思考、规划、执行和协作时,计算的重心从单纯的模型推理,转向了计算、存储、网络和工具调用的全局协同。传统云计算解决的是 " 如何连接更多服务器 ",而 Agent 时代需要解决的是 " 如何让整个数据中心像一台计算机一样工作 "。
也许几年后,当我们习惯把复杂任务交给 Agent 完成时,今天看到的 Agentic 计算机概念,就会像当年的云计算一样,成为 AI 时代最重要的基础设施之一。


登录后才可以发布评论哦
打开小程序可以发布评论哦