英伟达向左,华为云向右:AI数据中心该走哪条路?

前几天，AI 圈流传着一个 " 骇人 " 的消息：

某大型企业因为没有给员工使用 Claude 设置额度上限，一个月竟跑出了 5 亿美元的 AI 账单！

很多人第一反应是：Claude 怎么这么贵？

但抛开传闻本身，这个话题确实引出了一个值得思考的趋势—— Agent 时代的新挑战。

过去，我们问 AI 一个问题，消耗几百上千个 Token。

现在你说一句：" 帮我找下周三从上海到深圳最便宜的商务舱航班，上午出发，预算 3000 元以内。"

Agent 在背后会疯狂调用大模型、搜索引擎、数据库、知识库、代码执行器等工具，涉及数十次推理、数百次网络通信、大量数据访问。

真正的瓶颈已经不再仅仅是模型本身，而是整个数据中心如何高效协同计算、存储和网络资源。

传统的云计算架构，正在面临一次深刻的重构。

Agent 时代，发生了什么变化？

先看几组数据：

据国家数据局分析，Token 消耗量到 2025 年底预计达到每天 100 万亿——一年增长 1000 倍。

今年 4 月，佐治亚理工学院与 Intel 联合研究发现：在数学、编码、问答等 Agent 任务中，CPU 耗时占比最高可达 90%。

另外，Agent 导致序列长度大幅增加，主力模型从 256K 迈向百万级，甚至有研究开始探索亿级序列。长序列在内存管理和 KV 缓存上带来了巨大挑战。

这些变化说明：Agent 时代，我们需要从架构上重新思考整个云基础设施。

面对这个挑战，华为云提出了一个大胆的构想：把整个数据中心看作一台计算机。

在这个构想中，分散在不同服务器、机柜甚至机房里的 CPU、NPU、内存和存储，不再是彼此孤立的资源，而是像一台超级计算机内部的器件一样协同工作。

什么是 Agentic 计算机？

简单说，你可以把 Agentic 计算机理解为为 AI 时代从头设计的 " 超级电脑 "。

从技术上看，这个超级电脑就是数据中心本身——它通过一个叫做灵衢（UB）的高速网络，把分散在数百个机柜中的 CPU、NPU、SSD 和内存互联起来，使它们能够像同一台计算机里的设备一样协同工作。

看到这里，很多人会想到英伟达的 NVLink。

两者确实有相似之处，都是通过高速互联突破单机边界。

区别在于：NVLink 主要解决 GPU 与 GPU 之间的高速通信（虽然 NVLink-C2C 也能连接 GPU 与 CPU，但对于更广泛的存储和网络设备，仍需配合 PCIe 或 DPU 使用）；而 UB 的目标是实现整个数据中心内计算、存储和网络资源的统一池化。

从业务模式看，这台超级电脑的服务对象不再只是人，更是 AI Agent。

它提供的不是 " 几个 CPU 核心、几张 GPU 卡 "，而是 Token 能力——你说要处理 100 万 Token，系统自动配齐算力和内存，用完即散，像用电一样按度收费。

所以，这不是简单的扩展，而是对数据中心的一次彻底重构。

Agentic 计算机优势在哪里？

1. 推理效率很高

现在大模型都流行 MoE（Mixture of Experts，专家混合模型）技术，它的特点是模型里面有很多专家（Expert），但每次推理只激活少数几个专家。

例如，一共 256 个专家，每次只调用 8 个，这样既保持模型能力，又降低计算量。

传统的方案是，一张卡上承担很多专家，像这样：

GPU/NPU

├─ Expert 1

├─ Expert 2

├─ Expert 3

├─ Expert 4

├─ ...

└─ Expert 16

这样做的问题很明显，大量时间花在数据搬运上，显存压力大，专家切换频繁，资源利用率低。

你可能会问了，为什么不搞成一卡一专家啊，理论上可以，但如果没有足够快的网络，专家之间的 All-to-All 通信会爆炸式增长，反而拖慢整体速度。

华为云则拥有一个独家的灵衢（UB）超高速网络，可以让 GPU/NPU 之间实现 TB 级的通信，每个专家都可以驻留一个 NPU 上：

NPU1 → Expert 1

NPU2 → Expert 2

NPU3 → Expert 3

NPU128 → Expert 128

这样，整个集群变成一个超级推理引擎，客户感受到的就是吞吐量更高，延迟更低，推理成本更低。

2 支持更长的上下文

以前我们用 AI，主要就是回答问题，4K、8K、16K 的上下文基本够用。

但现在的 Agent 干的活儿，复杂度完全不是一个量级了。

比如你让它 " 帮我分析过去三年的销售数据，并生成未来六个月经营计划 "，这个 Agent 可能要：读取几十份文件、调用多个工具、生成中间结果、保留完整的执行历史……上下文长度轻轻松松就突破百万级，甚至上千万。

所以真正的挑战，已经从算力悄悄转移到了内存。内存瓶颈，正在成为最要命的问题。

熟悉计算机体系结构的同学都知道经典的分级存储：

华为云提出 "Agentic 计算机 "，思路其实是一样的，它用灵衢（UB）超高速网络，把各种存储资源统一连接，形成一套分级存储体系：

在此基础上，华为云推出了弹性内存服务（EMS）：先在超节点内部形成 TB 级内存池（例如 1K 超节点可提供 96TB 内存池），今年更进一步在灵衢网络上增加了智能存储单元（SSU）——这是全球首个将存储芯片与 DPU 合一的方案，单盘带宽可达 40GB/s，是普通 SSD 的 4 倍。

EMS 服务因此升级为 " 内存池 +SSU 池 "，提供 PB 级大容量缓存，可保存更长时间的 KV Cache，缓存命中率提升至 95%，成本节省高达 63%。

在传统的推理架构下，GPU 像一个人，他的桌子很小，放不下太多资料。

而在 Agentic 计算机中，GPU 的旁边有个大型资料馆，随时取资料，这样就支持了长期记忆和超长上下文。

3 任务执行速度更快：CPU 重新成为主角

很多人认为，AI 的速度，主要看 GPU 的速度，实际上在 Agentic 时代， Agent ≠ 大模型

因为 Agent 执行过程中，大模型推理只占一部分时间。

例如 " 帮我做市场调研 "， Agent 需要调用 LLM 分析，搜索网页，调用数据库，读取文档，运行代码，生成报告。

这其中 LLM 推理可能只占 10%，而 CPU 处理，网络 IO，数据处理，工具调用占了 90% 的时间。

可以说在 Agent 时代，CPU 重新变得重要了。

但是传统的云计算在应对这种场景的时候效率是很低的，从 GPU 集群到 CPU 服务器，从 CPU 服务器到数据库，每一步都需要跨越网络，都会产生延迟，数据复制和调度开销。

华为云提出 "Agentic 计算机 " 将 CPU 资源也融合到 UB 高速网络中，对延迟敏感或数据量大的紧耦合场景（如缓存、数据预处理 / 后处理、极速沙箱），则通过 UB 网络提供弹性紧耦合 CPU 算力池，实现 CPU 与 NPU、CPU 与分级内存池之间的低时延、高带宽互通。

这大幅提升了 Agent 任务的运行效率。业界已有模式为了 2.5 倍推理速度付出 6 倍成本，而优化 CPU 路径往往更容易且成本更低。

为什么是华为？

有人会问：英伟达、阿里云都很强，为什么偏偏是华为云在做这样一张高速网络？

因为这件事的工程难度远超想象。

英伟达凭借 NVLink 和 InfiniBand 等方案，构建了强大的 AI 算力生态。但过去 NVLink 主要面向 GPU 互联，铜缆在机柜内部效率很高，可一旦要把范围从一块芯片扩展到整个机房，铜缆的信号衰减就成问题。

英伟达也在向光通信努力（例如 NVLink over Optics），但长距离、高密度的数据中心内部光互联，其工程复杂度极高，英伟达在这方面的积累不如华为深厚。

阿里云的优势在软件系统和云平台，难以从芯片到光纤全链路拉通。

而华为在光通信领域积淀极深——从上世纪 90 年代开始，这已是其技术壁垒最高的业务之一，全球独一档。

十几年前，华为就开始围绕数据中心设计芯片，储备了处理器、网络、接口、存储、光模块、高速光互联等核心技术。

六年前，华为正式启动 UB 技术研究，核心理念是 " 对等池化 "：CPU 池、NPU 池、SSD 池、DPU 池、Memory 池，统一编址、统一访问。

华为云给 CPU、NPU、DPU、SSD 这些设备都预留 UB 了位置，这样才能通过统一的 UB 网络实现低时延，高带宽协同。

更重要的是，华为云在整体架构上持续演进：

超节点规模持续扩大：

今年 7 月将基于新一代昇腾 950 发布灵衢智能计算集群 AICS，规模提升到 1024 卡，更大的超节点可以灵活支持万亿模型，并探索大 EP 模式、MLP-Attention 分离、投机解码等高效推理方式。

分布式架构：多网合一

华为云规划了分布式架构，将以往与服务器绑定的 DPU 池化，带宽可在多个 CPU/NPU 间灵活分配，而且将 Scale Out 网络与 VPC 网络归一，简化多网络平面体验，峰值带宽提升至 3.2T。就算网卡故障时，业务不再受单硬件影响。

因此，灵衢（UB）网络并非凭空出现，而是华为在芯片、网络、光通信和云基础设施上几十年积累的一次集中爆发。

某种意义上说，Agent 时代与华为的相遇，并非巧合。

谁在使用？

基于华为云 Agentic Infra 进行业务创新的客户已经不少。

比如小红书，此前用华为云 CloudMatrix 384 超节点（内部即为灵衢 UB 网络）支撑大模型推理业务，实现了 " 低时延、高吞吐 "。

超节点支持 MoE 模型的 " 一卡一专家 " 部署，384 个专家并行推理，单卡吞吐量从 600 Tokens/s 提升到 2300 Tokens/s，增量 Token 输出时延（在特定模型和配置下）从 100ms 降至 50ms 以下，算力有效使用率（MFU）相对提升 50% 以上——这充分验证了超节点和 UB 网络在互联网大流量、高并发场景下的工程可靠性。

再如国产万亿参数大模型 Ling-1T，已正式上架华为云平台。Ling-1T 是一个大规模 MoE 模型，与华为云超节点、UB 网络深度互补，有效化解分布式推理中的通信瓶颈。

通过使用包括华为在内的国产芯片训练，Ling-1T 在 MoE 训练中将计算成本从约 635 万元 / 万亿 Token 降至 508 万元，降低约 20%，效果与使用英伟达 H800 等芯片相当。万卡规模的国产算力集群，训练任务稳定性超过 98%。

此外还有芒果 TV、面壁智能、WPS、美宜佳等客户，这里不再详述。

总结

面对大模型参数持续增长、序列越来越长、Agent 长时间自主工作，以及世界模型等对大规模高效训练的需求，我们需要构建一个超大规模、PB 级缓存、通算与智算融合、高性能极简网络统一连接的系统。

这就是华为云打造的 "Agentic 计算机 " 内核。

当 AI 能够思考、规划、执行和协作时，计算的重心从单纯的模型推理，转向了计算、存储、网络和工具调用的全局协同。传统云计算解决的是 " 如何连接更多服务器 "，而 Agent 时代需要解决的是 " 如何让整个数据中心像一台计算机一样工作 "。

也许几年后，当我们习惯把复杂任务交给 Agent 完成时，今天看到的 Agentic 计算机概念，就会像当年的云计算一样，成为 AI 时代最重要的基础设施之一。

宙世代

一起剪

相关标签