码农翻身 13小时前
英伟达向左,华为云向右:AI数据中心该走哪条路?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

前几天,AI 圈流传着一个 " 骇人 " 的消息:

某大型企业因为没有给员工使用 Claude 设置额度上限,一个月竟跑出了 5 亿美元的 AI 账单!

很多人第一反应是:Claude 怎么这么贵?

但抛开传闻本身,这个话题确实引出了一个值得思考的趋势—— Agent 时代的新挑战。

过去,我们问 AI 一个问题,消耗几百上千个 Token。

现在你说一句:" 帮我找下周三从上海到深圳最便宜的商务舱航班,上午出发,预算 3000 元以内。"

Agent 在背后会疯狂调用大模型、搜索引擎、数据库、知识库、代码执行器等工具,涉及数十次推理、数百次网络通信、大量数据访问。

真正的瓶颈已经不再仅仅是模型本身,而是整个数据中心如何高效协同计算、存储和网络资源。

传统的云计算架构,正在面临一次深刻的重构。

01

Agent 时代,发生了什么变化?

先看几组数据:

据国家数据局分析,Token 消耗量到 2025 年底预计达到每天 100 万亿——一年增长 1000 倍。

今年 4 月,佐治亚理工学院与 Intel 联合研究发现:在数学、编码、问答等 Agent 任务中,CPU 耗时占比最高可达 90%。

另外,Agent 导致序列长度大幅增加,主力模型从 256K 迈向百万级,甚至有研究开始探索亿级序列。长序列在内存管理和 KV 缓存上带来了巨大挑战。

这些变化说明:Agent 时代,我们需要从架构上重新思考整个云基础设施。

面对这个挑战,华为云提出了一个大胆的构想:把整个数据中心看作一台计算机。

在这个构想中,分散在不同服务器、机柜甚至机房里的 CPU、NPU、内存和存储,不再是彼此孤立的资源,而是像一台超级计算机内部的器件一样协同工作。

02

什么是 Agentic 计算机?

简单说,你可以把 Agentic 计算机理解为为 AI 时代从头设计的 " 超级电脑 "。

从技术上看,这个超级电脑就是数据中心本身——它通过一个叫做灵衢(UB)的高速网络,把分散在数百个机柜中的 CPU、NPU、SSD 和内存互联起来,使它们能够像同一台计算机里的设备一样协同工作。

看到这里,很多人会想到英伟达的 NVLink。

两者确实有相似之处,都是通过高速互联突破单机边界。

区别在于:NVLink 主要解决 GPU 与 GPU 之间的高速通信(虽然 NVLink-C2C 也能连接 GPU 与 CPU,但对于更广泛的存储和网络设备,仍需配合 PCIe 或 DPU 使用);而 UB 的目标是实现整个数据中心内计算、存储和网络资源的统一池化。

从业务模式看,这台超级电脑的服务对象不再只是人,更是 AI Agent。

它提供的不是 " 几个 CPU 核心、几张 GPU 卡 ",而是 Token 能力——你说要处理 100 万 Token,系统自动配齐算力和内存,用完即散,像用电一样按度收费。

所以,这不是简单的扩展,而是对数据中心的一次彻底重构。

03

Agentic 计算机优势在哪里?

1. 推理效率很高

现在大模型都流行 MoE(Mixture of Experts,专家混合模型)技术,它的特点是模型里面有很多专家(Expert),但每次推理只激活少数几个专家。

例如,一共 256 个专家,每次只调用 8 个,这样既保持模型能力,又降低计算量。

传统的方案是,一张卡上承担很多专家,像这样:

GPU/NPU

├─ Expert 1

├─ Expert 2

├─ Expert 3

├─ Expert 4

├─ ...

└─ Expert 16

这样做的问题很明显,大量时间花在数据搬运上,显存压力大 ,专家切换频繁 ,资源利用率低 。

你可能会问了,为什么不搞成一卡一专家啊,理论上可以,但如果没有足够快的网络,专家之间的 All-to-All 通信会爆炸式增长,反而拖慢整体速度。

华为云则拥有一个独家的灵衢(UB)超高速网络,可以让 GPU/NPU 之间实现 TB 级的通信,每个专家都可以驻留一个 NPU 上:

NPU1 → Expert 1

NPU2 → Expert 2

NPU3 → Expert 3

NPU128 → Expert 128

这样,整个集群变成一个超级推理引擎,客户感受到的就是吞吐量更高,延迟更低,推理成本更低。

2 支持更长的上下文

以前我们用 AI,主要就是回答问题,4K、8K、16K 的上下文基本够用。

但现在的 Agent 干的活儿,复杂度完全不是一个量级了。

比如你让它 " 帮我分析过去三年的销售数据,并生成未来六个月经营计划 ",这个 Agent 可能要:读取几十份文件、调用多个工具、生成中间结果、保留完整的执行历史……上下文长度轻轻松松就突破百万级,甚至上千万。

所以真正的挑战,已经从算力悄悄转移到了内存。内存瓶颈,正在成为最要命的问题。

熟悉计算机体系结构的同学都知道经典的分级存储:

华为云提出 "Agentic 计算机 ",思路其实是一样的,它用灵衢(UB)超高速网络,把各种存储资源统一连接,形成一套分级存储体系:

在此基础上,华为云推出了弹性内存服务(EMS):先在超节点内部形成 TB 级内存池(例如 1K 超节点可提供 96TB 内存池),今年更进一步在灵衢网络上增加了智能存储单元(SSU)——这是全球首个将存储芯片与 DPU 合一的方案,单盘带宽可达 40GB/s,是普通 SSD 的 4 倍。

EMS 服务因此升级为 " 内存池 +SSU 池 ",提供 PB 级大容量缓存,可保存更长时间的 KV Cache,缓存命中率提升至 95%,成本节省高达 63%。

在传统的推理架构下,GPU 像一个人,他的桌子很小,放不下太多资料。

而在 Agentic 计算机中,GPU 的旁边有个大型资料馆,随时取资料,这样就支持了长期记忆和超长上下文。

3 任务执行速度更快:CPU 重新成为主角

很多人认为,AI 的速度,主要看 GPU 的速度,实际上在 Agentic 时代, Agent ≠ 大模型

因为 Agent 执行过程中,大模型推理只占一部分时间。

例如 " 帮我做市场调研 ", Agent 需要调用 LLM 分析,搜索网页,调用数据库,读取文档,运行代码,生成报告。

这其中 LLM 推理可能只占 10%, 而 CPU 处理,网络 IO,数据处理,工具调用占了 90% 的时间。

可以说在 Agent 时代,CPU 重新变得重要了。

但是传统的云计算在应对这种场景的时候效率是很低的,从 GPU 集群到 CPU 服务器,从 CPU 服务器到数据库,每一步都需要跨越网络,都会产生延迟,数据复制和调度开销。

华为云提出 "Agentic 计算机 " 将 CPU 资源也融合到 UB 高速网络中,对延迟敏感或数据量大的紧耦合场景(如缓存、数据预处理 / 后处理、极速沙箱),则通过 UB 网络提供弹性紧耦合 CPU 算力池,实现 CPU 与 NPU、CPU 与分级内存池之间的低时延、高带宽互通。

这大幅提升了 Agent 任务的运行效率。业界已有模式为了 2.5 倍推理速度付出 6 倍成本,而优化 CPU 路径往往更容易且成本更低。

04

为什么是华为?

有人会问:英伟达、阿里云都很强,为什么偏偏是华为云在做这样一张高速网络?

因为这件事的工程难度远超想象。

英伟达凭借 NVLink 和 InfiniBand 等方案,构建了强大的 AI 算力生态。但过去 NVLink 主要面向 GPU 互联,铜缆在机柜内部效率很高,可一旦要把范围从一块芯片扩展到整个机房,铜缆的信号衰减就成问题。

英伟达也在向光通信努力(例如 NVLink over Optics),但长距离、高密度的数据中心内部光互联,其工程复杂度极高,英伟达在这方面的积累不如华为深厚。

阿里云的优势在软件系统和云平台,难以从芯片到光纤全链路拉通。

而华为在光通信领域积淀极深——从上世纪 90 年代开始,这已是其技术壁垒最高的业务之一,全球独一档。

十几年前,华为就开始围绕数据中心设计芯片,储备了处理器、网络、接口、存储、光模块、高速光互联等核心技术。

六年前,华为正式启动 UB 技术研究,核心理念是 " 对等池化 ":CPU 池、NPU 池、SSD 池、DPU 池、Memory 池,统一编址、统一访问。

华为云给 CPU、NPU、DPU、SSD 这些设备都预留 UB 了位置,这样才能通过统一的 UB 网络实现低时延,高带宽协同。

更重要的是,华为云在整体架构上持续演进:

超节点规模持续扩大:

今年 7 月将基于新一代昇腾 950 发布灵衢智能计算集群 AICS,规模提升到 1024 卡,更大的超节点可以灵活支持万亿模型,并探索大 EP 模式、MLP-Attention 分离、投机解码等高效推理方式。

分布式架构:多网合一

华为云规划了分布式架构,将以往与服务器绑定的 DPU 池化,带宽可在多个 CPU/NPU 间灵活分配,而且将 Scale Out 网络与 VPC 网络归一,简化多网络平面体验,峰值带宽提升至 3.2T。就算网卡故障时,业务不再受单硬件影响。

因此,灵衢(UB)网络并非凭空出现,而是华为在芯片、网络、光通信和云基础设施上几十年积累的一次集中爆发。

某种意义上说,Agent 时代与华为的相遇,并非巧合。

05

谁在使用?

基于华为云 Agentic Infra 进行业务创新的客户已经不少。

比如小红书,此前用华为云 CloudMatrix 384 超节点(内部即为灵衢 UB 网络)支撑大模型推理业务,实现了 " 低时延、高吞吐 "。

超节点支持 MoE 模型的 " 一卡一专家 " 部署,384 个专家并行推理,单卡吞吐量从 600 Tokens/s 提升到 2300 Tokens/s,增量 Token 输出时延(在特定模型和配置下)从 100ms 降至 50ms 以下,算力有效使用率(MFU)相对提升 50% 以上——这充分验证了超节点和 UB 网络在互联网大流量、高并发场景下的工程可靠性。

再如国产万亿参数大模型 Ling-1T,已正式上架华为云平台。Ling-1T 是一个大规模 MoE 模型,与华为云超节点、UB 网络深度互补,有效化解分布式推理中的通信瓶颈。

通过使用包括华为在内的国产芯片训练,Ling-1T 在 MoE 训练中将计算成本从约 635 万元 / 万亿 Token 降至 508 万元,降低约 20%,效果与使用英伟达 H800 等芯片相当。万卡规模的国产算力集群,训练任务稳定性超过 98%。

此外还有芒果 TV、面壁智能、WPS、美宜佳等客户,这里不再详述。

06

总结

面对大模型参数持续增长、序列越来越长、Agent 长时间自主工作,以及世界模型等对大规模高效训练的需求,我们需要构建一个超大规模、PB 级缓存、通算与智算融合、高性能极简网络统一连接的系统。

这就是华为云打造的 "Agentic 计算机 " 内核。

当 AI 能够思考、规划、执行和协作时,计算的重心从单纯的模型推理,转向了计算、存储、网络和工具调用的全局协同。传统云计算解决的是 " 如何连接更多服务器 ",而 Agent 时代需要解决的是 " 如何让整个数据中心像一台计算机一样工作 "。

也许几年后,当我们习惯把复杂任务交给 Agent 完成时,今天看到的 Agentic 计算机概念,就会像当年的云计算一样,成为 AI 时代最重要的基础设施之一。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

数据中心 ai 计算机 英伟达 华为云
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论