今年的数据中心采购出现了一个反常情况,CPU 开始缺货了。
英特尔市场营销集团副总裁、中国区总经理郭威在发布会上给出了一组数字:2026 年一季度,中国 AI 算力需求同比爆涨 417%;与此同时,CPU 与 GPU 的配比已经从过去的 1:8,逐步走向 1:4、1:2,部分场景甚至达到了 1:1。
这不是宏观预测,是正在发生的现实。英特尔数据中心集团副总裁、中国区总经理陈葆立透露,某国内头部大模型厂商从去年到今年,CPU 需求增长了 5 倍。

英特尔数据中心集团副总裁、中国区总经理陈葆立
需求从哪里来?答案是 Agent。
与传统推理不同,Agent 不是完成一次问答就结束,而是持续执行任务——调度工具、查询数据库、管理记忆、创建子 Agent。这些工作绝大多数落在 CPU 身上,不是 GPU。Agent 越多,CPU 的压力越大,缺货也就不难理解了。
近期英特尔在北京举办数据中心创新日,发布首款基于 Intel 18A 制程的数据中心处理器至强 6+。与 Computex 发布时侧重产品能力不同,这次发布会的重心更落地,英特尔用算力、存力、连接力、保障力,联合腾讯云、金山云、阿里云等合作伙伴,回答了至强 6+ 究竟在中国如何把 Agentic AI 变成生产力?
其中还有两把很多人没注意到的「金钥匙」,是 CPU 缺货背景下让 Agentic AI 落地的关键,也是英特尔在 Agentic AI 时代独特竞争力的体现。
一颗至强 6+ 能同时跑逾 1000 个 Agent,靠的是什么?
陈葆立在发布会上给出了一个数字:单颗至强 6+ 可以支持超过 1000 个智能体的稳定部署。
此前雷峰网提到,按云服务常见配置(2 核 4GB 或 1 核 2GB),一颗至强 6+ 可同时部署约 400 至 500 个 Agent。而这次超过 1000 个,是基于单核运行 3 到 4 个 Agent 实例的软件调度优化方案——在更激进的密度配置下实现的上限,两个数字口径不同,并不矛盾。
背后的逻辑是核心密度。至强 6+ 最高拥有 288 个能效核(E-Core),通过软件调度,每个物理核心可以同时分身运行 3 到 4 个 Agent 实例。对于 " 大量小步工作 " 这类典型的 Agent 任务——调度、路由、工具调用——高核密度恰恰是最合适的配置。

陈葆立点出了一个容易被忽略的问题:" 单靠很多个轻量核是不够的。"

Agent 本体在 E 核上运行,但当它真正开始执行任务时,触发的工作负载完全不同。比如 Agent 去调用数据库,数据库本身是极度消耗单核性能的应用,背后需要的是高性能 P 核。陈葆立举了一个例子:某家做 SAP HANA 的企业,用 Agent 大量调度 SAP 任务,瞬间触发的是密集的 P 核计算需求。
这是英特尔至强同时提供 E 核(至强 6+)和 P 核(至强 6)两条产品线的底层逻辑—— Agent 的工作负载是异构的," 单一架构打天下 " 在这里行不通。
支撑这套系统运转的,是英特尔为 Agentic 时代打造的算力、存力、连接力、保障力四力。当然在算力的部分,至强 6+ 除了是首款采用 Intel 18A 的服务器 CPU,以及拥有高达 288 个核心之外,有两个容易被忽略的 " 杀手锏 " 技术。

至强 6+ 的两把「金钥匙」:QAT 和 IAA 打开 KV Cache 瓶颈
英特尔中国区技术部总经理高宇强调:" 至强 6 系列拥有的 QAT(数据压缩加速引擎)和 IAA(内存分析加速器),是打开真正普及 Agentic AI 的两把金钥匙。"
这两个技术在产品发布环节没有被重点解释,但 Agent 时代它们变成了刚需。
问题的根源在 KV Cache。现在主流大模型都支持百万上下文,一个用户的 KV Cache 就能占到 10GB 以上(压缩后)。用户数一多,GPU 显存很快被占满,必须把 KV Cache 卸载到内存甚至 SSD 上。内存贵、SSD 也贵——这是当下 AI 基础设施的成本痛点之一。
陈葆立分享," 跟 SSD 厂商聊英特尔的 QAT 和 IAA,本来以为对方会高兴,结果对方说,你们最好把至强的压缩功能发挥好,让需求控制一下,我现在每天被追着交不出货。"

QAT 和 IAA 并非英特尔为应对这轮内存紧缺专门研发的新技术,而是多代产品里就有的能力——只是 Agent 时代来了,它们的价值才被充分激活。
QAT(数据压缩加速引擎)解决的是 SSD 的问题。通过硬件级压缩,KV Cache 在存盘前先压缩,压缩比至少 50% —— 10GB 直接变 5GB。阿里云给出的实测数据显示,使用 QAT 之后,压缩带宽提升 400%,同时减少了 75% 的通用 CPU 核数占用。
IAA(内存分析加速器)解决的是内存的问题。它对内存中的数据做实时压缩,且解压是硬件级完成,重新加载时不增加延迟。IAA 让 Agent 启动时占用的内存更小,同样的内存可以跑更多的 Agent。英特尔给出的数据是,在沙箱场景中,IAA 可以将 snapshot 延迟降低最高 60%,沙箱冷启动时间提升 30%。
高宇说,"这两个技术在没有智能体的时候英特尔就已经推出,只是以前大家觉得改软件麻烦,需求不迫切。今天 Agentic 时代来了,大家发现这个可以帮我们省下几千、几万块,就有了改软件的动力。"
新华三存储产品线首席产品经理王其勇分享了 X20000 存储平台借助至强 6+ 的落地成绩:在推理场景中,TTFT(首 Token 时延)和 TPOT(每 Token 生成时间)性能提升最高达 10 倍以上。存储成本方面,协议融合让存储成本下降 60%,数据准备时间减少 35%。

把 Agentic AI 从技术实力变成生产力
技术实力如何转换成最终的生产力,是数据中心创新日值得重点关注的内容。
腾讯云计算产品运营总监周驰分享,腾讯曾在腾讯大厦楼下举办免费帮大家 " 养虾 " 的活动。以往这类开发者活动来的大多数是程序员,但这一次,开发者反而是少数。
" 我们看到有律师、有农民,上到七八十岁的老人,下到 10 岁的小朋友,他们都能讲出来我想用龙虾干什么。" 周驰说。
这个破圈现象,是周驰解读 CPU 需求增长时反复强调的背景。他认为,CPU:GPU 的比例变化不应该只看数据中心内部,而要看全球业务量——大量原本 ROI 不合算、开发商不屑于做的业务,正在因为 AI 被自动化搬上了云和各类计算平台。这些自动化工作不需要很多 GPU,需要的是调度能力,以及持续的高并发去执行大量的小脚本。
腾讯云是英特尔至强 6+(Sierra Forest 系列)AP 平台的全球独占合作伙伴,已将其广泛应用在微信、腾讯广告检索、腾讯会议等业务场景。新一代实例将充分利用至强 6+ 在 288 核、576MB 三级缓存方面的优势,支撑更高并发的 Agent 工作负载。

金山云给出的是更直接的数字。基于至强 6+ 的第十代云服务器 SE10,AI Agent 应用部署密度提升 80% 以上,Nginx 高并发场景吞吐提升最高 33%,MySQL CPU 性能提升 52%,Redis 时延降低约 20%。金山云计算研发负责人杨峰说," 基于最新一代 CPU 实例,它重新定义了单服务器的性能边界。"
火山引擎则在安全维度给出了落地验证。依托英特尔至强处理器和 TDX 技术,火山引擎 AICC 机密计算平台实现了多租户环境中 AI 数据与计算资源的全生命周期隔离——对于把敏感业务数据搬上云的企业来说,这是数据安全的硬保障。
英特尔在 Agent 时代的独特竞争力
陈葆立说:" 机会是留给有准备的人的。"
从 GPU 主导一切,到 CPU 在 Agent 时代重回 C 位,英特尔和腾讯云、金山云这批长期合作的伙伴,正在把这个判断变成可以量化的生产力数字。能够迅速抓住 Agent 时代的机遇,靠的不是押对了风口。
IAA 做了多年,当年客户兴趣有限,因为应用场景不需要;QAT 也是如此,用的人不多。但 Agent 时代来了,这两个技术突然变成了稀缺能力。多代积累,等到了它该被用起来的时候。
这种积累还在延续。雷峰网了解到,英特尔下一代至强 CPU 代号 Diamond Rapids,将基于 Intel 18A P 工艺,2027 年发布,与至强 6+ 保持完整的 Socket 兼容性,客户不需要为升级重构整套基础设施。

高宇把今天 AI 数据中心里的超级工厂比喻成三台机器,"GPU 集群、CPU 集群、高性能存储集群。驱动这三台机器的,都是同一个东西——英特尔至强处理器。"
过去几年,AI 行业最大的叙事是 GPU 统治世界。但 Agent 的出现,正在让产业重新发现 CPU 的价值。
腾讯云、金山云、阿里云这批中国伙伴给出的落地数字,是比 PPT 更有说服力的答案:至强 6+ 能不能在 Agent 时代吃到这波红利,现在已经不只是趋势预测,而是正在发生的事实。


登录后才可以发布评论哦
打开小程序可以发布评论哦