一颗288核的至强6+，为什么能同时运行500个Agent？

过去两年，AI 基础设施行业有一个几乎无人质疑的共识：GPU 决定 AI 的上限。

从大模型训练到推理部署，产业的关注点几乎都围绕着 GPU 展开。显存够不够大、带宽够不够高、Token 吞吐量能达到多少，成为衡量 AI 基础设施能力的核心指标。

但 Agent 的出现，正在改变这套逻辑。

与传统聊天机器人不同，Agent 并不只是完成一次问答，而是需要持续执行任务。它需要调用工具、访问数据库、浏览网页、管理记忆系统，甚至不断创建和调度新的子 Agent 协同完成工作。

当 AI 开始从生成答案转向执行任务，一个长期被 GPU 光环掩盖的角色重新回到了舞台中央—— CPU。

Computex 2026 台北国际电脑展期间，英特尔发布了首款基于 Intel 18A 工艺打造的数据中心处理器——至强 6+（代号 Clearwater Forest）。这款处理器拥有 288 个能效核（E-Core），还拥有一个非常吸引人的特性，在实际测试中，一颗 288 核至强 6+ 可以轻松同时部署 400 至 500 个 Agent。

这背后折射出的，并不仅仅是一颗新 CPU 的发布，而是 Agent 时代 AI 基础设施底层逻辑的一次深刻变化。

一颗 CPU 能同时运行 500 个 Agent 的关键是什么？

如果说 ChatGPT 时代的 AI 更像一个超级搜索框，那么 Agent 时代的 AI 更像一个数字员工。

一个典型 Agent 任务往往包含多个环节：用户提出需求，Agent 拆解任务，调用多个工具，查询知识库，启动多个子 Agent 协同处理，最终汇总结果并返回。整个过程中，真正负责生成内容的依然是 GPU，但大量调度、编排、路由、资源管理以及任务协调工作，则落在了 CPU 身上。

英特尔数据中心集团技术产品总监杨锦文表示：" 随着生成式 AI 带来的发展，CPU 和 GPU 的配比正在从传统的 1:8 逐渐变成 1:4、1:2，甚至 1:1 的场景，在部分强化学习场景中甚至出现了反转。"

1:1，甚至 CPU 比 GPU 更多——这个比例放在三年前几乎不可想象。而这，恰恰是至强 6+ 发布的背景。

对于 Agent 来说，CPU 面临两个全新的挑战。

第一个挑战是密度。企业希望在同样的机架空间内运行更多 Agent，随着 Agent 数量增加，CPU 需要同时管理大量任务调度和资源分配。

第二个挑战是响应速度。Agent 运行过程中会频繁创建、启动和销毁任务实例，如果启动速度过慢，即便拥有足够算力，也难以满足实际业务需求。

英特尔 SoC 架构专家曾义说，" 要满足 Agent 频繁创建、启动和销毁任务实例的特性，希望在同一颗 CPU 上部署更高密度的工作负载。这也是为什么至强 6+ 是首款单 SoC 支持 288 个核的架构，这能够帮助我们以非常好的 TCO（总体拥有成本）去满足 Agent 上的需求。"

为了实现这种密度，英特尔在至强 6+ 上采用了英特尔 Foveros Direct 3D 的三维封装技术。

具体而言，是将基于 Intel 18A 工艺制造的计算 Tile，垂直堆叠在基于 Intel 3 工艺的底层 Tile 之上，再通过 EMIB 封装技术完成各模块之间的互联。整颗处理器由 4 个基于 18A 工艺的计算芯片构成，每个芯片包含 24 个核心，堆叠在 3 颗基底芯片上方，基底芯片则集成了片上网状互联架构、末级缓存和内存子系统——一共 29 个芯片组件，才构成了这颗 288 核的处理器。

内存规格同样针对 Agent 以及传统负载的需求进行了强化：12 通道 DDR5，运行速率最高 8000 MT/s，末级缓存高达 576MB，比上一代产品提升超过 5 倍。96 条 PCIe Gen 5 通道则保证了跨设备的数据流动不会成为瓶颈。

清楚至强 6+ 的特性后，再来看至强 6+ 能够用 1 颗芯片运行数百个 Agent 的原因。杨锦文说，具体能运行多少个 Agent，取决于具体的配置。云服务中常见配置，通常是 "2 个核心配 4G 内存 " 或 "1 个核心配 2G 内存 "。按照这个标准，288 核架构下同时部署 400 至 500 个 Agent" 已经是很常规的操作 "。

他也补充：" 上限取决于客户自身的诉求，以及要在什么样的 SLA（服务等级协议）的服务协议下提供 Agent 服务。"

换句话说，Agent 时代对 CPU 的新要求，不再只是跑得快，而是能同时管理更多任务。

在性能提升方面，至强 6+ 对比上一代产品整体性能最高提升 2.26 倍，每瓦性能最高提升 1.55 倍。与同类竞争产品相比，每线程性能和每线程每瓦性能均高出最多 30%，后者是虚拟化数据中心工作负载最核心的评估维度。

对于使用第二代至强的客户，升级至强 6+ 的理由更加直接，服务器整合比可以达到 9:1，物理空间减少近 80%，能源节省 73%。德意志电信旗下的 T-Systems 已将至强 6+ 定位为其 T-Cloud 私有智能体 AI 基础设施的关键组件，理由正是海量内核数量与出色的能效。

Agent 时代，网络成为瓶颈

过去几年，AI 产业形成了一种惯性思维：GPU 决定一切。

但 Agent 正在让行业意识到一个新的现实——系统能力开始比单芯片能力更重要。

一个 Agent 完成任务的完整流程是：CPU 负责调度，GPU 负责推理，网络负责数据交换，内存负责上下文保存，软件负责资源编排。任何一个环节出现瓶颈，都会影响最终的体验。

英特尔执行副总裁兼数据中心事业部总经理 Kevork Kechichian 指出："AI 的扩展之道，不在于各部件的叠加，而在于系统的协同运作。随着 AI 走向智能体时代，编排、并发与数据流动成为了新的限制因素。"

这也是为什么英特尔在发布至强 6+ 的同时，还发布了全新的以太网 E835 控制器及网络适配器。因为当数百个 Agent 同时工作时，网络已经成为影响效率的重要因素。

长期以来，网卡在 AI 基础设施中的存在感并不高。

但当 Agent 开始频繁调用外部工具和服务，节点之间的东西向流量迅速增长，网络的重要性开始上升。英特尔技术专家 Kevin Cai 告诉雷峰网："AI 的发展正在对网络带宽、时延以及能效提出全新要求，网络已经成为现代 AI 基础设施中的关键组成部分。"

E835 支持最高 200GbE 吞吐量，覆盖 2 × 25GbE、4 × 25GbE、2 × 100GbE、1 × 200GbE 等多种端口配置，可通过英特尔以太网端口配置工具（EPCT）灵活定制。完成首次验证后，仅需两步即可重新配置端口数量和速率。RDMA（RoCEv2/iWARP）支持可绕过 CPU 直接在服务器之间传输数据，动态设备个性化（DDP）技术则进一步降低了数据包处理开销。

E835 真正的差异化在功耗上。英特尔给出的数据是，在满载 200G 线速运行时，E835 的功耗比同类主要竞争对手低 28% 至 47%，最终实现 1.4 至 1.9 倍的每瓦性能优势。对于正在把越来越多算力集中进机架的数据中心来说，同样的散热和供电预算意味着可以部署更高密度的网络。

在电信场景中，E835 还有一个容易被忽略的细节，配合至强 6+ 的高精度时钟提取功能，可以在 5G 专网中以约 10 纳秒的精度实现时钟同步，这个能力过去需要专门的昂贵设备才能实现。爱立信在实际运营商部署中测试至强 6+ 的数据也已印证，在相同核心数下，性能提升 30%，每瓦性能提升 60% 以上，机架功耗下降 38%。

E835 还提供超过 10 年的产品生命周期，这对需要长期稳定运营的电信和企业客户来说，是降低长期 TCO 的重要保障。

为 Agent 而生的 480GB 显存 GPU

如果说至强 6+ 解决的是 Agent 的调度问题，那么英特尔下一代数据中心 GPU ——代号 Crescent Island，则瞄准了另一个瓶颈：内存。

在 Agent 时代，内存正在变成核心竞争力。因为 Agent 不仅需要推理，还需要长期记忆、上下文保存、多模型协同以及频繁切换不同任务。越来越长的上下文窗口以及不断增长的 KV Cache 需求，使得显存容量的重要性迅速提升。

Crescent Island 基于 Xe 3P 架构，最大的差异化不是算力，而是高达 480GB 的超大内存容量。英特尔选择了 LPDDR5x 显存方案，相比 HBM 功耗更低，成本更具竞争力，同时将整卡功耗控制在 350W，可直接部署在现有风冷数据中心中，无需液冷改造。

Crescent Island 是为 Agentic AI 而生。

480GB 意味着什么？杨锦文解释，以 DeepSeek-V4 模型的参数量为例，在 FP8 量化精度下，仅需 4 张 Crescent Island 就可以支持这个模型的完整部署。更大的内存容量还意味着可以同时在显存中保留多个模型，Agent 在不同任务之间切换时无需频繁加载，响应速度会快得多。但如果想获得更理想的运行效果，确实还需要更多的显存容量来支撑。

此外，Crescent Island 支持从原生 FP4/MXFP4 到 FP64 的广泛数据类型，PCIe 兼容的外形规格进一步降低了扩展门槛。目前已有超过 20 家 OEM 和 ODM 厂商正针对该产品进行开发，更多细节将在未来几个月陆续披露。

英特尔技术专家指出，Crescent Island GPU 走是一条极高性价比的路线，非常适合端侧或者是企业的典型场景，比如说一机 8 卡或者是一机 16 卡的部署。

在软件支持方面，Crescent Island GPU 将提供开箱即用的广泛模型软件支持，围绕四个原则构建统一的 Xe 软件栈，即开放、规模化性能、优秀的用户体验以及支持异构基础设施。

从 CPU 公司，到 AI 系统公司

从一个整体的视角看英特尔至强 6+ 的发布，会发现一个有趣的现象，英特尔发布的并不是一款产品，而是一套体系—— CPU、GPU、网络、软件生态同时出现，全部围绕同一个主题展开。

这背后反映出英特尔数据中心战略的一次深层转变。过去的数据中心竞争，本质上是单芯片竞争。而 Agent 时代正在让这种边界消失，因为 Agent 运行需要的是完整系统，CPU 负责控制平面，GPU 负责推理平面，网络负责数据流动，软件负责资源编排，任何单一环节都无法独立完成任务。

软件生态是英特尔在这场竞争中的另一张牌。其统一 Xe 软件栈已支持 PyTorch、vLLM、SGLang 等主流框架，坚持上游优先策略，不构建封闭生态，而是把对英特尔硬件的支持直接贡献到开源框架的上游代码里，每款新硬件发布都提供 Day 0 的即刻支持。未来开发者可以在锐炫 Pro 平台上完成开发，再无缝部署到 Crescent Island 上，前向和后向兼容性都有保障。

有些技术积累，只有到了 Agent 时代才被重新发现价值。曾义提到了一个例子，英特尔多年前推出的 IAA（Intel In-Memory Analytics Accelerator），可以在内存层做压缩和解压缩加速。当时客户兴趣有限，但 Agent 需要频繁快速地换入换出上下文状态，IAA 的价值突然变得清晰。国内几家大的头部客户在与我们进行讨论和演进的时候，这个项目的进展速度也非常快。

CXL 内存扩展同样如此，通过 CXL 在多个 CPU 之间共享大容量内存池，正在成为 Agent 大规模部署时的重要基础设施选项。

在英特尔面向生成式 AI 的产品组合，CPU 依旧是值得关注的重点。雷峰网 ( 公众号：雷峰网 ) 了解到，英特尔下一代至强 CPU 代号 Diamond Rapids，将基于 Intel 18A P 工艺，采用 16 通道内存配置，提供更多 PCIe 通道，预计 2027 年发布。至强 6+ 和 Diamond Rapids 之间保持完整的 Socket 兼容性，客户不需要为了升级重构整套基础设施。

过去几年，AI 行业最大的叙事是 GPU 统治世界。

但 Agent 的出现，正在让产业重新审视 CPU 的价值。

对于英特尔而言，至强 6+ 最重要的意义或许并不只是 288 个核心，也不只是 Intel 18A 首次进入数据中心市场。更重要的是，它正在证明一件事，当 AI 从生成答案走向执行任务，CPU 依然是整个 AI 基础设施不可替代的控制平面。

而随着 Agent 规模持续扩大，CPU、GPU、网络与软件共同构成的系统能力，或许才是下一阶段 AI 竞争真正的核心。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

宙世代

一起剪

相关标签