雷锋网 昨天
一颗288核的至强6+,为什么能同时运行500个Agent?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

过去两年,AI 基础设施行业有一个几乎无人质疑的共识:GPU 决定 AI 的上限。

从大模型训练到推理部署,产业的关注点几乎都围绕着 GPU 展开。显存够不够大、带宽够不够高、Token 吞吐量能达到多少,成为衡量 AI 基础设施能力的核心指标。

但 Agent 的出现,正在改变这套逻辑。

与传统聊天机器人不同,Agent 并不只是完成一次问答,而是需要持续执行任务。它需要调用工具、访问数据库、浏览网页、管理记忆系统,甚至不断创建和调度新的子 Agent 协同完成工作。

当 AI 开始从生成答案转向执行任务,一个长期被 GPU 光环掩盖的角色重新回到了舞台中央—— CPU。

Computex 2026 台北国际电脑展期间,英特尔发布了首款基于 Intel 18A 工艺打造的数据中心处理器——至强 6+(代号 Clearwater Forest)。这款处理器拥有 288 个能效核(E-Core),还拥有一个非常吸引人的特性,在实际测试中,一颗 288 核至强 6+ 可以轻松同时部署 400 至 500 个 Agent。

这背后折射出的,并不仅仅是一颗新 CPU 的发布,而是 Agent 时代 AI 基础设施底层逻辑的一次深刻变化。

一颗 CPU 能同时运行 500 个 Agent 的关键是什么?

如果说 ChatGPT 时代的 AI 更像一个超级搜索框,那么 Agent 时代的 AI 更像一个数字员工。

一个典型 Agent 任务往往包含多个环节:用户提出需求,Agent 拆解任务,调用多个工具,查询知识库,启动多个子 Agent 协同处理,最终汇总结果并返回。整个过程中,真正负责生成内容的依然是 GPU,但大量调度、编排、路由、资源管理以及任务协调工作,则落在了 CPU 身上。

英特尔数据中心集团技术产品总监杨锦文表示:" 随着生成式 AI 带来的发展,CPU 和 GPU 的配比正在从传统的 1:8 逐渐变成 1:4、1:2,甚至 1:1 的场景,在部分强化学习场景中甚至出现了反转。"

1:1,甚至 CPU 比 GPU 更多——这个比例放在三年前几乎不可想象。而这,恰恰是至强 6+ 发布的背景。

对于 Agent 来说,CPU 面临两个全新的挑战。

第一个挑战是密度。企业希望在同样的机架空间内运行更多 Agent,随着 Agent 数量增加,CPU 需要同时管理大量任务调度和资源分配。

第二个挑战是响应速度。Agent 运行过程中会频繁创建、启动和销毁任务实例,如果启动速度过慢,即便拥有足够算力,也难以满足实际业务需求。

英特尔 SoC 架构专家曾义说," 要满足 Agent 频繁创建、启动和销毁任务实例的特性,希望在同一颗 CPU 上部署更高密度的工作负载。这也是为什么至强 6+ 是首款单 SoC 支持 288 个核的架构,这能够帮助我们以非常好的 TCO(总体拥有成本)去满足 Agent 上的需求。"

为了实现这种密度,英特尔在至强 6+ 上采用了英特尔 Foveros Direct 3D 的三维封装技术。

具体而言,是将基于 Intel 18A 工艺制造的计算 Tile,垂直堆叠在基于 Intel 3 工艺的底层 Tile 之上,再通过 EMIB 封装技术完成各模块之间的互联。整颗处理器由 4 个基于 18A 工艺的计算芯片构成,每个芯片包含 24 个核心,堆叠在 3 颗基底芯片上方,基底芯片则集成了片上网状互联架构、末级缓存和内存子系统——一共 29 个芯片组件,才构成了这颗 288 核的处理器。

内存规格同样针对 Agent 以及传统负载的需求进行了强化:12 通道 DDR5,运行速率最高 8000 MT/s,末级缓存高达 576MB,比上一代产品提升超过 5 倍。96 条 PCIe Gen 5 通道则保证了跨设备的数据流动不会成为瓶颈。

清楚至强 6+ 的特性后,再来看至强 6+ 能够用 1 颗芯片运行数百个 Agent 的原因。杨锦文说,具体能运行多少个 Agent,取决于具体的配置。云服务中常见配置,通常是 "2 个核心配 4G 内存 " 或 "1 个核心配 2G 内存 "。按照这个标准,288 核架构下同时部署 400 至 500 个 Agent" 已经是很常规的操作 "。

他也补充:" 上限取决于客户自身的诉求,以及要在什么样的 SLA(服务等级协议)的服务协议下提供 Agent 服务。"

换句话说,Agent 时代对 CPU 的新要求,不再只是跑得快,而是能同时管理更多任务。

在性能提升方面,至强 6+ 对比上一代产品整体性能最高提升 2.26 倍,每瓦性能最高提升 1.55 倍。与同类竞争产品相比,每线程性能和每线程每瓦性能均高出最多 30%,后者是虚拟化数据中心工作负载最核心的评估维度。

对于使用第二代至强的客户,升级至强 6+ 的理由更加直接,服务器整合比可以达到 9:1,物理空间减少近 80%,能源节省 73%。德意志电信旗下的 T-Systems 已将至强 6+ 定位为其 T-Cloud 私有智能体 AI 基础设施的关键组件,理由正是海量内核数量与出色的能效。

Agent 时代,网络成为瓶颈

过去几年,AI 产业形成了一种惯性思维:GPU 决定一切。

但 Agent 正在让行业意识到一个新的现实——系统能力开始比单芯片能力更重要。

一个 Agent 完成任务的完整流程是:CPU 负责调度,GPU 负责推理,网络负责数据交换,内存负责上下文保存,软件负责资源编排。任何一个环节出现瓶颈,都会影响最终的体验。

英特尔执行副总裁兼数据中心事业部总经理 Kevork Kechichian 指出:"AI 的扩展之道,不在于各部件的叠加,而在于系统的协同运作。随着 AI 走向智能体时代,编排、并发与数据流动成为了新的限制因素。"

这也是为什么英特尔在发布至强 6+ 的同时,还发布了全新的以太网 E835 控制器及网络适配器。因为当数百个 Agent 同时工作时,网络已经成为影响效率的重要因素。

长期以来,网卡在 AI 基础设施中的存在感并不高。

但当 Agent 开始频繁调用外部工具和服务,节点之间的东西向流量迅速增长,网络的重要性开始上升。英特尔技术专家 Kevin Cai 告诉雷峰网:"AI 的发展正在对网络带宽、时延以及能效提出全新要求,网络已经成为现代 AI 基础设施中的关键组成部分。"

E835 支持最高 200GbE 吞吐量,覆盖 2 × 25GbE、4 × 25GbE、2 × 100GbE、1 × 200GbE 等多种端口配置,可通过英特尔以太网端口配置工具(EPCT)灵活定制。完成首次验证后,仅需两步即可重新配置端口数量和速率。RDMA(RoCEv2/iWARP)支持可绕过 CPU 直接在服务器之间传输数据,动态设备个性化(DDP)技术则进一步降低了数据包处理开销。

E835 真正的差异化在功耗上。英特尔给出的数据是,在满载 200G 线速运行时,E835 的功耗比同类主要竞争对手低 28% 至 47%,最终实现 1.4 至 1.9 倍的每瓦性能优势。对于正在把越来越多算力集中进机架的数据中心来说,同样的散热和供电预算意味着可以部署更高密度的网络。

在电信场景中,E835 还有一个容易被忽略的细节,配合至强 6+ 的高精度时钟提取功能,可以在 5G 专网中以约 10 纳秒的精度实现时钟同步,这个能力过去需要专门的昂贵设备才能实现。爱立信在实际运营商部署中测试至强 6+ 的数据也已印证,在相同核心数下,性能提升 30%,每瓦性能提升 60% 以上,机架功耗下降 38%。

E835 还提供超过 10 年的产品生命周期,这对需要长期稳定运营的电信和企业客户来说,是降低长期 TCO 的重要保障。

为 Agent 而生的 480GB 显存 GPU

如果说至强 6+ 解决的是 Agent 的调度问题,那么英特尔下一代数据中心 GPU ——代号 Crescent Island,则瞄准了另一个瓶颈:内存。

在 Agent 时代,内存正在变成核心竞争力。因为 Agent 不仅需要推理,还需要长期记忆、上下文保存、多模型协同以及频繁切换不同任务。越来越长的上下文窗口以及不断增长的 KV Cache 需求,使得显存容量的重要性迅速提升。

Crescent Island 基于 Xe 3P 架构,最大的差异化不是算力,而是高达 480GB 的超大内存容量。英特尔选择了 LPDDR5x 显存方案,相比 HBM 功耗更低,成本更具竞争力,同时将整卡功耗控制在 350W,可直接部署在现有风冷数据中心中,无需液冷改造。

Crescent Island 是为 Agentic AI 而生。

480GB 意味着什么?杨锦文解释,以 DeepSeek-V4 模型的参数量为例,在 FP8 量化精度下,仅需 4 张 Crescent Island 就可以支持这个模型的完整部署。更大的内存容量还意味着可以同时在显存中保留多个模型,Agent 在不同任务之间切换时无需频繁加载,响应速度会快得多。但如果想获得更理想的运行效果,确实还需要更多的显存容量来支撑。

此外,Crescent Island 支持从原生 FP4/MXFP4 到 FP64 的广泛数据类型,PCIe 兼容的外形规格进一步降低了扩展门槛。目前已有超过 20 家 OEM 和 ODM 厂商正针对该产品进行开发,更多细节将在未来几个月陆续披露。

英特尔技术专家指出,Crescent Island GPU 走是一条极高性价比的路线,非常适合端侧或者是企业的典型场景,比如说一机 8 卡或者是一机 16 卡的部署。

在软件支持方面,Crescent Island GPU 将提供开箱即用的广泛模型软件支持,围绕四个原则构建统一的 Xe 软件栈,即开放、规模化性能、优秀的用户体验以及支持异构基础设施。

从 CPU 公司,到 AI 系统公司

从一个整体的视角看英特尔至强 6+ 的发布,会发现一个有趣的现象,英特尔发布的并不是一款产品,而是一套体系—— CPU、GPU、网络、软件生态同时出现,全部围绕同一个主题展开。

这背后反映出英特尔数据中心战略的一次深层转变。过去的数据中心竞争,本质上是单芯片竞争。而 Agent 时代正在让这种边界消失,因为 Agent 运行需要的是完整系统,CPU 负责控制平面,GPU 负责推理平面,网络负责数据流动,软件负责资源编排,任何单一环节都无法独立完成任务。

软件生态是英特尔在这场竞争中的另一张牌。其统一 Xe 软件栈已支持 PyTorch、vLLM、SGLang 等主流框架,坚持上游优先策略,不构建封闭生态,而是把对英特尔硬件的支持直接贡献到开源框架的上游代码里,每款新硬件发布都提供 Day 0 的即刻支持。未来开发者可以在锐炫 Pro 平台上完成开发,再无缝部署到 Crescent Island 上,前向和后向兼容性都有保障。

有些技术积累,只有到了 Agent 时代才被重新发现价值。曾义提到了一个例子,英特尔多年前推出的 IAA(Intel In-Memory Analytics Accelerator),可以在内存层做压缩和解压缩加速。当时客户兴趣有限,但 Agent 需要频繁快速地换入换出上下文状态,IAA 的价值突然变得清晰。国内几家大的头部客户在与我们进行讨论和演进的时候,这个项目的进展速度也非常快。

CXL 内存扩展同样如此,通过 CXL 在多个 CPU 之间共享大容量内存池,正在成为 Agent 大规模部署时的重要基础设施选项。

在英特尔面向生成式 AI 的产品组合,CPU 依旧是值得关注的重点。雷峰网 ( 公众号:雷峰网 ) 了解到,英特尔下一代至强 CPU 代号 Diamond Rapids,将基于 Intel 18A P 工艺,采用 16 通道内存配置,提供更多 PCIe 通道,预计 2027 年发布。至强 6+ 和 Diamond Rapids 之间保持完整的 Socket 兼容性,客户不需要为了升级重构整套基础设施。

过去几年,AI 行业最大的叙事是 GPU 统治世界。

但 Agent 的出现,正在让产业重新审视 CPU 的价值。

对于英特尔而言,至强 6+ 最重要的意义或许并不只是 288 个核心,也不只是 Intel 18A 首次进入数据中心市场。更重要的是,它正在证明一件事,当 AI 从生成答案走向执行任务,CPU 依然是整个 AI 基础设施不可替代的控制平面。

而随着 Agent 规模持续扩大,CPU、GPU、网络与软件共同构成的系统能力,或许才是下一阶段 AI 竞争真正的核心。

雷峰网原创文章,未经授权禁止转载。详情见转载须知

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 英特尔 数据中心 gpu 基础设施
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论