Yole Group 发布的《2025 年处理器产业状况》报告确认了一个里程碑式的节点:2024 年 GPU 销售额首次超越了 CPU。这标志着半导体产业正式迈入了一个由加速计算主导的新周期。在这样一个宏观背景下,一个核心议题浮出水面:当 GPU、NPU 以及 ASIC 这些 " 加速器 " 逐渐接管大规模并行计算任务时,传统的中央处理器会不会被边缘化?或者说,它能在新的计算范式中找到不可替代的位置吗?
GenAI 计算重心的转移并未消除对主机处理器的需求,但却彻底改变了对其性能指标的定义。过去三十年间,CPU 主要依靠提升通用计算频率和推测执行效率来推动摩尔定律。然而,在面对万亿参数模型训练与实时推理的高吞吐量需求时,这种通用设计原则正遭遇能效比与 I/O 瓶颈的双重挑战。
行业正在重新审视 CPU 在 AI 集群里的位置。过去,它只是个简单的逻辑控制器;现在,它正在演变成异构系统的调度中枢,不仅提供大容量内存,还直接负责特定的推理任务。这种转变不仅重构了底层技术架构,也在深刻影响着市场格局和资本流向,从数据中心一直延伸到边缘设备。
01CPU 的困境与 " 转型 "
在传统的以 CPU 为中心的计算架构中,数据处理流程通常由运行在 CPU 上的软件栈进行管理,数据需要在网络接口、CPU 内存和深度学习加速器(DLA)之间进行多次搬运。这种基于软件的数据控制机制在面对 AI 工作负载时,显现出明显的效率缺陷。主要问题体现在并行命令的冲突以及数据路径的拥塞,这直接限制了后端加速器的利用率,导致昂贵的硬件资源处于等待状态,进而推高了系统的整体功耗与成本。
更为深层的技术矛盾,在于处理器微架构的设计哲学。现代 CPU 普遍依赖 " 推测执行 " 技术,通过分支预测来提前执行指令以保持流水线满载,这种机制在处理逻辑复杂的通用程序时表现优异。然而,AI 和机器学习工作负载主要由大规模的向量和矩阵运算构成,且内存访问模式往往呈现出高度的不规则性。在这种场景下,推测执行容易出现预测失败,导致流水线频繁刷新。被丢弃的计算指令不仅未能产生有效产出,反而造成了额外的能源浪费与延迟。
针对通用架构在 AI 负载下的局限性,处理器行业正在经历第一层维度的革新:微架构层面的去推测化。近期获得美国专利商标局专利认证的 " 基于时间的确定性执行模型 " 代表了一种新的设计思路。该模型摒弃了复杂的推测机制,引入带有时间计数器的向量协处理器,采用静态调度策略。在这一架构下,指令仅在数据依赖关系完全解决且操作数就绪的确定时刻,才会被分发至执行单元。
由于执行顺序和时间是预先规划且确定的,芯片设计可以省去复杂的寄存器重命名和乱序执行控制逻辑,从而在矩阵计算等任务中以更低的晶体管开销和功耗实现高可扩展性。这种确定性执行模型在保持与 RISC-V 等标准指令集兼容的同时,从底层逻辑上适配了 AI 计算对高吞吐量和低延迟的刚性需求。
第二层维度的革新则是系统级架构的 " 专用化分流 "。为了解决 I/O 瓶颈,行业开始探索将网络排序、服务质量管理(QoS)及数据预处理功能从主机 CPU 的软件栈中剥离,下沉至专用的硬件逻辑中。这种被称为 " 网络附加处理单元 "(NAPU)的设计理念,通过在处理器内部集成 DSP 核心、视频引擎及 AI 优化的网络接口,实现了数据路径的硬件加速。
这不仅释放了通用 CPU 核心的算力资源,使其能专注于复杂的逻辑调度,还大幅减少了数据在不同组件间的无效移动。此外,主流 x86 处理器也在通过集成 AMX 等专用加速指令集来进行自我进化,优化对 bf16 和 int8 等低精度数据类型的处理能力,从而在不依赖外部加速器的情况下,提升 CPU 自身处理矩阵运算的效率。
02AI 时代,CPU 的应用场景
技术架构的演进直接映射在市场需求的结构性变化上。尽管训练端对 GPU 的需求持续高涨,但推理端市场正呈现出对成本和能效的敏感,这为新型 CPU 提供了广阔的市场空间。根据 Future Market Insights 预测,美国数据中心 CPU 需求将保持 7.4% 的复合年增长率。这并非源于对传统通用算力的渴求,而是由 AI 应用落地过程中的实际 " 经济账 " 所逼出来的。
在推理场景中,并非所有任务都需要昂贵的 GPU 集群。对于大量参数量在 7B 至 13B 之间的中小模型,或者是单用户的实时交互请求,现代服务器 CPU 已经能够提供足够的吞吐量。英特尔的数据显示,双路服务器在运行特定参数规模的 Llama 模型时,可以达到满足实时阅读速度的 Token 生成率。
更为关键的是,根据亚信科技和 Cast AI 的统计,公有云环境中存在大量利用率低于 20% 的闲置 CPU 资源。利用这些已部署的通用算力进行 AI 推理,相比额外采购专用加速器,具有显著的总拥有成本(TCO)优势。因此,在长尾应用和非高并发场景下,CPU 正在加入 AI 推理的主力军,这种 " 够用就好 " 的经济逻辑支撑了数据中心 CPU 市场的持续增长。
除了直接承担推理任务,AI 大模型对内存容量的渴求也重塑了 CPU 的市场价值。随着模型参数量突破万亿级别,GPU 的显存容量日益成为限制推理性能的瓶颈,显存溢出即意味着服务中断。在这一背景下,CPU 的主内存通过 CXL 等高速互联技术与 GPU 共享,实际上充当了加速器的 L4 缓存。
在英伟达的 GH/GB 系列以及华为昇腾的超节点方案中,高性能 CPU 与其搭载的大容量 DDR 内存成为了支撑大模型稳定运行的关键基础设施。这意味着市场对服务器 CPU 的评价标准正在发生改变,内存通道数量、带宽以及与加速器的互联速度,成为了比核心频率更为关键的选型指标。
再把视野放宽到边缘计算和终端设备,市场对 " 异构协同 " 的需求已经超越了单一芯片的性能。在具身智能、智能终端这些领域,系统设计有严格的分工:CPU 负责低延迟的逻辑控制和实时交互,GPU 负责高并发计算,NPU 处理持续运行的背景任务。
行业专家指出,在语音转文字、复杂逻辑调度及实时运动控制等场景中,CPU 的响应速度优于需要批处理才能发挥效率的 GPU。例如在机器人领域,x86 CPU 凭借其在工业控制领域的软件生态积累,配合嵌入式 GPU 构成的主控方案,依然是主流选择。这种异构计算的市场趋势促使 CPU 必须具备更强的协同能力,能够高效地将特定负载卸载给 NPU 或 GPU,同时保持对全局任务的精准调度。
03AI CPU,巨头与后起之秀
在技术转型和市场需求的双重驱动下,处理器产业的竞争格局正在重塑。一方面,专注于 AI 专用架构的初创企业开始冒头;另一方面,传统巨头也在忙着调整战略,进行生态融合。
以色列芯片企业 NeuReality 就是专用化趋势的典型。该公司近期完成了 3500 万美元的 A 轮融资,总融资额达到 4800 万美元,其商业化目标直指 AI 推理服务器市场。NeuReality 推出的 NR1 芯片实际上是对传统 CPU 架构的一次解构与重组,它被定义为 " 网络附加处理单元 "(NAPU)。该芯片集成了 Arm Neoverse 核心,但其核心竞争力在于异构集成的十六个通用 DSP 核心、十六个音频 DSP 核心以及四个视频引擎。
通过这种硬件设计,NeuReality 试图解决传统 CPU 在处理 AI 数据流时的瓶颈,将网络排序、数据排序及同步等任务固化在硬件中。其公开数据显示,相较于传统的 CPU 中心架构,NR1 能够将 AI 应用的总拥有成本改善 10 倍。这种专用化芯片的出现,标志着市场开始接受不再由通用 CPU 主宰一切,而是由专用宿主处理器来管理 AI 流水线的理念。
与此同时,传统芯片巨头也在积极适应这一变化,通过资本运作与技术合作来巩固生态地位。2025 年 9 月,英伟达宣布向英特尔投资 50 亿美元并开展基础设施合作,这一商业动作具有极强的信号意义。尽管英伟达在加速计算领域占据统治地位,但其对 x86 生态的巨额投资表明,在未来相当长的时间内,高性能 x86 CPU 作为异构集群的通用底座和生态入口,其战略价值依然不可撼动。这与其说是妥协,不如说是对现实的承认——再强大的 GPU 集群,也需要强大的 CPU 来调度。
在另一端,Arm 架构正在服务器领域发起强有力的攻势。数据显示,Arm 架构 CPU 在服务器市场的份额持续攀升,预计在 2025 年将占据全球服务器出货量的 21.1%。这一增长不仅得益于 AWS 等云厂商自研 Graviton 系列芯片的推动,也离不开富士通等厂商在欧洲市场的布局。富士通与欧洲云服务商 Scaleway 达成的战略合作,旨在利用基于 Arm 架构的 FUJITSU-MONAKA CPU 平台构建高能效 AI 推理环境,这种方案避开了 GPU 算力的红海竞争,转而在绿色计算和低 TCO 推理领域寻找突破口。
然而,互联网大厂的实际部署策略也显示出市场的复杂性。尽管自研 Arm 芯片在成本上具有优势,但在核心的 AI 训练集群中,为了保证软件生态的绝对兼容性和稳定性,x86 CPU 依然是首选配置。这表明,未来的处理器市场将不再是单一架构的零和博弈,而是进入了 x86 与 Arm 并存、通用 CPU 与专用 AI CPU 互补、CPU 与加速器深度协同的复杂生态阶段。
在这种格局下,CPU 厂商的竞争力将不再单纯取决于核心数量或频率,而在于其架构是否足够开放,是否能高效地融入异构计算的流水线,以及是否能为日益多样化的 AI 负载提供最具经济效益的算力支持。


登录后才可以发布评论哦
打开小程序可以发布评论哦