推理时代来临：GPU神话松动，谁在接管万亿算力市场？

关于 AI 算力，市场过去两年的主流叙事其实很简单：谁能堆出更多 GPU，谁就更接近下一代基础设施的核心。

这个逻辑并没有错，它也确实把英伟达推上了无可争议的王座。但 2026 年的变化在于，AI 已经不只是在 " 训练更大的模型 "，而是在 " 服务更多的人、更多的调用、更多真实业务 "。

【如需和我们交流可扫码添加进社群】

McKinsey 预计，到 2030 年，推理将超过训练，成为 AI 数据中心中的主导工作负载，并占到总数据中心需求的 30% 到 40%；Brookfield 的内部研究更激进，判断到 2030 年约 75% 的 AI 算力需求会来自推理。

两组口径并不完全一致，却指向同一件事：算力市场的关注点，正在从峰值性能，转向持续调用下的效率、功耗、带宽和系统总成本。

连英伟达自己都已经在为推理重写产品逻辑—— GTC 2026 上，它一边把 AI 芯片机会空间上调至 2027 年前至少 1 万亿美元，一边又推出 Vera CPU，并把 Groq 推理加速器纳入 Vera Rubin 平台。

这说明一个更重要的现实：推理时代并不是 " 英伟达失灵 "，而是 " 单靠 GPU 解释一切 " 开始失灵。

从训练到推理：

AI 需求结构的 " 重定价时刻 "

过去两年，AI 基础设施的主线围绕训练展开。大厂愿意为更大的参数、更长的训练周期和更高的模型上限持续投入，GPU 自然成了最直接的受益者。

但 2026 年之后，另一种更难回避的商业现实开始冒头：模型训完以后，真正决定收入规模的，是它能不能被高频调用、低延迟响应，并在成本可控的前提下撑住用户规模。

McKinsey 给出的判断很有代表性：到 2030 年，推理不仅会成为 AI 数据中心里的主导负载，还会占到全部数据中心需求的 30% 到 40%。这意味着资本市场下一步要重估的，不再只是 " 谁能把模型训出来 "，而是 " 谁能把模型跑得起、跑得久、跑得便宜 "。

这也是为什么，英伟达自己并没有把推理当成边角料来处理。路透援引黄仁勋在 GTC 2026 上的表述称，英伟达把 AI 芯片的机会空间上调到 2027 年前至少 1 万亿美元，并明确说出 "Inference inflection has arrived"。

更耐人寻味的是，这次英伟达拿出的不是一块更强的 GPU 那么简单，而是一整套更偏系统化的组合：Vera CPU 负责前置环节，Groq 芯片进入解码环节，BlueField、Spectrum 等网络与数据路径也被重新塞回同一套叙事里。说白了，连英伟达都在用行动承认一件事：推理市场的竞争，不再只是单芯片战争，而是整机架、整系统、整成本结构的战争。

更大的背景是，云厂商并没有缩手，反而在把钱花向更接近商业兑现的环节。路透测算，Alphabet、Microsoft、Amazon 和 Meta 在 2026 年的资本开支预计至少达到 6300 亿美元，主要投向数据中心和 AI 芯片。

ASML 和 TSMC 在 4 月相继释放的信号也很一致：AI 支出并没有熄火，产能反而还在紧张。问题只在于，这笔钱越来越不会只流向 " 最贵的那一类 GPU"，而会流向能帮助客户把每次调用成本压低的整条链路。

推理不是把 GPU 换成 CPU，

而是把单点赛道改成系统生意

很多人喜欢把这件事讲成 "CPU 逆袭 GPU"，但这其实说窄了。推理时代真正发生的，不是谁替代谁，而是谁在系统里重新拿回话语权。CPU、定制 ASIC、网络芯片、内存与互联，过去被 GPU 光环压住的部分，正在重新成为决定总体效率的关键变量。

Intel 和 Google 在 4 月宣布扩大合作时说得非常直接：Xeon 将继续支撑 Google Cloud 在 AI、推理和通用计算上的基础设施，双方还会加深对定制 IPU 的协同开发。

更有意思的是，英伟达自己的 DGX Rubin NVL8，也继续采用 Intel Xeon 6 作为主机 CPU。这说明在推理场景里，CPU 不是退到后台，而是继续负责调度、内存访问、任务编排和系统级 TCO。

Arm 的动作更能说明问题。3 月，Arm 正式发布 Arm AGI CPU，这是它历史上第一次把计算平台真正延伸到量产硅产品，目标直指 agentic AI 数据中心。公开资料显示，Meta、OpenAI 等都出现在其合作阵营中；路透则提到，Arm 预计这颗面向数据中心的新芯片在大约五年后可带来约 150 亿美元年收入。

你可以把这看成 Arm 从 " 卖 IP 抽成 " 走向 " 亲自下场拿系统价值 " 的一次试探，但更重要的是，它折射出整个行业的判断：Agent 工作负载不是只需要加速器，它还需要一层能够高效组织、分配和喂饱这些加速器的通用计算底座。

另一条更锋利的线索，是 ASIC 和定制芯片的抬头。Broadcom 已经把自己从 " 网络芯片公司 " 做成了 AI 基础设施里的关键卖铲人：公司 2026 财年第一财季 AI 相关收入达到 84 亿美元，同比增长 106%，并预计第二财季 AI 半导体收入将增至 107 亿美元。

与此同时，Broadcom 一边与 Meta 把合作延长到多代 AI 加速器，一边又与 Google 签下到 2031 年的长期协议，继续开发后者未来几代定制 AI 芯片。这里最重要的不是某一张订单有多大，而是大客户已经越来越习惯把 " 自研 + 代工设计 + 系统协同 " 当成新的主流路线，而不是继续把所有希望都押在标准化 GPU 上。

Marvell 则更像这条路线上的高弹性标的。公司 2026 财年收入创纪录达到 81.95 亿美元，管理层同时给出更激进的中期展望：2027 财年收入增长超过 30%，2028 财年收入接近 150 亿美元。

4 月中旬又传出 Google 正与 Marvell 洽谈共同开发两款更高效运行 AI 模型的新芯片，其中一款还是与 TPU 配合使用的内存处理单元。无论这笔合作最终是否落地，一个趋势已经非常清楚：推理时代最有想象力的机会，正在从 " 谁卖标准芯片 "，转向 " 谁能把定制算力、内存、互联、封装一起做成最优解 "。

当然，这不意味着 GPU 失势。恰恰相反，GPU 仍然是 AI 基础设施里最重要的核心部件之一，只是它不再天然等于 " 唯一解 "。AMD 与 Meta 在 2 月宣布的 6 吉瓦合作，就说明大客户一边继续重仓 GPU，一边也在主动分散供应风险、降低单一供应商依赖。

今天的现实不是 " 去 GPU"，而是 " 去单一路径 "。对资本市场来说，这个变化的含义非常大：过去押中英伟达就像押中整条主线，未来更像是得押中一组能共同把成本打下来的基础设施组合。

投资范式切换：

从 " 最强性能 " 到 " 最低成本 " 的资本迁移

以前先问性能，再问成本；以后大概率要先问成本，再问性能还能不能撑住规模化。

因为训练是阶段性投入，推理是持续性支出；训练可以容忍极致昂贵，推理要面对的是亿级用户、企业 API 调用、Agent 长链路任务和越来越高的在线时间。只要这一点成立，资本就不会只追逐 " 最强芯片 "，而会去追逐 " 最便宜地跑出结果 " 的整套能力。

从这个角度看，未来更可能跑出来的是三类资产。

第一类，仍然是加速器核心供应商，英伟达和 AMD 都在其中，因为训练和高端推理不可能绕开它们；

第二类，是帮大客户摆脱单一 GPU 依赖、把推理成本做薄的定制芯片与互联公司，Broadcom 和 Marvell 最典型；

第三类，是不一定最热闹、但越来越难被绕开的 CPU 与架构 /IP 层，Intel 和 Arm 分别代表了不同路线下的系统控制权。它们未必都能像英伟达那样拿到夸张溢价，但在推理时代，谁能占住系统中的 " 降本位置 "，谁就更有资格吃到下一轮估值重估。

AI 上半场，市场迷恋的是算力极限；AI 下半场，市场更在意的是把算力变成服务之后，成本还能不能继续往下打。英伟达当然仍然会是核心公司，但它不再是唯一可以承载整个 AI 叙事的那只股票。

因为推理时代的价值，不只藏在 GPU 里，还藏在 CPU 调度、定制 ASIC、网络互联、架构授权，甚至整套系统设计的协同里。谁能让模型在真实商业世界里以更低功耗、更低延迟、更低单次调用成本跑起来，谁才更接近下一阶段的定价权。

AI 基础设施的下一轮赢家，未必是把芯片做得最强的人，而更可能是把 AI 做成基础设施、做成日用品、做成 " 可负担服务 " 的那一群人。

宙世代

一起剪

相关标签