告别“通用算力” 谷歌为什么要做算力专属化？

【CNMO 科技消息】近日，谷歌在 Cloud Next 2026 大会上发布第八代 TPU，首次将训练与推理任务拆分为两款独立芯片—— TPU 8t 专攻大规模训练，TPU 8i 专司高效推理。这一 " 训推分离 " 的硬件设计，标志着谷歌在算力专属化道路上迈出了最彻底的一步，引发了业界对 AI 算力未来发展方向的深度思考。

谷歌 TPU 8i

过去十年，英伟达 GPU 凭借通用性与 CUDA 生态几乎垄断 AI 算力市场，成为全球 AI 发展的核心驱动力。然而，谷歌却始终坚持从零开始自研 TPU，从 2015 年内部部署到如今全面对外服务，走了一条截然不同的技术路线，展现了其在 AI 基础设施领域的长期战略眼光。

如今，推理需求即将占据 AI 总算力的 70% 以上，行业正站在算力范式的拐点。从聊天机器人到 AI 代理再到数字员工，每一次应用跃迁都意味着推理负载的指数级增长。与此同时，微软、亚马逊、Meta 纷纷入局自研芯片，AI 算力市场正从单极走向多极。

那么，谷歌为何选择走算力专属化这条路？

从通用到专用

谷歌将 TPU 拆分为训练与推理两款独立芯片，根本驱动力来自 AI 计算需求的结构性转变。巴克莱预测，到 2026 年推理计算需求将占 AI 总算力的 70% 以上，是训练需求的 4.5 倍，市场规模达 1450 亿美元，正式取代训练芯片成为行业核心引擎。

谷歌 TPU 8i

德勤同期报告指出，2026 年全球 AI 算力芯片市场突破 2800 亿美元，推理芯片需求首次超越训练芯片。巴克莱预计 2028 年英伟达推理芯片份额将从目前的 80% 降至约 50%，主要原因是云服务商推出定制 ASIC 芯片以提升推理市场占有率。

进入 AI 代理时代后，推理需求进一步激增。巴克莱将 AI 发展分为三个阶段：当前 " 聊天机器人时代 "，2025-2026 年 "AI 代理时代 "，以及 2027 年后 " 数字员工时代 "。代理时代中，AI 智能体使单交互 Token 消耗暴增 20-30 倍，多步骤推理需求呈指数级增长。

在此背景下，通用 GPU 的局限日益突出。其数千个并行计算单元和复杂内存调度在训练时是优势，在推理时却造成不可预测的延迟抖动。谷歌 Amin Vahdat 明确指出：" 随着 AI 智能体的兴起，我们认定针对训练和推理分别提供专门优化的芯片，将使整个技术生态受益。"

挣脱 " 英伟达枷锁 "

算力专属化的另一重动力，来自科技巨头对英伟达供应链依赖的深度焦虑。目前英伟达控制着全球约 85% 至 92% 的 AI 加速器市场，2026 财年数据中心营收达 2159 亿美元，毛利率高达 73.6%，其市场地位近乎垄断。

英伟达

英伟达的护城河不仅在于硬件，更在于 CUDA 软件生态系统。经过二十余年积累，CUDA 已拥有超过 400 万注册开发者。面对高昂采购成本和供应短缺风险，全球最大的几家云服务商纷纷投身自研芯片。

这一趋势已从谷歌一家扩展为全行业共识。2026 年 1 月，微软发布第二代自研 AI 芯片 Maia 200，采用 3 纳米制程。Meta 在 2026 年 4 月宣布与博通合作研发 MTIA 定制加速器。亚马逊 CEO 安迪 · 贾西透露 Trainium 需求进入爆发期，Trainium 3 计划于 2026 年初出货。

从资本支出来看，TrendForce 预估 2026 年全球八大 CSP 合计资本支出超 7100 亿美元，年增约 61%。其中 Alphabet 资本支出有望超 1783 亿美元，年增 95%。谷歌是各 CSP 中唯一 ASIC 出货比例高于 GPU 的业者，预计 2026 年 TPU 在其 AI 服务器中占比将逼近 78%。

算力专属化带来了什么

谷歌算力专属化战略本质上是对 AI 时代算力权力格局的一次主动重构——从依赖第三方通用算力，转向深度定制、软硬协同的专用算力体系。这一转型的价值体现在三个层面。

首先是性能效率的直接提升。TPU 8t 在同等价格下效能较上一代提升 2.8 倍，每瓦性能提升 124%；TPU 8i 效能提升 80%，每瓦性能提升 117%。两款芯片均整合基于安谋架构的 Axion CPU，消除数据预处理延迟瓶颈，确保 TPU 持续满载运转。

其次是成本效益的显著优势。谷歌借助 TPU 大幅压缩大模型部署成本，将 Gemini 等产品的使用成本压低至极具竞争力的水平。投资银行 D.A. Davidson 估算，谷歌 TPU 业务加上 DeepMind 的总价值约为 9000 亿美元，接近谷歌总市值约 4 万亿美元的四分之一。

第三是软件生态的自主构建。CUDA 生态覆盖全球超过 95% 的 AI 开发者，被视为最难撼动的壁垒。谷歌启动 "TorchTPU" 计划，与 Meta 合作让 TPU 顺畅运行 PyTorch。第八代 TPU 现已支持 JAX、PyTorch、Keras 等主流框架，开发者可直接迁移模型而无需修改代码。

从宏观视角看，算力专属化正在重塑云服务市场的基础逻辑。TrendForce 指出，业者正日益扩大导入 ASIC 基础设施，以确保 AI 应用服务的适用性及数据中心建置的成本效益。能够自主掌控从芯片到框架、从训练到推理全流程的厂商，将在 AI 竞赛中获得长期核心优势。

总结

英伟达凭借 CUDA 生态和通用 GPU 确立了一个时代的算力话语权，但 AI 工作负载的分化正在打破这一格局。推理不再是训练的 " 配角 "，而是独立成为算力需求的主力，这对芯片架构提出了崭新的要求。科技巨头已无法承受唯一供应商的锁定风险，自研芯片成为降低成本和分散风险的唯一出路。

在这场算力重构的大潮中，谷歌凭借十年 TPU 积累和第八代芯片的战略转向，正从一个算力使用者转变为算力定义者。CNMO 认为，算力专属化在未来将不仅仅是谷歌的选择，更将成为 AI 时代大型科技企业的标准配置。

宙世代

一起剪

相关标签