【CNMO 科技消息】近日,谷歌在 Cloud Next 2026 大会上发布第八代 TPU,首次将训练与推理任务拆分为两款独立芯片—— TPU 8t 专攻大规模训练,TPU 8i 专司高效推理。这一 " 训推分离 " 的硬件设计,标志着谷歌在算力专属化道路上迈出了最彻底的一步,引发了业界对 AI 算力未来发展方向的深度思考。

谷歌 TPU 8i
过去十年,英伟达 GPU 凭借通用性与 CUDA 生态几乎垄断 AI 算力市场,成为全球 AI 发展的核心驱动力。然而,谷歌却始终坚持从零开始自研 TPU,从 2015 年内部部署到如今全面对外服务,走了一条截然不同的技术路线,展现了其在 AI 基础设施领域的长期战略眼光。
如今,推理需求即将占据 AI 总算力的 70% 以上,行业正站在算力范式的拐点。从聊天机器人到 AI 代理再到数字员工,每一次应用跃迁都意味着推理负载的指数级增长。与此同时,微软、亚马逊、Meta 纷纷入局自研芯片,AI 算力市场正从单极走向多极。
那么,谷歌为何选择走算力专属化这条路?
从通用到专用
谷歌将 TPU 拆分为训练与推理两款独立芯片,根本驱动力来自 AI 计算需求的结构性转变。巴克莱预测,到 2026 年推理计算需求将占 AI 总算力的 70% 以上,是训练需求的 4.5 倍,市场规模达 1450 亿美元,正式取代训练芯片成为行业核心引擎。

谷歌 TPU 8i
德勤同期报告指出,2026 年全球 AI 算力芯片市场突破 2800 亿美元,推理芯片需求首次超越训练芯片。巴克莱预计 2028 年英伟达推理芯片份额将从目前的 80% 降至约 50%,主要原因是云服务商推出定制 ASIC 芯片以提升推理市场占有率。
进入 AI 代理时代后,推理需求进一步激增。巴克莱将 AI 发展分为三个阶段:当前 " 聊天机器人时代 ",2025-2026 年 "AI 代理时代 ",以及 2027 年后 " 数字员工时代 "。代理时代中,AI 智能体使单交互 Token 消耗暴增 20-30 倍,多步骤推理需求呈指数级增长。
在此背景下,通用 GPU 的局限日益突出。其数千个并行计算单元和复杂内存调度在训练时是优势,在推理时却造成不可预测的延迟抖动。谷歌 Amin Vahdat 明确指出:" 随着 AI 智能体的兴起,我们认定针对训练和推理分别提供专门优化的芯片,将使整个技术生态受益。"
挣脱 " 英伟达枷锁 "
算力专属化的另一重动力,来自科技巨头对英伟达供应链依赖的深度焦虑。目前英伟达控制着全球约 85% 至 92% 的 AI 加速器市场,2026 财年数据中心营收达 2159 亿美元,毛利率高达 73.6%,其市场地位近乎垄断。

英伟达
英伟达的护城河不仅在于硬件,更在于 CUDA 软件生态系统。经过二十余年积累,CUDA 已拥有超过 400 万注册开发者。面对高昂采购成本和供应短缺风险,全球最大的几家云服务商纷纷投身自研芯片。
这一趋势已从谷歌一家扩展为全行业共识。2026 年 1 月,微软发布第二代自研 AI 芯片 Maia 200,采用 3 纳米制程。Meta 在 2026 年 4 月宣布与博通合作研发 MTIA 定制加速器。亚马逊 CEO 安迪 · 贾西透露 Trainium 需求进入爆发期,Trainium 3 计划于 2026 年初出货。
从资本支出来看,TrendForce 预估 2026 年全球八大 CSP 合计资本支出超 7100 亿美元,年增约 61%。其中 Alphabet 资本支出有望超 1783 亿美元,年增 95%。谷歌是各 CSP 中唯一 ASIC 出货比例高于 GPU 的业者,预计 2026 年 TPU 在其 AI 服务器中占比将逼近 78%。
算力专属化带来了什么
谷歌算力专属化战略本质上是对 AI 时代算力权力格局的一次主动重构——从依赖第三方通用算力,转向深度定制、软硬协同的专用算力体系。这一转型的价值体现在三个层面。

首先是性能效率的直接提升。TPU 8t 在同等价格下效能较上一代提升 2.8 倍,每瓦性能提升 124%;TPU 8i 效能提升 80%,每瓦性能提升 117%。两款芯片均整合基于安谋架构的 Axion CPU,消除数据预处理延迟瓶颈,确保 TPU 持续满载运转。
其次是成本效益的显著优势。谷歌借助 TPU 大幅压缩大模型部署成本,将 Gemini 等产品的使用成本压低至极具竞争力的水平。投资银行 D.A. Davidson 估算,谷歌 TPU 业务加上 DeepMind 的总价值约为 9000 亿美元,接近谷歌总市值约 4 万亿美元的四分之一。
第三是软件生态的自主构建。CUDA 生态覆盖全球超过 95% 的 AI 开发者,被视为最难撼动的壁垒。谷歌启动 "TorchTPU" 计划,与 Meta 合作让 TPU 顺畅运行 PyTorch。第八代 TPU 现已支持 JAX、PyTorch、Keras 等主流框架,开发者可直接迁移模型而无需修改代码。
从宏观视角看,算力专属化正在重塑云服务市场的基础逻辑。TrendForce 指出,业者正日益扩大导入 ASIC 基础设施,以确保 AI 应用服务的适用性及数据中心建置的成本效益。能够自主掌控从芯片到框架、从训练到推理全流程的厂商,将在 AI 竞赛中获得长期核心优势。
总结
英伟达凭借 CUDA 生态和通用 GPU 确立了一个时代的算力话语权,但 AI 工作负载的分化正在打破这一格局。推理不再是训练的 " 配角 ",而是独立成为算力需求的主力,这对芯片架构提出了崭新的要求。科技巨头已无法承受唯一供应商的锁定风险,自研芯片成为降低成本和分散风险的唯一出路。
在这场算力重构的大潮中,谷歌凭借十年 TPU 积累和第八代芯片的战略转向,正从一个算力使用者转变为算力定义者。CNMO 认为,算力专属化在未来将不仅仅是谷歌的选择,更将成为 AI 时代大型科技企业的标准配置。


登录后才可以发布评论哦
打开小程序可以发布评论哦