AI算力变局：TPU正成为“另一个选项”

记者叶心冉

TPU 获得的关注度肉眼可见地在攀升。

过去一个月，围绕谷歌 TPU 的消息接连不断。4 月底，谷歌发布了第八代 TPU，首次将训练和推理拆分为两款独立的芯片；紧接着，市场上相继传出谷歌向英特尔下达大规模采购订单、谷歌拟与三星开发新一代 TPU 的消息。不过，谷歌方面对此均未作出公开回应。

但可以预见的一个趋势是，随着谷歌 TPU 的大幅入局，过去几年作为 AI 算力代名词的 GPU，不再是唯一的选择。当算力需求从训练转向推理时代，TPU 的优势开始凸显，从过去的 " 配角 " 愈加有站上主舞台之势。

GPU 和 TPU 是两种不同的芯片品类。GPU 诞生已有二十多年，全称是 Graphics Processing Unit（图形处理器），技术相对成熟，代表公司有英伟达、AMD。TPU 则是谷歌从 2015 年起专门为 AI 设计的新品类，它的全称是 Tensor Processing Unit（张量处理器），专攻深度学习所需的矩阵运算。

集群计算需求增长

TPU 为何在此时成为焦点？先要看市场需求正在发生什么变化。

国家数据局发布的《全国数据资源调查报告（2025 年）》显示，2025 年，中国 AI 推理数据量首次超过训练数据量。

TrendForce 集邦咨询的数据预测，北美五大云服务商 2026 年 AI 训练算力预计增长 56%，而推理算力将暴增 122%，后者增速是前者的两倍以上。IDC 预测，到 2029 年中国市场推理算力占比将接近八成。

推理正逐渐成为算力需求的主场，而这也在为 TPU 创造机会。

首先，模型越来越大，单颗芯片无法支撑，必须依靠多颗芯片的集群协同完成推理任务，而 TPU 在集群效率上有先天优势。

" 智能体正在逐步替代人类的部分工作，其本质是用写程序的能力控制电脑。只有当模型足够大时，才能完成程序员能做的事。如今的模型参数从亿级已达到万亿级别，单颗芯片无法承载完整推理任务，必须依靠几十甚至上百颗芯片互联集群协同运算。" 中昊芯英创始人及 CEO 杨龚轶凡说。

中昊芯英是一家聚焦 TPU 芯片技术研发的企业，杨龚轶凡表示，GPU 架构是以单卡通用算力和软件生态见长，而 TPU 则是在大规模集群的通信与协同效率上有优势。

一位前谷歌 TPU 工程师在一档视频节目中介绍，GPU 单机内部依靠 NVLink、板载 NVSwitch 实现多卡互联，跨机架大规模集群还需额外采购交换机、光模块搭建高速网络，配套硬件是一笔大额基建开支；而 TPU 机柜内芯片可直接互通，仅在跨机柜扩展时使用自研光电路交换机，无需大批量采购商用高速交换设备，在同等集群通信性能下，整体部署硬件成本更低。

其次，推理阶段对性价比的敏感度远高于训练。当 Token 消耗呈指数级暴增，单位算力成本也成为了更受重视的指标。从架构上看，TPU 是专用芯片，剔除了 GPU 的图形渲染、通用计算等功能，聚焦于深度学习矩阵运算。杨龚轶凡指出，谷歌 TPU 在发布时，对比同等生产工艺的 GPU，有 3 到 5 倍的性能提升。

细分场景里的选择

什么场景下 GPU 更合适，什么场景下 TPU 更优？

这需要回到芯片设计的原点。

杨龚轶凡说，GPU 最早是为了在电脑屏幕上显示逼真的 3D 游戏画面而设计的。它要把三维物体从各个角度算成二维画面，还要算光线、颜色，让画面足够真实。这就导致 GPU 里面塞了上万个计算核心，像一个大工厂里有一万名工人同时干活。优点是并发能力强，处理图像和矩阵运算非常快。但缺点是，一旦某个工人算错了，你根本没法在一万名工人里快速找到是谁出了问题。

而 AI 深度学习的计算模式完全不同。深度学习模型是一层一层往下计算的，每一层内部可以高并发，但层与层之间有先后顺序。这种模式不需要 GPU 那么复杂的调试和通用能力。于是，TPU 这类专门为 AI 设计的芯片应运而生，只聚焦深度学习最常用的运算。

这就好比，从之前要同时调度一万个工人，变成只需要调度一千个按固定流水线工作的工人，控制逻辑简单得多。

基于这种架构差异，杨龚轶凡预测，未来 AI 芯片市场将形成 "442" 格局：40% 是极致性价比的纯 ASIC（专用集成电路）芯片，只能跑固定一两个模型的推理，性价比极致；40% 是可编程的 DSA（领域专用架构）芯片，比如 TPU，支持深度学习网络的算法，芯片利用率不如 ASIC，但比 GPU 强很多；20% 是通用 GPU，留给还在快速变化的新算法和研究场景。

不过，这并不意味着 TPU 对 GPU 是替代关系，而是要看具体场景的适配。

在杨龚轶凡看来，20% 的 GPU 市场会长期存在。原因在于，AI 领域的新算法、新方向还在不断涌现，研究人员需要一个通用、灵活的平台来快速验证想法。CUDA 生态（英伟达围绕 GPU 硬件打造的一系列软件和工具链）经过 20 年打磨，成熟度高，当新的计算场景出现时，GPU 仍然是首选。

而 TPU 的优势在于性价比和生态建设成本。杨龚轶凡举例解释，TPU 的设计思路是让开发者 " 只管开车，不用修车 "。它的硬件指令专为 AI 计算优化，同时适配 PyTorch 这类主流框架。PyTorch 就像一个 AI" 乐高工具箱 "，开发者用熟悉的 " 积木 " 搭模型，剩下的交给 TPU 编译器自动优化，不用为了迁就硬件去学一套新编程语言。

相比之下，CUDA 更像一套 " 修车工具 "，开发者必须懂 " 发动机原理 " 才能玩得转，这套工具是行业积累了十多年的成果。TPU 则是依托现有成熟 AI 框架，大幅降低了软件适配门槛，这也是其性价比优势的重要来源。

当下，AI Agents 逐步进化为全球社会生产力的核心基座，带动 Token 消耗量指数级攀升和 "Token 经济 " 时代的来临。当 Token 消耗呈指数级增长，芯片的利用率、性价比成为更加重要的比拼项，TPU 迎来新的机会，开始成为 AI 芯片赛道上除 GPU 之外的 " 另一个选项 "。

宙世代

一起剪