
记者 叶心冉
TPU 获得的关注度肉眼可见地在攀升。
过去一个月,围绕谷歌 TPU 的消息接连不断。4 月底,谷歌发布了第八代 TPU,首次将训练和推理拆分为两款独立的芯片;紧接着,市场上相继传出谷歌向英特尔下达大规模采购订单、谷歌拟与三星开发新一代 TPU 的消息。不过,谷歌方面对此均未作出公开回应。
但可以预见的一个趋势是,随着谷歌 TPU 的大幅入局,过去几年作为 AI 算力代名词的 GPU,不再是唯一的选择。当算力需求从训练转向推理时代,TPU 的优势开始凸显,从过去的 " 配角 " 愈加有站上主舞台之势。
GPU 和 TPU 是两种不同的芯片品类。GPU 诞生已有二十多年,全称是 Graphics Processing Unit(图形处理器),技术相对成熟,代表公司有英伟达、AMD。TPU 则是谷歌从 2015 年起专门为 AI 设计的新品类,它的全称是 Tensor Processing Unit(张量处理器),专攻深度学习所需的矩阵运算。
TPU 为何在此时成为焦点?先要看市场需求正在发生什么变化。
国家数据局发布的《全国数据资源调查报告(2025 年)》显示,2025 年,中国 AI 推理数据量首次超过训练数据量。
TrendForce 集邦咨询的数据预测,北美五大云服务商 2026 年 AI 训练算力预计增长 56%,而推理算力将暴增 122%,后者增速是前者的两倍以上。IDC 预测,到 2029 年中国市场推理算力占比将接近八成。
推理正逐渐成为算力需求的主场,而这也在为 TPU 创造机会。
首先,模型越来越大,单颗芯片无法支撑,必须依靠多颗芯片的集群协同完成推理任务,而 TPU 在集群效率上有先天优势。
" 智能体正在逐步替代人类的部分工作,其本质是用写程序的能力控制电脑。只有当模型足够大时,才能完成程序员能做的事。如今的模型参数从亿级已达到万亿级别,单颗芯片无法承载完整推理任务,必须依靠几十甚至上百颗芯片互联集群协同运算。" 中昊芯英创始人及 CEO 杨龚轶凡说。
中昊芯英是一家聚焦 TPU 芯片技术研发的企业,杨龚轶凡表示,GPU 架构是以单卡通用算力和软件生态见长,而 TPU 则是在大规模集群的通信与协同效率上有优势。
一位前谷歌 TPU 工程师在一档视频节目中介绍,GPU 单机内部依靠 NVLink、板载 NVSwitch 实现多卡互联,跨机架大规模集群还需额外采购交换机、光模块搭建高速网络,配套硬件是一笔大额基建开支;而 TPU 机柜内芯片可直接互通,仅在跨机柜扩展时使用自研光电路交换机,无需大批量采购商用高速交换设备,在同等集群通信性能下,整体部署硬件成本更低。
其次,推理阶段对性价比的敏感度远高于训练。当 Token 消耗呈指数级暴增,单位算力成本也成为了更受重视的指标。从架构上看,TPU 是专用芯片,剔除了 GPU 的图形渲染、通用计算等功能,聚焦于深度学习矩阵运算。杨龚轶凡指出,谷歌 TPU 在发布时,对比同等生产工艺的 GPU,有 3 到 5 倍的性能提升。
什么场景下 GPU 更合适,什么场景下 TPU 更优?
这需要回到芯片设计的原点。
杨龚轶凡说,GPU 最早是为了在电脑屏幕上显示逼真的 3D 游戏画面而设计的。它要把三维物体从各个角度算成二维画面,还要算光线、颜色,让画面足够真实。这就导致 GPU 里面塞了上万个计算核心,像一个大工厂里有一万名工人同时干活。优点是并发能力强,处理图像和矩阵运算非常快。但缺点是,一旦某个工人算错了,你根本没法在一万名工人里快速找到是谁出了问题。
而 AI 深度学习的计算模式完全不同。深度学习模型是一层一层往下计算的,每一层内部可以高并发,但层与层之间有先后顺序。这种模式不需要 GPU 那么复杂的调试和通用能力。于是,TPU 这类专门为 AI 设计的芯片应运而生,只聚焦深度学习最常用的运算。
这就好比,从之前要同时调度一万个工人,变成只需要调度一千个按固定流水线工作的工人,控制逻辑简单得多。
基于这种架构差异,杨龚轶凡预测,未来 AI 芯片市场将形成 "442" 格局:40% 是极致性价比的纯 ASIC(专用集成电路)芯片,只能跑固定一两个模型的推理,性价比极致;40% 是可编程的 DSA(领域专用架构)芯片,比如 TPU,支持深度学习网络的算法,芯片利用率不如 ASIC,但比 GPU 强很多;20% 是通用 GPU,留给还在快速变化的新算法和研究场景。
不过,这并不意味着 TPU 对 GPU 是替代关系,而是要看具体场景的适配。
在杨龚轶凡看来,20% 的 GPU 市场会长期存在。原因在于,AI 领域的新算法、新方向还在不断涌现,研究人员需要一个通用、灵活的平台来快速验证想法。CUDA 生态(英伟达围绕 GPU 硬件打造的一系列软件和工具链)经过 20 年打磨,成熟度高,当新的计算场景出现时,GPU 仍然是首选。
而 TPU 的优势在于性价比和生态建设成本。杨龚轶凡举例解释,TPU 的设计思路是让开发者 " 只管开车,不用修车 "。它的硬件指令专为 AI 计算优化,同时适配 PyTorch 这类主流框架。PyTorch 就像一个 AI" 乐高工具箱 ",开发者用熟悉的 " 积木 " 搭模型,剩下的交给 TPU 编译器自动优化,不用为了迁就硬件去学一套新编程语言。
相比之下,CUDA 更像一套 " 修车工具 ",开发者必须懂 " 发动机原理 " 才能玩得转,这套工具是行业积累了十多年的成果。TPU 则是依托现有成熟 AI 框架,大幅降低了软件适配门槛,这也是其性价比优势的重要来源。
当下,AI Agents 逐步进化为全球社会生产力的核心基座,带动 Token 消耗量指数级攀升和 "Token 经济 " 时代的来临。当 Token 消耗呈指数级增长,芯片的利用率、性价比成为更加重要的比拼项,TPU 迎来新的机会,开始成为 AI 芯片赛道上除 GPU 之外的 " 另一个选项 "。


登录后才可以发布评论哦
打开小程序可以发布评论哦