TPU直通决赛圈！十年磨一芯谷歌做对了什么？

《科创板日报》11 月 29 日讯 随着 Gemini 3 的横空出世，谷歌 TPU 从幕后走到台前。英伟达 GPU 的霸主地位已然有被撼动迹象。

谷歌云内部高管透露，扩大 TPU 的市场采用率，有望帮助公司抢占英伟达年收入份额的 10%。紧接着，市场便传出 " 谷歌加紧向客户推销 TPU""Meta 拟斥资数十亿美元购买 TPU" 等一系列消息。大摩分析师大胆预测，2027 年谷歌 TPU 外销量将达到 100 万颗。

另一边，投资者纷纷用脚投票，表达了对英伟达 GPU 市场遭遇侵蚀的担忧。英伟达官方发布紧急声明，强调自家产品比 ASIC 拥有更高的性能、更强的通用性以及更好的可替代性。

从闭关修炼的隐世高手，到如今直通 AI 芯片的决赛圈，谷歌 TPU 的起源还要从 12 年前的那场 " 算力焦虑 " 说起。

▌深度学习的最优解

2013 年，深度学习在谷歌内部的应用开始不断扩散，后台模型的复杂度和算力消耗规模逐渐呈指数级增长。谷歌首席科学家 Jeff Dean 通过计算发现，若 1 亿安卓用户每天使用 3 分钟语音转文字服务，则消耗的算力竟高达谷歌所有数据中心总算力的两倍不止。

堆砌 GPU 以获取算力固然是符合直觉的选项，但由于 " 冯 · 诺依曼瓶颈 " 的存在，导致诸如 CPU 和 GPU 等计算单元在处理深度学习中大规模矩阵乘法等特定任务时效率低下。相比之下，自研 ASIC 加速器可为机器学习任务定制架构，能将深度神经网络推理的总体能效降至原来的十分之一，长期来看成本更为可观。

于是在 2013 年底，谷歌正式启动了初代 TPU 项目。据报道，当时谷歌内部有三个团队投身于 ASIC 的研发工作，包括 Google Brain、DeepMind 以及专注数据中心定制硬件开发的部门。后者的 TPU 最终获选，其关键成员具备多年的芯片架构设计经验。如 Jonathan Ross 曾参与 AMD 的 Zen 架构设计，并于后来创立了 AI 芯片设计公司 Groq。

谷歌团队进展迅速，距立项仅过去 15 个月，便完成了初代 TPU 的设计、验证、制造，乃至在数据中心的部署。项目牵头人 Norm Jouppi 如此描述当时情景：" 我们的芯片设计速度非常快，在没有修正错误或更改掩膜的情况下便已开始出货芯片。"

2016 年，TPU 迎来了它的首个 " 破圈时刻 "：人工智能围棋程序 AlphaGo 击败了世界围棋冠军李世石，引发了人们对 AI 的广泛关注。当时 AlphaGo 背后正是初代 TPU 在提供算力支持。

研发上，重大的转折发生在 2017 年。这一年，谷歌团队在《Attention Is All You Need》中介绍了 Transformer ——一种基于注意力机制的全新深度学习架构。其计算特性与 TPU 设计高度适配，最终推动 TPU 的战略地位从单一 AI 加速芯片升级为谷歌的 AI 基础设施底座。值此背景下，TPU v2 应运而生。

同样在这一年，谷歌宣布免费开放 1000 台 Cloud TPU 供开发者和研究人员使用，进一步巩固了 TPU 作为 AI 基础设施底座的地位。往后的日子里，谷歌引入了大规模液冷技术，将 4096 颗芯片组成超节点，并利用自研的环形拓扑网络实现近乎无损的跨芯片通信。在各路 " 外挂 " 的加持下，TPU 朝着更强的性能一路狂飙。

而在技术之外，谷歌也毫不悭吝地将 TPU 引进广告系统、搜索核心排序等赚钱产品线。在 2024 年的应用开发与基础设施峰会上，谷歌公开表示，TPU V6 及后续版本的目标是成为 " 推理时代最省钱的商业引擎 "。

往后的故事逐渐为人所熟知，随着 TPU v7 被投入人工智能训练，当今公认的最强多模态模型 Gemini 3 横空出世。谷歌也摇身一变，从算力芯片领域的追随者一跃成为市场眼中的 AI 新王。人们不禁好奇，十年磨一芯，谷歌究竟做对了什么？

▌难以复制的生态护城河

回顾谷歌的造芯故事，里面没有通往 AGI 的宏大愿景，也没有遵循 Scaling Law 的绝对指引，而是始终紧扣一项更符合商业逻辑，也更显务实的指标——成本。

如果深究，则 TPU 的历史可以一直追溯到 2006 年，那时谷歌便开始考虑为神经网络构建 ASIC 的可能性。只不过由于当时互联网正处于爆发前夜，谷歌数据中心的 GPU 算力仍有大量冗余，相关需求并不迫切，因此并未透支额外成本来实际推进这一计划。

这种 " 量体裁衣 " 的理念甚至体现在 TPU 的设计架构本身。与 GPU 不同，TPU 采用极简的 " 脉动阵列 " 架构，这虽然付出了放弃硬件通用性的代价，但也意味着能够剥离掉一切无关硬件，从而保证在最小单位追求深度学习的最大效率。

现如今，这种设计架构显然为谷歌带来了远超 " 节省成本 " 的回报，即与其他顶尖 AI 厂商掰手腕的资本。

更重要的意义在于，与其他厂商严重依赖外部算力和云设施不同，谷歌以 TPU 为底座的垂直整合路线，构建出了 " 芯片 - 云 - 模型 - 应用 " 的全栈 AI 能力链条。正如券商分析师们所言，这令其形成了难以复制的生态护城河，也赢得了定义未来 AI 基础设施的入场券。

宙世代

一起剪

相关标签