腾讯科技 2小时前
一文读懂谷歌TPU:Meta投怀送抱、英伟达暴跌,都跟这颗“自救芯片”有关
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

Alphabet 兼谷歌首席执行官桑达尔 · 皮查伊

文丨无忌

编辑丨苏扬

股价 " 跌跌不休 ",英伟达都不得不站出来表态," 我们领先了全行业一代 "。

事情要从巴菲特 " 谢幕之作 " 说起——伯克希尔 · 哈撒韦公司首次建仓谷歌母公司 Alphabet 股票,随后更劲爆的是市场又传出英伟达大客户 Meta 考虑 2027 年在其数据中心部署谷歌 TPU,并于 2026 年通过谷歌云租用 TPU 算力。

英伟达在紧急声明中,强调 GPU 在性能、通用性和可移植性方面 " 远优于 "ASIC(专用集成电路),并重申自研 TPU 无法替代 GPU 的灵活性。谷歌发言人也表示继续和英伟达保持合作关系,并强调公司致力于同时支持 TPU 和英伟达 GPU。

TPU,从一个 10 年前为了解决 AI 计算效率瓶颈的 " 救命项目 ",如今已经发展成为谷歌的 " 经济支柱 "。

作为自研 ASIC 芯片的代表,TPU 已经具备动摇英伟达根基的潜力,只不过谷歌的逻辑不是和英伟达比单卡性能,而是在用一套完全不同的超大规模系统哲学,重新定义 AI 基础设施的未来。

一切都要从 10 年前,TPU 诞生的那一刻说起。

01 TPU 的前世今生

TPU v1

谷歌在 2015 年启动 TPU 项目,这并非出于炫技,更不是为了彰显技术实力,而是被逼入了一个 " 不自研将难以支撑未来业务规模 " 的现实。

随着深度学习在谷歌内部的应用不断扩散,谷歌工程团队当时意识到一个关键问题正在逼近——包括搜索、广告等谷歌核心服务都涉及巨量用户请求,如果全面采用深度学习模型,那么谷歌全球数据中心的功耗将暴涨至难以承受的程度即使采购再多 GPU 也无法满足需求,更不用说成本上的激增。

彼时 GPU 更适合训练大规模神经网络,但其能效并非针对实时在线推理设计。

谷歌内部甚至出现过预测:如果未来所有核心业务上线深度模型,全球数据中心的电力成本会增长十倍。内部高层意识到,继续依赖 CPU 和 GPU 的现有路线不可持续。

因此,谷歌决定自研 ASIC 加速器,目标不是造一个 " 最强通用芯片 ",而是造一个 " 可大量部署在数据中心、用于特定矩阵运算的高能效芯片 "

最终,TPU v1 在 2016 年正式投入使用,用于支持谷歌翻译以及部分搜索功能,证明了 ASIC 方案具备可行性。

2017 年 Transformer 论文发表后,谷歌几乎在同一时间意识到:这个新架构的计算模式高度规则、矩阵密度极高、并行度惊人,简直是为 TPU 量身定做的。与其让外部硬件厂商慢慢跟进,不如自己把软件框架、编译器、芯片架构、网络拓扑、散热系统全部握在手里,形成全栈闭环。

于是,TPU 不再是一个孤立的芯片,而升级为谷歌 AI 基础设施的底座:既要训练出世界最强的模型,也要让 AI 以最低成本渗透到公司每一条产品线。

从 v2、v3 开始,谷歌逐步开放 TPU 给谷歌云客户,正式进入商业化阶段。

虽然早期生态和兼容性仍逊于 GPU,但谷歌用 XLA 编译器、高效 Pod 架构、液冷数据中心、软硬件深度共设计,硬生生蹚出一条差异化道路

2021 年,TPU v4 横空出世,第一次把 4096 颗芯片组成一个超节点,靠自研的环形拓扑网络(2D/3D torus)实现近乎无损的跨芯片通信。这套系统让数千颗加速器像一颗 " 巨型芯片 " 一样协同工作,直接把谷歌带入超大规模 AI 时代,PaLM 540B 模型正是在 v4 Pod 上训练完成的。

谷歌用实际行动证明:只要集群规模够大、互联效率够高,模型性能就会随着计算量近乎线性增长,而 TPU 的网络拓扑和调度系统,正是实现这一规律的最关键硬件支撑。

2023 到 2024 年,TPU v5p 成为转折点。

它首次大规模进入谷歌广告系统、搜索核心排序、YouTube 推荐、地图实时预测等赚钱产品线,性能较 v4 翻倍,同时推出弹性节点架构,让企业客户可以按需扩展到近 9000 颗芯片的规模。

Meta、Anthropic 等头部模型公司开始认真评估并采购 TPU v5p,这标志着 TPU 终于从 " 内部黑科技 " 成长为 " 生态可选项 "。

2024 年发布的第六代 TPU v6(代号 Trillium)则彻底亮明态度:谷歌未来的主战场不再是训练,而是推理。推理成本正在成为全球 AI 公司最大的单项支出,v6 从架构到指令集全部围绕推理负载重新设计,FP8 吞吐暴涨、片上 SRAM 容量翻倍、KV Cache 访问模式深度优化、芯片间带宽大幅提升,能效比上一代提升 67%。

谷歌公开表示,这一代 TPU 的目标是成为" 推理时代最省钱的商业引擎 "。

从 2015 年为了解决 AI 计算的效率瓶颈被迫自研,到 2025 年即将把 TPU 部署到客户自有数据中心,谷歌用十年时间,把一个 " 不得不做的救命项目 ",一步步打造成可能撼动英伟达霸权的战略级武器。

TPU 从来不是为了和谁比性能,而是为了让 AI 真正跑得起、赚得到钱。这正是谷歌与众不同的打法,也是它最可怕的地方。

02 从 " 实验项目 " 到 " 数据中心命脉 "

TPU v7,代号 Ironwood

2025 年,谷歌推出的第七代 TPU(TPU v7,代号 Ironwood)成为全球 AI 基础设施领域最受关注的硬件产品。

这一代在架构、规模、可靠性、网络与软件系统上的一次全面重构。

Ironwood 的诞生,正式宣告 TPU 从 " 追赶者时代 " 迈入 " 进攻时代 ",也标志着谷歌将推理时代视为未来十年的决战主战场。

Ironwood 之所以特殊,首先在于它是 TPU 历史上第一款专用推理芯片。与此前以训练为主的 v5p 和以能效为主的 v6e 不同,Ironwood 从第一天起就锁定超大规模在线推理这一终极场景,并在多项关键指标上首次与英伟达 Blackwell 系列实现正面交锋。

单芯片层面,Ironwood 的 FP8 稠密算力达到 4.6 petaFLOPS,略高于 Nvidia B200 的 4.5 petaFLOPS,已跻身全球旗舰加速器第一梯队。内存配置为 192GB HBM3e,带宽 7.4 TB/s,与 B200 的 192GB/8 TB/s 仅一步之遥。芯片间通信带宽 9.6 Tbps,虽数字上不及 Blackwell 的 14.4 Tbps,但谷歌走的是一条完全不同的系统级道路,单纯数值对比已失去意义。

真正让 Ironwood 成为里程碑的,是其超大规模扩展能力。

一个 Ironwood Pod 可集成 9216 颗芯片,构成一个超节点,FP8 峰值性能超过 42.5 exaFLOPS。谷歌在技术文档中指出,在特定 FP8 负载下,该 Pod 性能相当于最接近竞品系统的 118 倍。这不是单芯片差距,而是系统架构与拓扑设计的碾压。

支撑这一规模的核心,是谷歌十年磨一剑的 2D/3D 环面拓扑结合光路交换(OCS)网络。

与英伟达依赖 NVLink+ 高阶交换机构建的 NVL72(仅 72 颗 GPU)不同,谷歌从根本上放弃了传统交换机为中心的设计,转而用三维环面拓扑结构直接连接所有芯片,并通过 OCS 实现动态光路重构。

OCS 本质上是一套 " 光版人工电话交换台 ",利用 MEMS 微镜在毫秒级完成光信号物理切换,几乎不引入额外延迟,更重要的是,当集群内出现芯片故障时,OCS 能瞬间绕开坏点,保持整个计算域不中断。

得益于此,谷歌液冷 Ironwood 系统的年可用性达到 99.999%,即全年停机时间不到六分钟。这一数字在超大规模 AI 集群中堪称恐怖,远超业界基于 GPU 的训练集群常见水平。

谷歌已将 TPU 集群从 " 实验玩具 " 彻底升级为 " 数据中心命脉 "。

在推理场景下,Ironwood 展现出系统级的降维打击能力。整个节点提供 1.77 PB 高带宽 HBM,所有芯片均可近乎等距访问,这对 KV 缓存管理至关重要。推理时代最贵的不是算力,而是内存带宽和缓存命中率,Ironwood 通过共享巨量高速内存和极低通信开销,大幅减少重复计算。

内部实测显示,同等负载下 Ironwood 的推理成本较 GPU 旗舰系统低 30%-40%,极端场景下更高。

软件层面同样火力全开。MaxText 框架全面支持最新训练与推理技术,GKE 拓扑感知调度可根据 Pod 内实时状态智能分配任务,推理网关支持前缀缓存感知路由。综合优化后,首 Token 延迟最高下降 96%,整体推理成本再降 30%。

Ironwood 不仅推动 Gemini 系列继续领跑,也直接撬动外部生态。

Anthropic 宣布未来 Claude 系列的训练与部署将使用多达一百万颗 TPU。即使拥有 AWS Trainium 等备选方案的玩家,也无法忽视 Ironwood 在超大规模推理上的代际优势。

03 谷歌、英伟达、亚马逊,站在 " 三岔路口 "

CNBC 在对 AI 芯片领域三大玩家——谷歌、英伟达和亚马逊——进行分析后指出,三者都在大规模投入研发,但它们追求的目标、商业模式、生态构建方式、硬件哲学均有显著不同。

这些差异深刻影响了芯片的形态、性能侧重点、客户采用路径以及市场地位。

英伟达的路线始终围绕 GPU 推进,而 GPU 的核心价值在于通用性。

GPU 具备海量并行计算单元,能够支持从深度学习到图形渲染再到科学计算等多种工作负载。更重要的是 CUDA 生态几乎锁死了全行业的开发路径,一旦模型或框架为 CUDA 优化,就很难切换到其他芯片架构。

英伟达通过软硬件深度捆绑实现了类似苹果生态在消费品市场的垄断能力,但 GPU 的缺陷也十分明显。

首先,GPU 并非为推理优化,它的设计初衷是高速并行计算,而不是以最低成本执行重复推理指令。其次,GPU 的灵活性意味着其硬件资源在实际推理场景中可能并非最优配置,导致单位能耗的效率不如 ASIC。最后,英伟达的定价权极高,云厂商往往需要以远高于制造成本的价格购入 GPU,形成今天广为人知的 " 英伟达税 "。

谷歌的路线与英伟达不同。谷歌并不追求硬件通用性,而是追求深度学习特别是 Transformer 负载的极致效率。TPU 的核心是脉动阵列,这是一种专门为矩阵乘法设计的架构,使其在深度学习计算中特别高效。

谷歌不是希望 TPU 成为行业通用芯片,而是成为全球 AI 推理和训练最具效能的专用芯片,进而让谷歌整个 AI 系统做到性能领先、成本最低、部署最广。

谷歌的核心优势在于全栈整合能力。他们不仅控制芯片,还控制模型、框架、编译器、分布式训练系统与数据中心基础设施。这让谷歌可以做出许多 GPU 无法实现的系统级优化。

例如数据中心网络拓扑完全为 TPU 超节点服务,软件层面的调度系统能根据模型特性自动调整硬件资源的使用方式。这种 " 系统级一体化 " 是英伟达无法做到的,因为英伟达只能控制 GPU,而不能控制客户的数据中心。

亚马逊则走了第三条路线,其芯片战略出发点是降低 AWS 的基础设施成本,同时减少对外部供应商尤其是英伟达的依赖,因此他们开发了 Trainium 和 Inferentia。

作为云厂商,AWS 关注的是规模效应与经济性,而非像谷歌那样构建一个统一的 AI 算力体系。

Trainium 的设计更灵活,在不少情况下接近 GPU 的适配能力,但性能针对训练和推理分别做了优化。Inferentia 则聚焦推理,适合高吞吐部署场景。亚马逊通过芯片降低内部成本并将节省部分反馈给客户,从而提升 AWS 的竞争力。

总体而言,英伟达的路线是通用、生态驱动、软件锁定;谷歌的路线是专用、垂直整合、系统统一;亚马逊的路线是成本优化、云驱动、兼容商业需求。三者的路线差异导致了 AI 芯片市场中出现了截然不同的产品形式、商业策略与竞争格局。

04 利用 TPU,告别昂贵的 "CUDA 税 "

谷歌之所以能够在推理时代获得显著优势,关键并不仅仅在于 TPU 的硬件性能,更在于其全栈垂直整合策略

这种策略让谷歌避免了昂贵的 "CUDA 税 ",并在成本结构上相对于 OpenAI 和其他依赖 GPU 的企业形成了巨大优势。

所谓 CUDA 税,是指 GPU 芯片从生产到销售过程中所叠加的高额利润。

英伟达的 GPU 成本大约仅几千美元,但卖给云厂商时价格往往动辄数万美元不等,毛利率高达八成以上。全球所有训练大模型的科技公司几乎都要支付这项成本,并且无法摆脱。

OpenAI 依赖英伟达 GPU 进行训练和推理,且由于 GPT 系列模型参数规模巨大、推理量庞大,其总体算力开支远超大多数企业的总营收。

英伟达的定价模式使这些公司无论怎么优化模型,都难以实现规模化商业利润。

谷歌的策略完全不同。谷歌采用自研 TPU 进行训练和推理,整个供应链由谷歌控制,从芯片设计到制造、从网络方案到软件栈再到数据中心布局,全部由谷歌内部优化。

由于不需要支付英伟达税,谷歌的算力成本结构天生比 OpenAI 更具优势。

谷歌不仅在内部获得低成本,还将这种成本优势传递给谷歌云的客户。通过 TPU 服务,谷歌可以为客户提供更低价格的推理能力,从而吸引大量模型公司和企业迁移到谷歌平台。

根据科技网站 venturebeat.com 的报道,谷歌在算力成本上的结构性优势远远优于 OpenAI。这意味着,谷歌提供同等推理服务时,其底层成本可能仅为对手的两成。如此大的成本差异在推理时代具有决定性意义。

当企业的推理成本占到其支出的大部分时,迁移到成本最低的平台就成为必然选择。例如,一个企业每年可能在推理上消耗数千万美元甚至上亿美元,如果迁移到 TPU 可以节省三到五成成本,那么迁移几乎是一种不可回避的商业决策。

谷歌还推出了 TPU@Premises 计划,将 TPU 直接部署在企业数据中心,使客户可以在本地以最低延迟使用推理能力。这再次强化了谷歌的成本优势,进一步扩大 TPU 的商业辐射范围。

在 OpenAI 的商业模式中,其最重要的成本来自算力,而在谷歌的商业模式中,其算力成本是自研产品体系的一部分,可以通过谷歌云收回投资。谷歌在硬件、软件、网络和云基础设施上的深度融合,使其具备真正意义上的垂直整合能力。

这种整合不是简单节省成本,而是在推动整个生态的重新配置。

随着越来越多企业意识到推理成本的重要性,谷歌的成本优势将不断被放大,TPU 的市场份额也将在推理时代获得更快增长。TPU 的垂直整合策略最终不仅是谷歌的竞争策略,更是对整个行业竞争秩序的重塑力量。

05 谷歌的 " 经济支柱 "

回顾 TPU 的发展史,可以看到一个典型的 " 追赶到领先 " 的演变轨迹。

早期 TPU 在生态成熟度、兼容性和训练性能方面落后于 GPU,外界普遍认为谷歌在 AI 大模型时代被 OpenA 超越。然而这种外部印象忽略了谷歌在基础设施层面的深度积累,也忽略了谷歌在全栈系统上的独特优势。

随着 Gemini 系列模型逐代升级,谷歌逐步证明自己仍然是全球少数可以实现训练稳定性、推理成本控制和全栈性能优化的公司,TPU 在其中扮演了关键角色。

Gemini 2.0 多模态模型的训练和推理都在 TPU 上完成,而 TPU 的高效能使谷歌能够以相对低成本训练大规模模型,使模型迭代周期更短、成本更低。

随着公司进入推理时代,TPU 的作用从支持谷歌内部模型转向支持全球企业客户。谷歌云的 AI 收入随之大幅增加,云部门的财报显示全年化收入达到 440 亿美元,并成为谷歌整体业绩增长的重要驱动力。

谷歌在云市场的竞争地位长期落后于 AWS 和 Azure,但在 AI 时代出现了新的赛道,在 AI 基础设施方面实现领先。这一领先并非偶然,而是 TPU 多年积累后的自然结果。

在企业 AI 采用加速的大背景下,越来越多公司需要推理成本低、稳定性高、性能强的模型部署方案。GPU 虽然性能强,但成本和供货都存在限制,而 TPU 提供了更具经济性和稳定性的替代方案。尤其在大规模在线推理场景中,TPU 的优势尤为明显。

更重要的是,谷歌并非只以芯片作为卖点,而是以整体解决方案吸引企业。

例如谷歌提供从模型训练、模型监控、向量数据库、推理服务到数据安全的一体化体系,TPU 在其中作为最底层基础设施发挥作用。谷歌将自己塑造为企业采用 AI 的完整平台,使其与 AWS 和 Azure 在差异化竞争中获得新的优势。

未来几年,AI 行业的竞争将从模型维度转向成本维度,从训练能力转向推理规模,从生态构建转向基础设施整合。谷歌凭借 TPU、全球数据中心布局、代际升级节奏和全栈能力,有望在这一新周期中构建比过去十年更牢固的竞争壁垒。

谷歌从追赶者转向领先者的过程并非一蹴而就,而是在十年时间里持续投入基础设施、坚持自研、不断调整模型路线的结果。TPU 是谷歌在 AI 时代构建的最长久、最深层、最具战略意义的资产,而这一资产正在成为推动谷歌市值增长、云业务崛起和 AI 商业模式重塑的主力引擎。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

谷歌 英伟达 芯片 gpu 数据中心
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论