英伟达新一代 Blackwell 芯片及其后续产品将在明年重塑 AI 训练的成本结构,有望终结谷歌 TPU 在成本上的优势。
12 月 9 日,科技投资大佬 Gavin Baker 接受播客采访时表示,谷歌凭借 TPU 芯片在 AI 训练领域占据了低成本优势。
Baker 指出,在半导体时代,谷歌 TPU 芯片相当于拥有 " 四代喷气式战斗机 ",而英伟达的 Hopper 芯片还停留在 " 二战时代的 P-51 野马 " 水平。这种成本优势使谷歌能够以负 30% 的利润率运营 AI 业务,有效 " 抽干 AI 生态系统的经济氧气 "。
但Baker 强调随着英伟达 Blackwell 芯片集群在 2026 年初开始投入训练使用,以及更易部署的 GB300 芯片随后上市,这一局面即将逆转。一旦谷歌失去成本优势,可能重塑 AI 产业的竞争格局和经济模型。
Blackwell 的复杂转型造就谷歌窗口期
Blackwell 的延迟部署为谷歌创造了意外的优势窗口。
Baker 认为,从 Hopper 到 Blackwell 的过渡是科技史上最复杂的产品转型之一:数据中心机架重量从约 1000 磅增至 3000 磅,功耗从 30 千瓦跃升至 130 千瓦,冷却方式从风冷转为液冷。Baker 形象地比喻:
这就像要使用新 iPhone,你必须将家中所有插座改为 220 伏,安装特斯拉电池墙、备用发电机、太阳能板和全屋加湿系统,还要加固地板。
正因为这些技术挑战,Blackwell 芯片直到最近三四个月才开始大规模部署。
而如果不是推理技术的突破,AI 进展本会在 2024 年中期至 Gemini 3 发布期间完全停滞。推理技术有效 " 拯救了 AI",在新一代芯片到来前填补了约 18 个月的空白期。
Baker 预计,基于 Blackwell 训练的首批模型将在 2026 年初问世,预计将由 xAI 率先推出。
Baker 强调 xAI 为英伟达扮演了关键角色。他们快速的部署速度使得英伟达能够在一个数据中心中,尽可能多部署 GPU 来形成连贯集群,从而为所有客户排除故障。这种 "coherent"(连贯)意味着每个 GPU 都知道其他 GPU 的状态,通过 scale-up 网络和 scale-out 连接共享内存。
更关键的是,英伟达即将推出的 GB 300 芯片将具有 " 即插即用 " 的兼容性,能够直接替换现有 GB 200 机架,无需额外的基础设施改造,垂直整合的公司将成为新的低成本生产者。
TPU 架构决策限制未来竞争力
谷歌在 TPU 开发上的保守设计选择和供应链策略,可能限制其长期竞争力。
Gavin Baker 指出,谷歌将 TPU 的前端设计留给自己,但将后端设计外包给博通,后者从中收取 50-55% 的毛利率。
以 2027 年 TPU 业务规模约 300 亿美元估算,谷歌每年要向博通支付约 150 亿美元。Baker 指出,考虑到博通半导体部门的运营成本仅约 50 亿美元,从经济角度看,谷歌完全有理由将整个半导体项目收归内部。
Baker 表示苹果正是采取这种模式,不依赖 ASIC 合作伙伴,自己完成前端后端设计,从而避免支付 50% 的利润。
Baker 认为谷歌已经开始采取行动,引入联发科就是作为对博通的 " 警告 "。这家中国台湾 ASIC 公司的毛利率远低于博通。
但这种供应商的分化也导致谷歌在设计上更加保守,使 TPU 的发展速度难以跟上英伟达 GPU 的年度迭代节奏。
相比之下,英伟达和 AMD 的策略是 " 每年推出一款 GPU,让竞争对手无法跟上 "。而谷歌通过引入联发科作为第二供应商,实际上是向博通发出警告信号,但这种分散供应可能进一步拖慢 TPU 进化速度。
战略计算将发生根本转变
一旦谷歌失去最低成本生产商地位,其战略计算将发生根本性改变。
作为低成本生产商,以负利润率运营 AI 业务以压制竞争对手在经济上完全合理——这可以削弱需要外部融资的竞争对手,最终获得主导市场份额。
但当 Blackwell 集群转向推理应用,成本动态改变后,继续维持负 30% 利润率对谷歌来说将变得 " 非常痛苦 ",甚至可能影响其股价表现。这将对整个 AI 产业的经济格局产生深远影响。
Baker 强调,Ruben 下一代芯片推出后,英伟达 GPU 与 TPU 及其他 ASIC 之间的差距将进一步扩大。


登录后才可以发布评论哦
打开小程序可以发布评论哦