直面派 3小时前
英伟达和谷歌,美国AI棋局的楚河汉界
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

最近,OpenAI 又传出购买芯片的消息,但采购对象却并非英伟达或谷歌。

据了解,这笔订单落在了晶圆级芯片公司 Cerebras 身上,协议总金额超过 100 亿美元、对应最高约 750 兆瓦算力容量,并将分阶段在 2026 — 2028 年落地。

众所周知,长期以来,OpenAI 的核心训练体系一直建立在英伟达 GPU 之上。但最近一段时间里,OpenAI 一直在尝试把算力 " 鸡蛋 " 放进多个篮子里。

去年 6 月,有媒体披露称 OpenAI 计划通过 Google Cloud 租用芯片,为包括 ChatGPT 在内的产品提供部分推理算力。

这一算力供应策略上发生变化背后,是美国 AI 产业的两大阵营相互作用下的结果:一边是以英伟达为核心的 GPU 生态,另一边是近年来崛起的谷歌阵营 TPU(谷歌自研的 AI 专用加速芯片)生态。

在大模型爆发初期,英伟达几乎是算力的唯一中心:从训练到推理,从芯片到 CUDA 生态,行业别无其他选择。

但在过去两年,这种 " 绝对核心 " 地位开始松动。一方面 GPU 供给长期紧张、价格高企;另一方面超大模型推理负载激增,催生对专用加速器与替代架构的现实需求,也为其他算力路线留下切口。

在这一背景下,谷歌的 TPU 路线逐渐成型。通过把 TPU 与 Gemini、VertexAI 的节奏深度绑定,谷歌逐步搭建起一套 " 从芯片到模型、云服务 " 的一体化供给体系。

Cerebras 则是 OpenAI 在两大阵营之外插入的一枚筹码:它主打晶圆级芯片的技术路线,主打低延迟推理与特定负载的吞吐优势。这家公司也一直被各路机构视为美股潜在 IPO 标的。

在英伟达和谷歌两大阵营的 " 楚河汉界 " 之间,头部 AI 企业们在 " 站队 " 与 " 合作 " 间不断交错。

01

两大基座阵营,既要 " 合纵 " 也要 " 连横 "

尽管在 AI 算力版图出现了 " 两大阵营 " 分化的现象,但在过去一年里,英伟达仍是市场的绝对主力:IDC 在 2025 年二季度的统计显示,英伟达在 AI 算力厂商份额占比约 85.2%。

只是在 AI 产业中," 盟友 " 与 " 敌人 " 的界限往往并不清晰,但仍能在头部企业身上,窥探到一丝生态上的偏好。

英伟达的主力合作伙伴中,微软和 AWS(亚马逊云服务)持续把英伟达新品作为云端算力主力;与此同时,谷歌也在加速把 TPU 打造成更 " 可迁移 " 的选项,并通过改进对 PyTorch 等主流框架的支持、与包括 Meta 在内的企业 / 开发者社区协作,降低外部使用门槛。

以微软为例,根据 Omdia 的估算,2024 年微软采购了约 48.5 万块英伟达 Hopper 系列 GPU,几乎是其竞争对手的两倍之多,显示出它在 AI 基建领域与英伟达的紧密关系。

2025 年 11 月,微软与数据中心运营商 IREN 签署了一份约 97 亿美元的合同,其中包括大约 58 亿美元的英伟达 GB300 芯片与相关设备,用于进一步扩展 Azure 的 AI 计算能力。

不止云厂商,一众大模型企业也是英伟达的基本盘,马斯克此前曾表示 xAI 的 Colossus 超算在 2025 年已部署约 20 万块英伟达 GPU,用于训练 Grok 系列模型,并计划进一步扩容。

不过,尽管英伟达的 GPU 体系虽然市场份额高达八成以上,但其高成本与软件生态锁定,也让一些头部用户开始寻求新的供应链渠道。

另一边,谷歌 TPU 在某些推理与训练场景上拥有更低成本的优势,并且与云服务深度整合,这使得市场近年来对其兴趣不断增长。

几周前,曾有媒体披露 Meta 正在评估在 2027 年后引入谷歌自研芯片的可能性,相关合作规模或达数十亿美元,这使 TPU 有机会成为英伟达之外的一个重要替代样本。

类似的选择也出现在 Anthropic 身上。去年 10 月,Anthropic 宣布将大幅扩大与 Google Cloud 的合作,计划利用多达一百万颗 TPU 芯片、总价值达到数十亿美元的算力资源,来训练和服务下一代 Claude 模型,并预计在今年实现超过 1 吉瓦的计算能力上线。

Google Cloud CEO 库里安称,"Anthropic 大幅扩大使用 TPU,反映了团队多年来在使用 TPU 时观察到的强劲价格性能比和效率。"

不过,Anthropic 和谷歌的合作离不开资本面背景。谷歌既是 Anthropic 的早期投资者,也是其最重要的云算力提供方之一。公开信息显示,谷歌已累计向 Anthropic 投资超过 30 亿美元,持有约 14% 股权。

Anthropic CFO Krishna Rao 此前曾表示:"Anthropic 与 Google 有长期伙伴关系,这次扩展有助于持续增长定义前沿 AI 所需的算力。"

通过加大对 TPU 的使用,Anthropic 在成本与算力供给上获得更高确定性,同时也加深了与谷歌在云基础设施层面的长期合作关系。

不过,AI 产业版图中,即使是资本合作伙伴之间,也可能出现产品和业务上的竞争。字母 AI 在近期的《争夺 AI 制高点,谷歌和 Anthropic 必有一战》一文中曾总结," 如果 Anthropic 利用谷歌的 TPU 训练出了远超 Gemini 的模型,那谷歌在应用层的竞争将变得更加困难。"

正是在这一现实之下," 合纵连横 " 开始成为 AI 基建格局中的关键逻辑。算力层面,面对英伟达在 GPU 与生态上的长期主导,谷歌以 TPU、云服务和资本关系拉起稳定合作网络,模型公司也借此获得更可控的算力与成本,此为 " 合纵 "。

但这种结盟并不会延伸到产品前台。进入模型与应用层,竞争重新回到零和博弈:Gemini、Claude、ChatGPT 在前端要面临正面厮杀," 连横 " 随之出现,即在基础设施上交错合作,但在产品上又各自为战。

英伟达与谷歌两大阵营并存,恰恰放大了这种合纵连横的结构。不过,说起这一版图的形成以及两条路径之争的起源,还要追溯到 AI 爆发前的 10 年。

02  

GPU 与 TPU 之争,源自 " 前 AI 时代 "

在生成式 AI 成为全球焦点之前,英伟达已提前十余年布局算力生态。

2006 年 CUDA 发布,使 GPU 首次成为可被通用编程调用的并行计算平台,开发者得以绕开硬件细节直接释放算力潜能。随后,PyTorch、TensorFlow 等主流框架相继围绕 CUDA 构建,GPU 也从图形加速器演变为 AI 训练与推理的事实标准底座。

CUDA 的价值不止 " 让 GPU 可编程 ",更在于打造了独家软件生态这一壁垒。

英特尔前 CEO 帕特 · 基辛格,在去年接受采访时直言,英伟达真正的护城河在于 "CUDA 以及 NVLink 这样的软件和互连体系 ",而不仅仅是单一代 GPU 的性能优势。

这一体系优势在 2012 年迎来爆发点,多伦多大学的 Alex Krizhevsky 等人利用两块英伟达 GPU 在 ImageNet 挑战赛上训练出 AlexNet 并一举夺魁,展示了大规模神经网络与 GPU 并行计算结合的巨大潜力,成为行业关注的里程碑事件。

但在深度学习浪潮爆发的同时,大规模神经网络对算力效率和能耗也提出新要求。此时,谷歌意识到,依赖通用 GPU 在大规模推理和训练时,存在着成本高且功耗大等问题。

于是,从 2015 年起,谷歌开始研发 TPU ——一种面向神经网络推理负载的定制芯片。彼时的目标还不是今天的通用 AI 计算,而是支撑搜索、翻译和广告等核心业务中的深度学习模型,在数据中心内以更低能耗、更稳定时延完成大规模推理任务。

2018 年,谷歌将 TPU 正式引入 Google Cloud,对外开放使用,试图证明 TPU 在云端的现实价值。ResNet-50 等模型的测试数据显示,TPU 上训练可显著缩短时间并降低成本,使原本需要数天的任务在更短周期内完成。

不过,在几年后的生成式 AI 爆发初期,英伟达迅速成为了那个最大赢家。2020 — 2022 年,大模型训练从研究走向工程化,A100 等 GPU 凭借成熟的软件生态和稳定供给,成为各大云厂商和模型公司的默认选择。

TPU 的转折点,出现在算力需求持续放大之后。2023 年起,随着大模型推理负载激增、电力与成本压力上升,谷歌 TPU 因在单位能耗和价格性能比上的优势开始受到行业重视,逐步获得更广泛采用。

字母 AI 在此前的报道《AI 在美国 " 与民争电 "》中曾披露,AI 数据中心的惊人能耗,已经迫使美国 AI 企业亲自下场,投身能源基础设施建设。因此,TPU 的能耗和成本优势,无疑是吸引诸多 AI 企业用户的重要因素。

另一方面,为降低开发者迁移门槛,谷歌近年明显加大了 TPU 的软件生态投入。去年,曾有多家外媒披露,谷歌正推进代号为 TorchTPU 的内部项目,核心目标是提升 TPU 对 PyTorch 的原生支持能力。

据了解,该项目与 Meta 的需求密切相关,部分软件组件可能开源,以缩小 TPU 与英伟达 GPU 在主流开发环境中的使用差距。

事实上,以谷歌为代表的 TPU 生态的发展,一定程度上也宏观层面,对冲了英伟达一直占据绝对主导地位的担忧。

" 让一家企业成为全球 AI 未来的守门人是危险的,会带来严重的经济风险。" 美国参议员伊丽莎白 · 沃伦,曾这样呼吁美国司法部启动对英伟达反垄断调查。

尤其对于 OpenAI 这样的头部模型公司而言," 合纵联横 " 的算力格局,无疑比依赖单一技术路线更具战略弹性。

03  

OpenAI 的 " 摇摆 " 和 " 押注 "

在大模型爆发期,OpenAI 就与对英伟达的算力体系紧紧捆绑在一起。公开信息显示,在 GPT-3 时代,OpenAI 曾动用约 3,600 台 HGXA100 服务器、近 3 万块英伟达 GPU 进行训练。

这种紧密的关系一直持续到今天,去年年底,OpenAI 宣布和英伟达展开新一轮合作,计划部署至少 10 吉瓦的英伟达算力系统,这些系统将包括数百万块英伟达 GPU,用于训练并运行下一代模型。首批算力预计将在今年下半年上线。

不过,这种紧密捆绑背后,OpenAI 也在探索 " 去中心化 " 的举措。尤其是随着近年来模型规模与推理负载急剧上升,新的算力供给路径迫在眉睫。

去年 6 月,有媒体披露称 OpenAI 开始通过 Google Cloud 租用 TPU,为包括 ChatGPT 在内的产品提供部分推理算力,希望借此降低推理成本。这是 OpenAI 首次计划批量使用非英伟达芯片。

OpenAI 发言人随后称 " 公司目前仅处于对部分谷歌 TPU 的早期测试阶段,尚无计划进行大规模部署。"

但这份相对克制的回应,仍难以掩盖 OpenAI 寻求供应链平衡的意图。Forrester 高级分析师 Charlie Dai 此前指出,OpenAI 开始测试 TPU,反映出 " 随着推理成本不断上升,AI 提供商正尝试在英伟达 GPU 之外,寻找更具成本控制能力的专用方案 "。

而在几个月后,OpenAI 在 10 月宣布与 AMD 签署协议,将在未来几年部署最高 6 吉瓦的 AMD GPU 资源,计划从今年下半年开始落地,进一步做实了上述观点。

时间来到 2026 年初,近期,Cerebras 也被纳入 OpenAI 的算力 " 鸡蛋篮 "。外媒报道称,双方签署了一项多年期协议,总额超过 100 亿美元,对应最高 750 兆瓦算力,并将分阶段交付至 2028 年。

OpenAI 在公告中由高管 Sachin Katti 发言,称其算力策略是构建一个 "Resilient Portfolio"(有韧性、抗风险的算力组合),按不同负载匹配不同系统;在这一组合中,Cerebras 以 " 低时延推理 " 能力发挥补位作用。

值得关注的是,在技术路线上,Cerebras 走的是另一条路:把整片硅晶圆直接做成一颗 " 晶圆级芯片 "(WSE-3)。

Cerebras 一颗芯片面积约 4.6 万平方毫米,是英伟达主流数据中心 GPU(约 800 平方毫米)的数十倍,集成约 4 万亿晶体管和 90 万个核心,并将计算与存储高度集中在同一器件内,从而减少 GPU 集群中常见的跨卡通信瓶颈。

而在资本层面,这桩合作背后有一个无法忽视的背景:OpenAI 首席执行官奥特曼,此前以个人身份投资过 Cerebras。

另一边,OpenAI 的布局并未止步于引入外部算力替代方案。去年以来,多家外媒披露 OpenAI 已在内部组建芯片团队,并与博通展开合作,推进自研 AI 加速器芯片,研发重点是围绕自身模型体系,优化推理负载与系统级效率。

奥特曼曾在和博通的合作公告中表示:" 通过开发我们自己的加速器(芯片),可以将我们在最前沿模型和产品设计中学到的经验直接嵌入硬件,从而释放更强大的能力。"

而在谷歌 TPU 和其他供应商之间的摇摆,一定程度上也映射出 OpenAI 对于谷歌这位竞争对手态势的警惕。

苹果在近期宣布与谷歌达成多年合作,将用 Gemini 模型升级 Siri 与 Apple Intelligence。毫无疑问,这一合作将强化谷歌在与 OpenAI 竞赛中的位置,巩固其在移动端 AI 入口的生态影响力。

更长远地看,美国 AI 算力产业格局并非单纯的阵营间的商战,而是一条可跨越的 " 楚河汉界 "。在基础设施层,英伟达与谷歌分别构筑起两套稳定运转的算力基座,成为企业绕不开的长期投入方向。

但这条 " 界线 " 并不意味着割裂。对模型公司而言,算力是必须 " 合纵 " 的底座,而产品与模型竞争才是真正的战场。越是头部玩家,越需要在底层结盟、在上层博弈。

作为模型侧的头部玩家,OpenAI 的多路径布局,正是这一现状的缩影:既要依托英伟达的强大生态,但也不能持续单点依赖。同时开始布局自研算力,为下一轮算力与模型竞赛预留空间。

2026 年,美国 AI 产业的 " 楚河汉界 " 之间," 合纵连横 " 的戏码仍将继续上演。

欢迎在评论区留言 ~

如需开白请加小编微信:dongfangmark

评论
大家都在看