本文来源:时代周报 作者:朱成呈

过去几年,AI 算力需求的爆发让英伟达一度成为最大赢家。但近期多重信号表明,这种 " 单边行情 " 正在发生变化。行业内部的 " 抱怨 " 与资本市场的情绪在同步转向," 天下苦英伟达久矣 " 不再是一句戏谑,而成为一段市值波动背后的真实写照。自 10 月 29 日以来,英伟达市值在一个月时间里蒸发超 7000 亿美元(约合人民币 5 万亿元)。
11 月 27 日,英伟达创始人黄仁勋现身台北。值得注意的是,他向媒体直言 " 我真的超级累 "。
触发这一轮变化的关键,并非传统意义上的竞争对手,而是谷歌。长期以来保持低调的 TPU 路线,首次站在了主导叙事的位置。
据媒体报道,全球 AI 基础设施投入最大的公司之一 Meta,正在与谷歌洽谈一笔规模可观的芯片采购:从 2027 年起,计划投入数十亿美元购买谷歌的 TPU,用于其数据中心。Meta 今年的资本支出预计在 700 亿至 720 亿美元之间,这笔潜在订单的象征意义远大于商业价值,意味着行业头部玩家对谷歌 AI 芯片体系的认可与验证。
谷歌来势汹汹,英伟达的反击迅速而果断。北京时间 11 月 26 日,英伟达公开表示,公司依然 " 领先业界一代 ",并强调自己是 " 唯一一个可以运行所有人工智能模型的平台,并且可以在任何地方进行计算 "。
英伟达的防御逻辑依然坚硬:与谷歌 TPU 等专用 ASIC 芯片相比,GPU 拥有更优秀的通用性和灵活性。在 CUDA 生态的加持下,英伟达依然掌握着最为广泛的开发者护城河。
但行业的讨论已经转向另一个维度——能效比。AI 训练与推理的规模正继续扩大,而能耗正在成为新的约束。在同等工艺下,TPU 的能效比明显优于 GPU,而 Gemini 3 全程基于谷歌 TPU 训练的事实,使这种优势开始具备现实意义。
除此之外,一个围绕 ASIC(专用集成电路) 路线的新 " 挑战者联盟 " 正在成型:Meta、亚马逊、微软、阿里巴巴、百度等云服务厂商,以及博通、寒武纪等一批芯片企业,都在构建面向特定场景的定制化 AI 芯片。
与此同时,通用 GPU 阵营也出现了更多参与者。AMD、英特尔、海光信息(688041.SH)、摩尔线程(688795.SH)、沐曦、壁仞等公司在持续推出新产品,试图通过系统架构及集群优化提升整体竞争力。
市场对英伟达的看法也在变得更加审慎。从 " 难以替代 " 到 " 存在替代可能 ",情绪的转向往往先于产业格局的转折。
这并不意味着英伟达的主导地位会在短期内动摇。CUDA 生态和通用算力优势依然构成它的核心护城河,但这个行业第一次出现真正能够挑战的变量:当谷歌能用 TPU 训练出最先进的模型,当 Meta 认真考虑将数十亿美元投向竞争对手时,原本牢固的结构开始出现细微裂缝。产业变迁往往就是从这些不易察觉的裂缝开始的。
谷歌 TPU 更有性价比
在硅谷,所有的昂贵最终都会输给 " 够用且便宜 "。
投资者之所以重新评估英伟达的主导地位,很大程度上源于谷歌正在提供一种更具性价比的 "AI 模式 ",依靠功能相对单一但价格更低的自研 TPU,去完成大模型训练。SemiAnalysis 的模型数据显示,谷歌 TPUv7 在成本效率上对英伟达构成了绝对优势。
TPU 是为特定任务(如深度学习中的矩阵乘法和卷积运算)优化的 ASIC,通过牺牲通用性,换取极致的性能和能效。半导体资深专家张国斌在接受时代周报记者采访时表示," 在同等工艺下,TPU 的能效比(性能 / 瓦特)远高于 GPU。例如,最新一代的 Ironwood TPU 的能效比是初代 TPU 的 30 倍。"
事实上,谷歌在这一技术路线上的投入已持续十年。从 2015 年推出第一代 TPU 起,每一代产品都在性能、可扩展性与系统效率上不断提升。伴随光互连技术融入 TPU 系统,谷歌得以在 2025 年的 TPU v7 上构建超过 9000 颗芯片的超大规模集群。
这种提升并未停留在谷歌内部生态。OpenAI 已开始使用 TPU 进行部分训练;Anthropic 明确承诺将以 TPU v5e 作为其下一阶段的大规模训练平台,并强调选择理由是 " 性能与成本的平衡 "。谷歌也在主动将 TPU 网络拓展至中小型云厂商,通过更灵活的合作方式降低进入门槛。
其中最受市场关注的,是谷歌基于 " 硬件即服务 "(HaaS)的合作模式。不同于一次性硬件销售,谷歌保留 TPU 的所有权,将设备部署在合作伙伴的数据中心,并按使用量进行分成。华泰证券研报认为,这是一种典型的 " 游击战式 " 市场渗透策略;巧妙地降低合作伙伴的 capex(资本性支出)进入壁垒,免除新兴和中小型云厂商数十亿美元的硬件投资压力。
此外,谷歌正在打造 " 算力—网络—模型—用 " 全栈体系(TPU+OCS+Gemini+ 云服务),实现了从芯片到应用的深度整合。这种整合使得谷歌可以进行系统级优化,例如数据中心网络拓扑完全为 TPU 超节点服务。张国斌认为,随着竞争对手的不断进步和市场的多样化需求,英伟达的垄断壁垒确实面临挑战。特别是 ASIC(专用集成电路)在特定任务中的高效率和低功耗表现,可能在某些细分市场对英伟达构成实质性威胁。
单卡性能重要性在下降
在单卡性能上,英伟达依旧占据绝对优势,但是超节点集群的高效连接和系统级优化可能削弱英伟达在大规模数据中心和云服务提供商中的优势。
所谓 " 超节点 "(SuperPod),原本是英伟达提出的概念,通过系统级架构创新,将成千上万颗计算芯片紧密耦合为一个高速互连域,以弥补传统服务器之间带宽不足、时延偏高的问题。行业在过去一年里大步走向这一方向,速度超出许多人的预期。
谷歌在 Google Cloud Next 25 大会上正式推出第七代张量处理器 Ironwood,通过其 ICI scale-up 网络,超节点规模可达到 9216 颗芯片,峰值性能达到 4614TFLOPS,是上一代 TPU v5p 的 10 倍。
中国厂商的动作同样密集。华为轮值董事长徐直军在 9 月的公开演讲中判断,超节点已成为大型算力基础设施的主导形态。他透露,超节点产品 Atlas 950 SuperPoD 和 Atlas 960 SuperPoD,分别支持 8192 及 15488 张昇腾卡,在卡规模、总算力、内存容量、互联带宽等关键指标上全面领先,在未来多年都将是全球最强算力的超节点。
阿里云在 2025 云栖大会上推出磐久 128 超节点服务器,依托自研 CIPU 2.0 和 EIC/MOC 网卡,单柜即可容纳 128 颗 AI 芯片。百度昆仑芯今年 4 月已在百舸 5.0 中全面启用超节点,并实现量产部署。
国产 GPU 厂商也在加速追赶:曦智科技联合壁仞、中兴推出光互连 GPU 超节点 LightSphereX;燧原的云燧 ESL 超节点系统单节点可实现 64 卡全带宽互联;沐曦的曦云 C600 支持 MetaXLink 超节点扩展;摩尔线程则以自研 KUAE 计算集群,通过 5D 分布式并行技术实现上千节点协作。
从华为、阿里、百度到 "GPU" 四小龙壁仞、燧原、沐曦、摩尔线程,国产阵营纷纷发力超节点。
华龙证券认为,中美 AI 竞争正从 " 单卡性能 " 走向 " 系统级效率 ",中国正在用集群建设 + 开源生态 + 工程化交付的方式完成 AI 基建方面的弯道超车。
当 AI 算力竞争从 " 芯片之争 " 转向 " 体系之争 "。单卡性能的重要性在下降,系统效率、能效比、规模化集群交付能力正在成为新的评价标准。
对英伟达来说,现实既不至于悲观,也绝不轻松。英伟达依然拥有最成熟的生态、最强大的通用算力体系,以及行业最广的开发者基础。但是谷歌靠 TPU 打开了一个新的可能性窗口,云服务厂商的自研 ASIC 与超节点集群也在持续扩大影响力。围绕 " 够用、便宜、可规模化 ",越来越多的变量正在同时发力。


登录后才可以发布评论哦
打开小程序可以发布评论哦