AI芯片大战，愈演愈烈

想象一下，一座灯火通明的巨型数据中心，宛如一座不眠之城。数万块 GPU 不停运转，风扇轰鸣如瀑布。电流在机架间流淌，仿佛整栋建筑本身就是一个活生生的有机体。几乎在每一块电路板上，你都能看到熟悉的绿色英伟达标志，它为从生成式人工智能到搜索、推荐，再到你现在正在使用的聊天机器人等一切应用提供动力。

但仔细观察一下。在同一数据中心的某个角落，另一种芯片正在悄然崛起。谷歌的 TPU Ironwood 和亚马逊的 Trainium3 正蓄势待发，准备挑战英伟达在人工智能芯片领域的统治地位。这场迅速成为十年来最具决定性意义的科技战役的较量，即将上演。

英伟达的统治地位既有利可图，又实力雄厚，但也日益引发问题。

我们先来看数据。英伟达最近公布的季度营收为 570 亿美元，其中高达 512 亿美元来自数据中心 GPU。其 GAAP 毛利率高达 73.4%，这一数字甚至超过了大多数软件垄断企业。

简单来说，英伟达每售出一块 GPU 就能带来巨额利润。这就是为什么投资者称英伟达为人工智能时代的 " 军火商 "。但这种利润也给其他人带来了负面影响。训练前沿模型需要成千上万甚至数万块 GPU。再加上 HBM 显存、海量存储集群、先进的网络以及飙升的电费，成本结构就变得异常高昂。许多人工智能服务即便深受用户喜爱，仍然难以盈利。

所以高管和投资者一直在问同一个问题。

我们还能承受英伟达这样的高价多久？

正是这个问题为谷歌和亚马逊打开了机会之门。多年来，它们一直是英伟达最大的客户，如今，它们已经到达了一个转折点。

如果 GPU 成本持续攀升，我们还不如自己制造芯片。

谷歌的 TPU Ironwood 在数据中心悄然展现其强大实力。

谷歌最新推出的第七代 TPU，名为 Ironwood，是一款专为高吞吐量机器学习任务打造的 AI 加速器。它提供 4614 TFLOPS 的 FP8 运算能力，配备 192 GB 的 HBM3e 内存，带宽约为每秒 7.3 TB。

真正的亮点在于规模。多达 9216 个这样的芯片可以连接成一个超级处理器，其 FP8 运算性能超过 40 exaflops，共享内存高达 1.7 PB。谷歌将整个系统称为人工智能超级计算机。

谷歌甚至公开将 Ironwood 与英伟达即将推出的 GB300 进行比较，声称其在 FP8 性能方面具有优势。信息很简单。

英伟达并非唯一能够驱动人工智能未来的引擎。

Ironwood 目前已在 Google 内部运行工作负载，并通过部分 Google Cloud AI 实例提供。虽然尚未正式公开发布，但这足以表明长期以来由英伟达主导的时代正在发生转变。

亚马逊的 Trainium3 旨在重塑人工智能基础设施的经济格局。

接下来是亚马逊网络服务（AWS）。AWS 推出了由 Annapurna Labs 设计、采用 3 纳米工艺制造的第三代人工智能芯片 Trainium3。该芯片拥有 2.52 FP8 petaflops 的运算能力、144 GB 的 HBM3e 显存以及 4.9 TB/s 的带宽。

AWS 将 144 个这样的芯片集成到全新的 EC2 Trn3 UltraServer 中。单个机架即可达到 362 FP8 petaflops 的运算能力、20.7 TB 的 HBM3e 内存以及每秒 706 TB 的带宽。它专为巨型模型训练和上下文长度远超百万个令牌的工作负载而设计。

背后的策略很简单。

AWS 希望为客户提供更便宜的 AI 基础设施选项，并夺取目前流入英伟达口袋的利润。

其中一项重大变化尤为引人注目。AWS 宣布下一代 Trainium 4 将通过 NVLink 与 Nvidia GPU 互操作。这种混合方案将高强度任务分配给 Nvidia 硬件，而将低压力的推理工作负载分配给 Trainium，从而构建一种旨在降低总体成本而非完全淘汰 Nvidia 的混合架构。

开发者依然钟爱英伟达，因为 CUDA 坚不可摧。

目前看来，切换到 TPU 或 Trainium 似乎很容易。但如果你问真正的工程师，他们会反复给出同样的说法。

CUDA 用起来更简单。

自 2006 年以来，英伟达一直致力于将 CUDA 打造成全球最先进的 GPU 编程生态系统。早在生成式人工智能爆发之前，研究人员、物理学家和深度学习先驱们就已在 CUDA 上开展早期研究。即使在今天，新的机器学习功能通常也会率先登陆英伟达硬件。

企业面临着两难境地。他们的整个代码栈、流水线和自定义内核都针对 CUDA 进行了优化。切换到 TPU 或 Trainium 需要重写和重新调优庞大系统中的代码。理论上的成本节省并不总是能抵消实际风险。

谷歌和 AWS 都强调他们的芯片兼容 PyTorch、TensorFlow 和 JAX，并经常表示切换框架就像更新一行代码一样简单。这或许适用于小型演示，但生产级人工智能则截然不同。它是由定制内核、通信层和手工调优的优化算法构成的复杂迷宫。

这就是为什么英伟达的堡垒比看起来更难攻破的原因。

英伟达的反击：以绝对速度超越所有人

英伟达清楚地看到了这一威胁。正因如此，它提前采取了行动。在 Blackwell 架构尚未大规模部署之前，该公司就发布了 Rubin 架构和下一代 Vera Rubin NVL144 系统。

Rubin 的目标是每个 GPU 的 FP4 推理性能达到 50 petaflops。NVL144 机架的性能超过 3.6 exaflops，是上一代 GB300 NVL72 性能的三倍多。

随后，英伟达推出了 Rubin CPX，这是一款配套的推理芯片，负责处理长上下文信息，而 Rubin GPU 则专注于信息生成。Vera Rubin NVL144 CPX 机架组合的目标是实现 8 exaflops 的 NVFP4 性能、100 TB 的内存和 1.7 PB/s 的带宽。

这就是英伟达的战略。

如果竞争对手赶上，那就加快产品路线图，直到他们追不上为止。

对于投注 TPU 或 Trainium 的客户来说，这提出了一个现实的问题：两三年后，经济形势会再次逆转吗？

英伟达能否保住王座？

三种情况似乎最有可能发生。

第一，英伟达虽然保住了霸主地位，但利润率有所下降。随着谷歌、AWS 和 AMD 的规模不断扩大，英伟达 70% 的利润率不可能永远维持下去。

第二：市场将呈现多极化格局。就像 CPU 最终分化为英特尔、AMD、ARM 和各国芯片公司一样，人工智能加速器市场也可能遵循同样的路径。英伟达仍将保持领先地位，但不再拥有垄断权力。

第三：人工智能泡沫破裂。企业热情降温，GPU 支出放缓，英伟达首当其冲。但就目前的普及模式而言，这更像是放缓而非崩溃。

最现实的路径是方案一和方案二的结合。英伟达依然是行业巨头，但谷歌和亚马逊已经悄然入局，蚕食着自己的地盘。

这对其他人意味着什么

所以，对于普通用户和开发者来说，真正的问题是这样的。

十年后，人工智能的使用体验和成本会有多大变化？

人工智能订阅服务会变得更便宜吗？模型能否处理更长的上下文窗口，或者在文本、视频、3D 和游戏等多种应用场景下流畅地进行多任务处理？我们是否会看到一个由专用芯片主导应用程序演进的人工智能生态系统？

人工智能芯片之战不仅仅关乎谁胜谁负，更关乎谁将改写未来十年计算机领域的规则。

英伟达依然稳坐霸主地位。但谷歌和亚马逊已不再是局外人，它们正在庭院内磨砺利刃。

人工智能的未来将取决于这些玩家如何选择战斗方式。

* 免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

宙世代

一起剪

相关标签