算力是人工智能最重要的基础设施和发展引擎。AI 算力的代表企业英伟达(NVIDIA)凭借性能先进的产品和难以复制的生态,在 AI 训练及推理芯片领域建立起了近乎垄断的领导地位,成为全球价值最高的上市公司。截至 2025 年 11 月,英伟达的市值约 4.5 万亿美元,2025 年第三季度营收同比增长约 62%。
英伟达并不缺少挑战者,在美国既有传统的芯片巨头 AMD 和英特尔,也有谷歌的 TPU、亚马逊的 Trainium(训练芯片)和 Inferentia(推理芯片)等科技巨头的自研算力,还有 Cerebras、Groq 等专注机器学习优化架构的新锐挑战者;在中国市场也有华为、寒武纪、燧原等快速成长的 AI 算力芯片厂商。但到目前为止,他们都还很难称得上是英伟达的对手,难以撼动英伟达的领导地位。不过,未来这一点未必不会改变。
英伟达的竞争壁垒
AI 算力芯片有两个主要应用场景:训练和推理。训练是模型从大量数据中 " 学习 " 知识(调整神经网络的参数),推理是把训练好的模型用在实际场景中。在大模型发展的初期和中期,训练算力是核心瓶颈,决定了模型的 " 高度 ",是算力芯片的战略制高点,所以我们在此着重讨论训练。
英伟达在训练算力上有统治性的地位。这种优势来自两个方面:先进的技术和生态的垄断。
主流大模型的参数规模已达千亿、万亿级别,训练时要对海量数据进行大规模计算,单机算力早已远远不够,必须依托大规模芯片集群完成训练;要令这复杂而成本高昂的训练易于展开、效率高、稳定可靠,还需要一整套的软件系统和工具来作为连接训练工程师、算力芯片和模型的桥梁。因此,我们大致可以将训练对算力芯片的要求拆解成单芯片性能(单卡性能)、互联能力和软件生态三部分。
单芯片性能原本主要指计算能力(FLOPS,每秒浮点运算次数);因为训练大模型需要加载海量参数、进行大量的数据快速吞吐,所以还需要为训练芯片配置大容量高带宽的存储(HBM)。因为工艺的差异,通常会把显存和算力芯片做成独立的芯片,然后封装在一起或在电路板上集成,所以叫单卡性能更准确。用户们会关注单卡的计算能力、显存容量与带宽、计算精度、功率与能效等。英伟达在单卡性能上处于行业顶尖水平,但竞争对手也在追赶,尤其 AMD 的最新产品在主要性能指标上已经达到接近英伟达同期产品的水平。不过对于 AMD 等企业的坏消息是,单卡的性能迫近英伟达,并不足以撼动英伟达在 AI 训练领域的领先优势。
互联能力对大模型训练非常重要,大模型训练本质上是 " 分布式并行计算 " 问题,互联就是分布式的 " 血管与神经 "。前沿大模型的训练要求数万张算力卡的互联并行工作,这对大模型厂商是极具挑战的工程,对算力芯片厂商的要求也极高。英伟达凭借专有互联技术 NVLink、高性能的通信交换硬件 NVSwitch 等做到了万卡级的高效、稳定互联;其他 AI 芯片企业实际落地的集群规模大部分仍停留在千卡规模,且很多是采用切割成多个小规模集群的方式进行部署,与英伟达的纯万卡并行计算集群差距很大。互联的规模、质量、稳定性对算力利用效率、训练时间、训练成本甚至训练成功与否都有显著影响,选择次优的方案带来的潜在损失可能远大于成本的节省,这令英伟达方案有极大的吸引力。这导致即便其他厂商的互联技术能有提升,其缺乏大规模的落地商用实践去发现问题和优化方案,无疑加大了他们在互联能力上挑战英伟达的难度。
除了技术上的优势之外,英伟达更重要的优势在于对算力生态的统治地位。这个生态优势来自软件,而不是硬件。和硬件不同,软件有很强的网络效应,因此能对用户产生巨大的黏性。CUDA 是英伟达有 20 年积累的 GPU 并行计算的编程平台,这个平台上提供了成熟的开发和调试工具、丰富且经过充分验证的软件库和函数库、海量的文档和教程支持,让开发者的工作变得更简单、高效;而 400 多万开发者通过贡献开源库和工具、反馈 bug 和提供最佳实践又令 CUDA 的软件生态变得更好。英伟达的其他软件和工具又和 CUDA 生态配合对用户形成更强的粘性,如英伟达提供的大模型开发框架 NeMo Framework、帮助企业快速部署 AI 的 NVIDIA AI Enterprise 等。
除了开发者,学术界研究员发表的最新 AI 论文(如 Transformer 架构的变体),其开源代码通常只在英伟达 GPU 上验证过。如果你用其他芯片,可能需要自己去写底层适配代码才能跑通这个新模型。这意味着使用英伟达,你能最早用上最先进的技术。更进一步的,全球的高校计算机专业、AI 实验室,教学和实验用的设备几乎全是英伟达 GPU;一个刚毕业的 AI 工程师,大概率已经熟练掌握了 CUDA 编程。如果一家公司决定使用非英伟达芯片,他们可能需要花费巨大的成本来培训员工学习新的开发环境。
这种生态优势有很强的延展性,会吸引众多玩家的深度参与。比如 PyTorch 和 TensorFlow 是最流行的深度学习框架,分别由 Meta 和 Google 主导,但却和英伟达的 CUDA 有深度的生态协同。它们某种程度上是生长在 CUDA 这个生态系统上的,将 CUDA 的生态组件像积木一样构建在自己的底层中,它们借着 CUDA 的并行计算能力触达百万开发者,又反过来作为生态的一部分巩固了 CUDA 和英伟达的竞争优势。
生态优势实际上是一种网络效应,在自然市场中,弱网络很难和强势网络竞争,因为随着网络规模增长,网络价值 / 竞争力呈现超线性的增长(梅特卡夫定律描述为网络的价值和用户数的平方成正比)。英伟达一旦在这种强网络效应的竞争中胜出,就有了非常深的护城河。
英伟达在推理领域的竞争优势相对较弱
一个万卡训练的超大模型,在部署做推理的时候是不需要这么多卡的,通常仅需要几张到几十张卡互联,因为训练时要计算前向传播、反向传播、梯度计算、参数更新的任务,推理时只需要计算前向传播;显存的存储任务也大幅减少。这意味着人们对推理芯片的互联能力要求大幅降低,甚至在一些应用场景下,人们还会把模型蒸馏、量化,使其更小以便可以通过单卡就可以部署,比如智能驾驶就是典型的例子。
相较于训练场景,推理场景下英伟达的生态优势没有那么显著。当模型训练完成时,就已经是一个算法框架确定的 " 成品 " 了,对英伟达丰富的开发生态依赖度降低。此外,行业已经发展出成熟的跨平台迁移办法,可以把英伟达芯片训练好的模型转换成 ONNX 等中间格式,再编译部署到其他的算力平台进行推理工作。
因此,理论上英伟达在大模型推理领域的统治力远不如在训练领域。但这也只是比较而言,实际英伟达仍在推理市场占据超过 70% 的市场份额,因为综合考虑性能、价格、稳定性、开发成本、学习成本、迁移成本(根据我们对某大厂工程师的访谈结果,将模型从英伟达平台迁移至其他品牌集群,可能会导致开发周期延长 6 个月,成本增加 40%)等,英伟达在推理芯片领域的性价比仍很有竞争力。
谁能挑战英伟达?
任何与英伟达的竞争都必须面对来自技术和生态两个方面的挑战。由于生态的壁垒远高于技术的壁垒,要想成功,竞争者就只有两种选项:如果不能避开生态的劣势,竞争者就必须在技术上有非常大的超越;如果技术上没有很大的超越,就必须利用经济以外的方法,人为形成一个保护性的市场,避开与英伟达在生态上的正面竞争。
在美国,英伟达的挑战者主要来自于技术方面,定制 AI 芯片(ASIC 芯片)。比如近期谷歌发布的表现优异的大模型 Gemini 3 就是完全基于谷歌 TPU 训练的。ASIC 和 GPU 的竞争前景取决于牺牲灵活性换取的计算效率是否划算。从 CPU 到 GPU 再到 TPU 为代表的 ASIC 发展,有些像物种的演变,从通用到适应环境和需求的特化。CPU 有最高的适应性,几乎支持运行任何程序和代码;GPU 为图形渲染这个 " 生态位 "" 演化 ",大幅简化了核心,牺牲了在复杂控制逻辑和高度不规则任务上的效率,但通过堆叠数千个简单的核心,擅长同时处理大量相似的计算任务,后来发现这一点也适合用于 AI 计算;而 ASIC 芯片则更进一步只保留和优化支持 AI 计算(矩阵乘法、卷积计算等)的电路,去除所有不必要的单元。那自然ASIC 芯片在做 AI 计算时效率、功耗等方面就更有优势,但一旦模型结构 / 算法范式变动太大,就容易 " 过时 "。
这种来自技术的挑战在短期内不会对英伟达产生实质性的影响,因为技术上的跨越并非巨大,但生态上的劣势却是全方位的。
在中国市场,英伟达遇到挑战更为根本。随着美国政府禁止英伟达将先进的芯片出售给中国市场,中国市场就被动地变成了一个 " 被保护 " 市场,英伟达的生态优势就无处发力。中国的大模型厂商、云厂商、广大开发者、技术人员原本都是英伟达生态的一部分,但现在即使他们想用 CUDA,也面临很大限制。禁令使中国 AI 产业中短期面临阵痛,因为国产的算力芯片和生态还不成熟,要面对算力效率下降的局面。对于中国的算力芯片企业,这又是重大的发展机遇期,在正常市场情况下华为很难说服开发者放弃好用的 CUDA 改用不成熟的 CANN 生态。现在很多开发者开始转向学习 CANN 等平台,也出现了很多抱怨的声音,包括平台仍存在技术问题,需要付出很多学习成本,需要经历 " 踩坑之路 " 等等。但这也意味着,随着更多开发者投入,这些生态会逐渐成熟。而等到学习、迁移成本被 " 消化 ",未来即使禁令解除,他们也不一定愿意回去了。
这种地缘政治造成的旧霸主网络效应失效和新生本土网络的崛起的故事,我们在互联网时代屡见不鲜,中国的大部分互联网巨头的崛起都与此有关。芯片和互联网有所差异,技术突破困难的多,但其生态的网络效应逻辑是高度类似的。
所以说,美国对中国的芯片禁运,其目的是为了限制中国 AI 技术的发展,但副作用是给英伟达催生了一个长期的最强劲的对手。
在我们本次研究即将完成之际,美国政府对中国出口英伟达芯片的最新政策发生了重大转变。2025 年 12 月 8 日,美国政府批准了英伟达向中国市场出售较为先进的 H200 芯片,但附带了政府收入分成和客户审查的条款。这反映出美国意识到原来的禁运做法会削弱英伟达的长期竞争力,转而通过梯度管控的做法在保持芯片技术代差的同时,维持英伟达的生态影响力。
中国市场和政府该如何接招?原来的特供版 H20 和国产领先 AI 芯片处在大致相当的性能区间,而 H200 的算力大约是 H20 的 6 倍,显存容量约为 1.5 倍,综合来看训练时的表现大概领先数倍到十倍以上。
理性的应对策略既不是一禁了之,也不是无条件放开。为了更大的大局——人工智能领域的竞争力,必要的采购应该被允许,比如短期内国产芯片无法满足的核心 AI 项目、前沿大模型的训练和探索性研究等。但另一方面,完全的市场竞争可能令刚刚起步的国产 AI 芯片不堪重负,中国需要设计一套机制来鼓励和扶持国内 AI 芯片企业的发展,让他们有机会在一个相对或局部被保护的市场发展自己的生态。
开源是挑战英伟达的最重要战略考量
需要提醒的是,在看待包括 AI 技术在内的科技竞争时,人们容易犯的一个错误是国产替代思维,但 " 如果仅仅用国产替代来解决卡脖子问题就会引发一个新的问题:世界上其它国家会不会也做同样的事情,对来自中国的技术产生卡脖子的担忧?如果其它国家也采取国产替代的策略来排挤中国科技,我们岂不是又回到了自我封闭的道路?"(详细论述见前作《中国怎么才能赢得创新的战争》和《AI 的开源战略》)
和英伟达的竞争一定是生态与生态之间的竞争,所以开源思维是最优解。 " 开源 " 的战略意义在于构建一个远超 14 亿人的全球性网络,放大人才数量和创新效率,打破脱钩陷阱。华为在今年 8 月宣布将其对标 CUDA 生态的 CANN 和 Mind 工具链全面开源开放,正是这种思维的体现。开源生态可以快速汇聚全球开发者的智慧,更快地发现并修复错误,贡献代码,提出新的功能和优化办法。因为是开源的,理论上国内外的其他芯片厂商也可以加入到这一生态(实际因为芯片架构、指令集差异,目前较为困难),这就能更有凝聚力地打造一个开放、有竞争力的生态。


登录后才可以发布评论哦
打开小程序可以发布评论哦