腾讯科技 5小时前
中美算力,站在2000亿美元的分岔路口
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

" 全球人工智能投资规模 2025 年或将接近 2000 亿美元。" 高盛 8 月份的一份报告中写道。

虽然争夺算力是追逐超级智能的明牌项,但中、美这两个最大的玩家,却站在分岔路口:中国这边不断地在性能上追分,美国那边虽没有被算力困住,却被能源所 " 卡脖子 "。

时针拨回到 2023、2024 年,抢算力成为 " 全球共识 " ——无论硅谷巨头、主权基金,无不寄希望从英伟达的手里,抢到更多的 H100 产能。

但是站在 2025 年年末回看,尽管抢算力的趋势没有根本改变,但各大云厂下单为了计算总拥有成本,已经把计算器按冒烟。

在英伟达的身后,谷歌十年磨一剑,在 Gemini 3 的训练上让自研芯片 TPU 脱颖而出,为专用集成电路(ASIC)赢得极其重要的话语权。

在谷歌身后,亚马逊、Meta、微软一众老巨头,以及 OpenAI、xAI 这样的新贵,无一例外的下场自研。

资本市场随即给出结论:英伟达市值上限 5 万亿美金。

2025 年下半年之前,泡沫并不是主旋律,但随着山姆 · 奥特曼拿出 1.4 万亿美元的庞大基础设施建设计划,尤其是背后的循环交易、举债融资,引发外界对泡沫的担忧。

泡沫理应关注,但在先进算力禁运的背景下,泡沫显然不是中国算力、大模型的重点。

相比硅谷,中国 AI 产业走的非常曲折、艰难,但成果也颇丰——我们有世界顶级的开源模型,有成熟的应用生态,更有数倍于硅谷明星公司的 Tokens 使用量。

在有限的空间里,过去中国大模型一直使用英伟达供应的 " 阉割版 " 次等芯片,但今年开始,这个趋势将慢慢得到改变——机构伯恩斯坦的数据显示,中国本土 AI 芯片品牌渗透率已从 2024 年的约 29%,快速提升至接近 60%。

同期,中国英伟达们纷纷冲刺上市,背后是中美科技竞争加剧和国产替代需求的爆发。

在这个大环境下,越来越多的中国芯片企业试图通过 " 超节点 " 的形式,以绕开单芯片性能不足的问题,这反映出中国人工智能产业的智慧和韧性。

硅谷巨头

从 CapEx 到 CapEx+TCO

回望 2023 与 2024 年,全球 AI 算力市场的主旋律是恐慌与抢购,在那两年里,无论是硅谷巨头还是主权基金,唯一的 KPI 就是抢到尽可能多的 H100。

根据 UBS 的数据,2025 年全球 AI 芯片市场规模虽然预计将突破 2000 亿美元,但增长的内驱力已发生质变。

现在的云厂商在下单前,不再只盯着性能参数,而是开始拿着计算器审视 TCO(总拥有成本)。

今年美国主要云服务提供商如亚马逊 AWS、微软 Azure 和谷歌云,正以前所未有的激进姿态加大资本开支(CapEx)。

高盛预测,2025 年五大巨头的资本支出将达到 3800 亿美元,用于 AI 基础设施扩张和数据中心建设,以应对爆炸式增长的计算需求。到 2027 年,总规模将超过 5400 亿美元。

云长的投资反映了激烈的竞争,但和以往不同,所有人都不得不考虑效率问题,不得不精打细算考虑经济账。

在这个过程中,还有一个值得关注的信号:2025 年的算力市场不再是单纯的 " 卖卡 " 生意,数据中心的基建进入了机架级时代。

如今,交付到云厂商的是集成了计算、高速互联、甚至液冷系统的完整机柜。与此同时,由于单机架功耗普遍突破 100kW,电力供应已成为限制 2025 年算力总量释放的物理天花板,而非芯片产能本身。

今年 AI 产业的另一一个显著的标志就是推理的需求越来越多。算力中心的工作负载正从 " 暴力堆算力跑训练 " 转向 " 大规模、高并发的推理调度 "。

大摩预测,2026 年推理算力需求将超过训练需求。

这意味着,市场对芯片的要求不再仅仅是单卡极致的算力峰值,而是单位成本下的 Token 输出效率。

这种需求偏移,也变相给了非英伟达阵营更多生存空间,因为在推理侧,性价比往往比绝对生态优势更具杀伤力。

当然,推理需求的暴涨也给广大的 " 赛博玩家 " 一记暴击——存储价格暴涨。

英伟达是 " 一超 ",谷歌领衔 " 多强 "

2025 年,数据中心 AI 芯片市场呈现典型的 " 一超多强 " 格局。

凭借 Blackwell 架构的领先性能、NVLink 互联生态和大规模部署,英伟达占据主导地位,市场份额约占 80% 以上,凭借年度旗舰 GB200&GB300 系列,继续以 " 一超 " 的姿态,主导训练和推理领域。

AMD、谷歌、亚马逊、微软和 Meta 作为 " 多强 ",通过自研 ASIC 加速器,积极优化内部云基础设施、降低成本并逐步向外部开放,挑战英伟达的垄断。

这些公司主要从自身大规模 AI 需求出发,开发专用芯片,强调能效、规模化和特定工作负载优化。

AMD 通过 Instinct MI 系列在数据中心市场快速崛起,已吸引 Meta、微软和 Oracle 等客户。

2025 年 MI350 系列已大规模可用,在某些 MoE 模型上性价比突出。MI400 系列计划 2026 年推出,支持更大规模机架级集成。

亚马逊 AWS 的自研 Trainium 系列针对数据中心训练和推理,Trainium3 采用 3nm 工艺,支持 144 芯片集成,峰值超 362 PFLOPS,专门针对 Agent 代理、推理和视频生成等下一代应用优化,支持 PyTorch/JAX 无缝迁移,可扩展至百万芯片超大规模集群。

亚马逊策略是垂直整合 Bedrock 平台,吸引 Anthropic 等客户,显著降低 token 成本,在 AWS 生态内提供高性价比替代。

Meta 的 MTIA 系列专注内部数据中心推荐和排名模型,核心策略是基础设施自主化,减少成本,主要内部使用(如 Facebook/Instagram 推荐),尚未外部开放,但正扩展至生成 AI 训练。

2025 年下一代 MTIA(基于 5nm)已测试并部署,提供 3.5 倍密集计算和 7 倍稀疏计算提升,内存带宽翻倍,效率较 GPU 高 2 倍。MTIA 与下一代 GPU 协同,支持 Llama 系列推理。

和其他巨头一样,微软过去两年也在推动自研 Maia 系列,但一直 " 掉链子 "。

Maia 系列的首款产品 Maia 100 在 2023 年底发布,被视为微软进军自研芯片的标志性动作,不过参数远不及同行同期的产品。Maia 200 更是一波三折:原计划 2024 年完成流片,但设计过程中出现多个技术问题,导致流片延迟至 2024 年底,2025 年才启动量产。

根据 SemiAnalysis 的信息,Maia 200 的性能未达预期,被内部评估为失败项目,即便量产也难以支撑核心 AI 工作负载。而计划在 2027 年部署的 Maia 300,虽然瞄准 2nm 工艺,目标是接近内部性能预期。

在 " 多强 " 的阵容当中,不得不提的是谷歌十年磨一剑的 TPU。

谷歌的 TPU 系列专注云端数据中心,最新的第七代 Ironwood 支持高达 9216 芯片的节点规模,提供超过 4 倍于前代 Trillium 的单芯片性能。

都在说 ASIC 在慢慢赶超 GPU,但对英伟达来说,真正意义上的变数还要数谷歌 TPU。

长期以来,TPU 作为谷歌内部 AI 工作负载的核心支撑,主要服务于搜索推荐、广告等业务,即便 2018 年通过谷歌云对外开放,也未推进全面商业化。

近几个月,这一局面发生根本性转变:谷歌调动全技术栈资源,通过 " 云端服务 + 硬件直售 " 双路径开放 TPU 能力,正式以硬件供应商身份入局 AI 算力市场。

这一战略转型已取得显著成效:Anthropic、Meta、OpenAI、xAI 等头部机构陆续加入 TPU 采购队列,其中 Anthropic 与谷歌的合作堪称标杆——不仅部署规模超 1GW 的 TPU 计算集群,更签订 100 万个 TPU 的合作协议,分两阶段落地 40 万个直供 TPUv7 Ironwood 和 60 万个 GCP 租用 TPUv7,对应订单金额超 520 亿美元。

订单背后,关键支撑在于:Gemini 3、Opus 4.5 这些业界领先模型,均基于该芯片训练,所谓 " 好不好看疗效 "。

不过,TPU 的过去 10 年研发路,也不是一帆风顺,TPUv4、v5 的计算吞吐量曾显著落后于同期英伟达旗舰产品,直到 TPUv6 通过将脉动阵列规模从 128×128 提升至 256×256,实现算力翻倍且能耗降低。TPUv7 则沿用 3D 环面(3D Torus)架构,在实际场景中展现出更优的 TCO 表现。

现在,很多网友们都在讨论 TPU 进入国内的可能性,有两个关键问题:其一是性能超规,这很好理解;其二是生态问题。

生态问题上,即便在北美,大家都是租用谷歌云上的 TPU 算力,如果云厂自己买回去建 TPU 集群,会增加非常多的调试时间,而且还要学会使用 TPU 的软件生态,在没有谷歌的支持下,难度可想而知。

" 中国英伟达 " 上市潮

超节点与华为昇腾

2025 年,对于中国的 AI 芯片来说,是不平凡的一年。

寒武纪在今年走出了一波大行情,市值最高一度突破 6000 亿,成为 A 股 AI 芯片龙头标杆。摩尔线程和沐曦也成功在科创板上市。

其他几个耳熟能详的国产 AI 厂商,比如壁仞科技、天数智芯、遂原科技、昆仑芯也基本都在上市的路上。

这一轮国产 AI 芯片上市潮背后,是中美科技竞争加剧和国产替代需求的爆发——美国对高端 GPU 的出口管制,推动国内巨头和初创企业加速自主研发,同时资本市场对 AI 算力的追捧,让这些高研发投入的公司迎来融资窗口期。

尽管多数企业仍处于亏损阶段,但高估值反映了投资者对未来国产芯片在智算中心、大模型训练等领域的期待,这一潮涌不仅带来了资金活水,也标志着中国 AI 芯片产业从 " 跟跑 " 向 " 并跑 " 迈进的关键转折。

之所以说是关键转折,原因在于,2023 年英伟达凭借其 CUDA 生态和领先的 GPU 性能,几乎垄断了全球和中国 AI 算力市场,市场份额一度高达 80% 以上,尤其在数据中心和训练大模型领域,英伟达的 H100 和 A100 系列芯片成为不可或缺的核心,国产厂商难以撼动其地位。

受美国出口管制的持续影响,特别是对先进 AI 芯片的禁售,英伟达在中国市场的份额急剧下滑,这为国产 GPU 提供了绝佳的渗透机会。

根据伯恩斯坦的数据,本土 AI 芯片品牌渗透率已从 2024 年的约 29% 快速提升至 2025 年的 59% 以上,特别是在智算中心和云服务领域,国产芯片的采用率显著上升。

转变得益于 " 国产替代 " 的强势推动和产业链的加速成熟。

具体来说,华为的 Ascend 系列性能已接近英伟达 H200 的 80%,并在多家数据中心大规模部署;其他厂商如阿里的 PPU、昆仑芯、寒武纪、壁仞、天数智芯和燧原,也通过异构计算和生态兼容性提升,逐步蚕食市场空白。

整体而言,中国 AI 芯片市场正从英伟达 " 一超独大 " 的垄断格局,向 " 百花齐放 " 的多强竞争演变。

预计到 2026 年,国产 GPU 在国内渗透率将进一步突破,这不仅降低了供应链风险,还推动了 AI 算力的自主可控和成本优化。

单芯片性能在不断追赶,整个算力产业都涌向 " 超节点 ",以规避单芯片性能还不足的问题,更体现了中国人的智慧。

超节点是将大量 AI 加速卡通过高速互联整合成逻辑上统一的 " 巨型计算机 ",有效解决传统集群通信延迟高、扩展性差等问题,支持万亿参数模型高效训练和推理。

目前,中国已推出多款商用超节点产品,单节点规模从 128 卡到 640 卡不等,技术路线涵盖电互连、光互连和开放架构。

互联技术是国产超节点的核心突破,传统以太网和 PCIe 难以满足万卡级通信需求,头部厂商自研高速协议成为标配:华为 " 灵衢 " 协议单芯片互联带宽达 2TB/s、卡间延迟仅 2.1 微秒;海光 / 曙光 HSL 协议支持 112G 高速互联,并通过专用交换芯片实现节点内全带宽点对点互联,避免出节点转发,这种低延迟、高带宽设计极大降低了分布式训练中的通信开销。

目前,已有多个超节点项目落地,但大规模商用预计 2026 年真正爆发,所以我们也常说,2026 年将迎来 " 超节点战争 "。

尽管超节点可以部分补齐单芯片算力不足的问题,但挑战仍然存在,包括软件生态优化、先进制程与 HBM 产能瓶颈。关于国产算力,不得不提的是华为。根据 IDC 的数据,明年昇腾的出货量将占比中国 AI 芯片总出货量的一半。

9 月份的全连接大会上,华为直接亮出了昇腾系列路线图。

根据规划,2026 年至 2028 年,华为将分阶段推出四款新芯片:2026 年第一季度发布昇腾 950 PR(专注推理 Prefill 和推荐场景);2026 年第四季度推出昇腾 950 DT;2027 年第四季度推出昇腾 960;2028 年第四季度推出昇腾 970。

昇腾 AI 芯片路线图

这一路线图延续了昇腾从 910 系列(2018 年起)到 910C(2025 年推出)的迭代路径,结合 Atlas 超节点技术,支持大规模集群部署。

关于昇腾的 950 PR,最近大家在网上都能看到一些性能参数,对华为来说,其目前的核心并不是在训练上要去掉英伟达,而是让自己的芯片被更多的用户使用起来。有可能会被忽视的关键数据:在 950 PR 中,增加了 SIMT/FP8/F4,这些都对推理有明显的改善。

有泡沫,那就挤掉

当奥特曼的 1.4 万亿美元投资重塑 AI 产业格局,当英伟达市值一路飙升至 5 万亿美元,当 AI 概念股成为资本市场的香饽饽,关于 AI 是否处于泡沫的争论变得异常激烈。

有人将当前的资本狂热比作 2000 年互联网泡沫的重现,也有人坚信这是技术革命的必然序曲,这些都是基于不同视角、立场得出的洞察,都有存在的合理性。

乐观派坚定看好 AI 的长期价值,认为当前的高投入与高估值并非炒作,强调 AI 将创造 20 万亿美元的经济价值,仅生成式 AI 就有望提升劳动生产率 15%,这种技术赋能的潜力足以支撑资本的热情。

从数据来看,以英伟达为代表的龙头企业并非空谈概念,其凭借 GPU 技术占据 AI 价值链 35-40% 的资本支出份额,2025 年营收预计超 2000 亿美元,扎实的盈利能力成为估值的重要支撑。

谨慎派则认为市场存在潜在的风险,企业对债务融资的依赖度不断上升,五大 AI 超大规模企业现金资产占比已从 2021 年底的 29% 降至 2025 年二季度的 15%,债券与私人信贷成为主要融资渠道。

更值得关注的是,AI 产业呈现明显的结构性失衡:上游算力硬件景气度高涨,但中游多数初创模型企业缺乏商业化能力,下游 80% 部署 AI 的企业尚未实现净利润提升。

换句话说,源源不断地投钱,却没有在商业收入上高效转化。

判断 AI 是否处于泡沫,不能仅凭市场热度,而需从估值水平、盈利支撑、产业逻辑三个核心维度理性分析。

从估值来看,当前美国科技巨头的估值并未达到历史泡沫峰值。

被称为 " 美股七姐妹 " 的核心科技股当前市盈率约 31 倍,远低于 2000 年互联网泡沫时期的极端水平。

更重要的是,这些企业大多具备强劲的现金流和造血能力,与当年缺乏盈利支撑的互联网初创企业有本质区别。

从产业逻辑来看,美国 AI 硬件投资自 2023 年已增长 2000-3000 亿美元,数据中心、算力基础设施的建设虽然存在局部过热迹象,但背后是真实的产业需求支撑。谷歌 TPU 芯片对外供货引发的 " 鲇鱼效应 ",更证明 AI 产业正从垄断走向多元共生。

关于部分企业 " 闭环买卖 " 的模式——英伟达投资 xAI 后 xAI 随即采购其芯片,微软投资 OpenAI 后获得巨额云服务订单——可能导致估值虚高,进而带来局部泡沫,尤其是美国前十大科技股占全球股市近 25% 的极高集中度,也让市场波动的传导风险不容忽视。

但市场不是从来就是二八分化,优势资源集中在 20% 的机构手里?

从我们的视角来看,所谓 AI 泡沫:只是短期利益与长期价值、资本狂欢与技术本质的博弈。

即便是真有泡沫,挤掉就是。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

英伟达 谷歌 人工智能 芯片 美国
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论