文 | 半导体产业纵横
当地时间 1 月 13 日,美国政府批准英伟达向中国出口其人工智能芯片 H200。该决定预计将重启 H200 芯片对中国客户的出货。
此前,美国总统特朗普通过社交媒体表示,美国政府将允许英伟达向中国出售 H200 人工智能芯片。据悉,上述对华销售将由美国商务部负责审批和安全审查,美方还将从相关交易中收取约 25% 的费用。特朗普表示,美国商务部正在敲定相关安排细节,同样的安排也将适用于其他人工智能芯片公司,如 AMD 和英特尔公司。
英伟达公司总裁兼首席执行官黄仁勋今年早些时候曾表示,中国是一个非常大的人工智能市场,再过两到三年,中国人工智能市场规模可能会达到 500 亿美元,错失这个市场将会是一个巨大的损失;美国必须认识到,在人工智能竞赛中,美国并不是唯一的国家。
这一出口政策调整,正值国内 GPU 公司密集上市之际。
国产 GPU,迎来热潮
2025 年对国产 GPU 来说,堪称 " 成年礼 ":摩尔线程、沐曦股份成功登陆科创板,壁仞科技、天数智芯加速冲刺港股,资本的加持让国产芯片企业迎来了发展热潮。
12 月 5 日,摩尔线程成功在科创板挂牌,上市首日股价大幅上扬 468.8%,总市值迅速攀升至 3055 亿元,一举跻身科创板市值前五。仅仅十二天后,沐曦股份紧随其后,成为第二家在 A 股上市的国产 GPU 企业,其股价在首日交易中一路飙升,最终收盘涨幅高达 692.95%。
12 月 17 日,壁仞科技正式通过港交所上市聆讯,有望成为首家在港股上市的 GPU 企业。2026 年 1 月 8 日天数智芯正式在香港联合交易所主板挂牌上市。
资本的蜂拥而入,背后是产业逻辑的深刻变革。2025 年全球 GPU 市场规模预计突破 3500 亿美元,中国占比接近 40%。数据中心、人工智能训练与推理、自动驾驶及游戏娱乐成为核心驱动力,其中 AI 应用占比提升至 45%。
资本热捧的背后,是国产 GPU 企业真真切切的技术突破和商业化进展。摩尔线程基于自主研发的 MUSA 统一架构,推出支持全精度计算的 " 花港 " 架构,支持 FP4 到 FP64 的全精度计算,算力密度提升 50%,效能提升 10 倍;壁仞科技凭借 Chiplet 异构集成技术,推出性能对标英伟达 A100/H100 的 BR100 芯片;天数智芯成为国内首家实现 7nm GPGPU 量产的企业,其产品兼容主流 AI 框架。商业化层面,国产 GPU 已从实验室走向规模化落地,百度智能云点亮基于昆仑芯的万卡集群,沐曦股份与之江实验室共建智算集群联合实验室,多家企业的产品已切入政务云、智算中心等核心场景。
但必须清醒认知的是,当前国产 GPU 的突破仍停留在 " 单点技术达标 " 层面,尚未形成 " 全栈生态闭环 " 的核心竞争力。与英伟达 Rubin 平台 " 芯片 - 架构 - 软件 - 生态 " 的全链路优化相比,国产 GPU 的差距并非单纯的算力参数差,而是系统级协同能力的代际差——在高速互连协议、大规模集群调度等关键环节,仍存在明显短板。更核心的问题在于生态:英伟达的 CUDA 生态覆盖了 90% 以上的 AI 框架,软硬件协同能力经过了多年打磨,形成了短期难以撼动的壁垒。当前国产 GPU 厂商各自为战的指令集与软件栈,更导致开发者适配成本高昂。
除此之外,外部市场的核心逻辑也在发生显著转变。
曾几何时,GPU 是 AI 算力的绝对代名词,尤其是英伟达的 H100、A100 系列,几乎是大模型训练的 " 刚需通行证 "。但如今,风向似乎变了。
GPU,第一个挑战
如果把 GPU 比作 " 万能瑞士军刀 ",能应对各种算力场景,那 ASIC 就是 " 定制手术刀 ",专门解决特定问题。而现在,云巨头们越来越偏爱 " 手术刀 " 了。
集邦咨询预测数据显示,2026 年云服务厂商对自研 ASIC 的需求增速将大幅领先 GPU,其中 ASIC 增长率预计达 44.6%,远超 GPU 的 16.1%。
云厂商自研芯片时,通常会选择博通、Marvell、AIChip、联发科等厂商合作设计芯片,再通过台积电等代工厂完成芯片制造,目前博通客户量产节奏领先。
2025 年谷歌推出第 7 代 TPU 芯片 Ironwood,该芯片训练和推理性能比第六代 TPU(Trillium)提升 4 倍。Global Semi Research 数据显示谷歌计划在 2026 年将 TPU 芯片产能提升至 430 万颗,按型号拆分 V6 为 15 万颗,V7 为 135 万颗,V8AX 为 240 万颗,V8X 为 40 万颗。其中 V8 系列合计占比达 65%,显示谷歌正集中资源保障新一代产品的供应。
针对新一代产品开发,Google 已从原先与博通的单一伙伴模式,新增与联发科合作,转为双供应链布局。
2025 年 12 月,亚马逊推出首款 3nmAI 芯片 Trainium 3。Trainium 3 的计算能力较之 Trainium 2 大幅提升。AWS 的合作伙伴包含 Marvell(美满电子)与 Alchip。
Meta正与Broadcom共同开发下一代 MTIA v2。Microsoft(微软)下一代 Maia v2 的设计也已定案。Microsoft 引入 Marvell 共同参与设计开发 Maia v2 进阶版,借此强化自研芯片的技术布局。
国内提供云服务的企业,实际上也推出了自研的 ASIC 芯片。比如阿里巴巴推出了含光 800,百度在量产昆仑芯二代后,又在今年宣布百度智能云成功点亮了首个自研万卡集群,并且宣布是使用的昆仑芯三代 P800。腾讯除了自主研发的紫霄推理芯片外,还通过战略投资,利用 Enflame 的 ASIC 解决方案。
除集邦咨询外,另有两家研究机构发布 2026 年 AI 芯片市场预测,结论均指向 ASIC 对 GPU 的市场冲击。
野村证券报告称,目前英伟达 GPU 在 AI 服务器市场中占据超过 80% 的份额,而 ASIC 仅占约 8%-11%。但该机构预测,到 2025 年,仅谷歌和亚马逊两家的 ASIC 出货量就可能达到英伟达 GPU 出货量的 40% 至 60%。随着 Meta 和微软在 2026 年大规模部署自研芯片,ASIC 的总出货量有望历史性地超越 GPU。
高盛的报告也佐证了这一观点,预测 ASIC 服务器将在 2025 至 2026 年间占据全球 AI 服务器市场 38% 至 40% 的份额。
GPU,第二个挑战
存算一体,也在 2026 年向 GPU 发起新一波挑战。
ASIC 的核心是戳中了行业的痛点——现在 AI 算力需求越来越偏向 " 专用高效 ",而传统的计算架构里,存储和计算是分开的,数据在两者之间来回搬运,既费电又耽误时间,这就是所谓的 " 冯 · 诺依曼瓶颈 ",也是 GPU 在很多场景下的短板。存算一体的思路很直接:把存储和计算单元集成在一起,从根源上解决数据搬运的问题。

存储计算 " 剪刀差 " 来源:OneFlow 公司,安信证券研究中心
简单来说,在实际应用中,GPU 的算力能不能发挥出来,全靠内存带宽撑着。比如处理大模型推理时,数据搬运产生的能耗可能占到近 50%,延迟还会影响使用体验;而存算一体通过用氧化钽 / 铪、氧化钒这些新型器件,能把这种损耗降低 60% 以上,在低功耗场景下优势特别明显。这也决定了存算一体不是要全面取代 GPU,而是 " 互补竞争 " ——先从 GPU 不擅长的场景突破,再慢慢拓展范围,这也是它产业化的核心逻辑。
从存算一体发展历程来看,自 2017 年起,英伟达、微软、三星等大厂提出了存算一体原型,同年国内存算一体芯片企业开始涌现。
大厂们对存算一体架构的需求是实用且落地快,而作为最接近工程落地的技术,近存计算成为大厂们的首选。诸如特斯拉、三星等拥有丰富生态的大厂以及英特尔、IBM 等传统芯片大厂都在布局近存计算。
国内初创企业大都聚焦于无需考虑先进制程技术的存内计算。其中,知存科技、亿铸科技、九天睿芯等初创公司都在押注 PIM、CIM 等 " 存 " 与 " 算 " 更亲密的存算一体技术路线。亿铸科技、千芯科技等专注于大模型计算、自动驾驶等 AI 大算力场景;闪易、新忆科技、苹芯科技、知存科技等则专注于物联网、可穿戴设备、智能家居等边缘小算力场景。

2026 年 GPU,还扛得住吗?
一边是 ASIC 的替代冲击,一边是存算一体的技术挑战,GPU 的主导地位第一次受到了真正的威胁。
但这并不意味着 GPU 会被淘汰,毕竟 GPU 的优势,也很明确:在大模型训练、复杂科学计算这些需要多任务并行处理的场景里,它的通用性和灵活性是 ASIC、存算一体短期内比不了的。
面对压力,GPU 巨头已经开始反击。
比如 2025 年 12 月 24 日,英伟达以其史上最大规模交易额 200 亿美金,将推理芯片独角兽 Groq 的核心技术与团队收入麾下。Groq 创始人、谷歌 TPU 初代核心开发者 Jonathan Ross 带队加盟英伟达,其独创的 LPU 芯片技术将融入英伟达 AI Factory 架构。
当下,推理侧需求大于训练侧需求已成为普遍共识。面对推理市场的爆发式增长,Groq 的专属 LPU 芯片以 5-10 倍于 GPU 的速度优势,以及 1/10 的成本优势,成为异军突起的核心玩家。这种兼顾高效能与低成本的双重优势,精准切中了英伟达在推理赛道的核心短板,这也正是其愿意斥资 200 亿美元这一史上最大手笔,收购 Groq 的关键动因。
从英伟达过往的产业布局轨迹来看,此次收购并非临时决策,而是延续了其通过并购补全生态、巩固优势的一贯策略。
回溯其并购历史:2000 年,英伟达以 7000 万美元加 100 万股普通股的对价,收购 3dfx 核心图形资产,为其后续在 GPU 领域的统治地位奠定基础;2013 年,将高性能计算编译器龙头 PGI 收入囊中,进一步强化了 CUDA 生态在高性能计算领域的核心支撑作用;2019 年,又以约 69 亿美元并购 Mellanox,成功补全数据中心网络业务的短板。
如今,在 ASIC、存算一体的双重技术冲击与国产 GPU 崛起的市场竞争下,收购 Groq 抢占推理赛道优势,正是这一战略的延续与升级,更是英伟达守住 GPU 主导地位的关键布局之一。
未来,GPU 不会被淘汰,但 " 万能瑞士军刀 " 的绝对统治时代或将落幕。在大模型训练等通用算力场景,GPU 仍将保持核心优势;而在推理、边缘计算等细分领域,其与 ASIC、存算一体芯片的 " 互补共存 " 将成为主流。对整个行业而言,这种多元竞争格局不仅能更好地匹配不同场景的算力需求,更能倒逼技术加速迭代。


登录后才可以发布评论哦
打开小程序可以发布评论哦