GPU 四小龙,即将在资本市场完成集结。
6 月 15 日,上海燧原科技通过上交所科创板上市审议。根据招股书披露,燧原科技本次 IPO 拟募资 60 亿元,其中 33 亿投向 AI 软硬件协同创新项目,剩下的钱 12 亿给第六代芯片研发、15 亿给第五代芯片研发。
国产 GPU 的资本拼图正在被补齐,四小龙摩尔线程、沐曦股份、壁仞科技、燧原科技即将在资本市场完成全员集结。
这是一个被加速的时刻。
从 2025 年 12 月到 2026 年 6 月,短短半年时间,至少 6 家 AI 芯片企业登陆或即将登陆资本市场。如果加上此前已上市的寒武纪、海光信息、天数智芯,国产 GPU 军团的总市值正在逼近 2 万亿元。
数字背后的含金量更值得关注。
当摩尔线程一季度实现账面盈利 2935 万元,沐曦股份亏损收窄 57.7%,并明确给出了 2026 年达到盈亏平衡点的时间表。不同数字指向同一个方向:
国产 GPU 正在以前所未有的速度缩短从技术突破到商业正循环的距离。
2026 年 4 月 24 日,深度求索发布了万亿参数旗舰模型 DeepSeek-V4。
与一年前 V3 发布时业界还在争论 " 国产芯片能不能跑大模型 " 不同,这一次,包括华为昇腾、寒武纪、海光、沐曦、摩尔线程、昆仑芯、平头哥真武、天数智芯在内,多家国产 AI 芯片在模型发布当天就完成了适配。
DeepSeek-V4 为国产芯片带来的,远不止一次技术适配,它改变了市场对国产算力的预期坐标系。
此前,评判一颗 AI 芯片的默认框架是,其性能达到英伟达同代产品的百分之多少。这将国产芯片置于追赶者的位置上。
但 DeepSeek-V4 的实践提供了一个新视角。华为昇腾计算业务总裁张迪煊透露,华为 AI 训推加速卡 Atlas 350 的单卡算力已经达到英伟达 H20 的 2.87 倍。
当万亿参数模型可以在国产芯片上稳定运行,对标英伟达最强卡就不再是唯一的选择标准。
这种认知的转变正在转化为真金白银。市场研究机构 Bernstein Research 预测,到 2026 年,英伟达在中国 AI 芯片市场的份额将从三年前的 95% 暴跌至 8%,华为将占据 50%,AMD 约 12%,寒武纪排名第三。
群雄逐鹿的格局下,国产 AI 加速卡整体份额突破 60%。这是一个历史性的格局重塑,三年前还被认为是不可逾越的壁垒,正在被国产芯片迅速瓦解。
GPU 四小龙的崛起同样不可忽视。
2026 年 3 月 30 日晚,摩尔线程夸娥智算集群砍下 6.6 亿元大额订单。公告显示,仅此一个订单,其合同金额就相当于摩尔线程 2024 年全年营收额的 55%。
这意味着,摩尔线程已攻克万卡级集群的工程化壁垒,从造芯片迈入交付超大规模算力集群。
此次冲刺科创板的燧原科技,则受益于与头部企业的紧密绑定。
在腾讯 2025 年全年业绩发布会上,总裁刘炽平对外披露,腾讯在 2025 年对 AI 新产品的投入约为 180 亿元,并计划在 2026 年将这一投入至少翻倍至 360 亿元以上。
需求端的爆发才刚刚开始,而燧原在其中获得的份额正在持续扩大。2026 年一季度,燧原营收 2.87 亿元,同比暴增 1474%。
眼下,窗口仍在扩大。
以壁仞科技为例,其 2025 年营收 10.35 亿元,同比增长高达 207%,手握客户覆盖国家级算力平台、电信运营商和 AI 大模型公司。53.8% 的毛利率表明,其产品在市场中拥有充分议价地位。
背后是 DeepSeek-V4 撞开的市场窗口,从华为昇腾的订单激增、到寒武纪的扭亏为盈、8 家国产芯片的 Day0 适配,国产芯片已经可以承载顶级大模型的生产级推理负载。
如果只用一个指标来衡量国产 GPU 与英伟达的差距,最合适的不是芯片算力,而是时间。
英伟达 CUDA 生态已经积累了 20 年,拥有全球 400 万开发者,全球大部分主流 AI 框架的默认适配,构成芯片帝国的护城河。开发者想要搬出 CUDA 生态,成本不止是金钱,还有一个团队数年的代码积累、调试习惯、工具链依赖,是开发者的肌肉记忆。
但更值得关注的是,国产 GPU 企业正在用远短于 20 年的时间,用多条路径绕开英伟达方案。
第一条是兼容,摩尔线程走的就是这条路。自研 MUSA 架构的软件栈高度兼容 CUDA 生态,目标是以最低迁移成本帮助开发者将应用从英伟达平台迁移过来。
换言之,摩尔线程为庞大的 CUDA 存量用户提供了一条低摩擦的切换通道。今年 5 月 18 日,摩尔线程的北京年度发布会上,摩尔线程创始人张建中直接讲道:
"MUSA 的目标从来不是做一个 CUDA 的替代品,而是要让 CUDA 开发者无缝迁移到国产平台,真正实现即插即用。"
第二条是绕开,华为昇腾和燧原科技采用的领域专用架构 DSA,即专为 AI 训练和推理定制芯片,不追求图形渲染等通用能力。
这条路的核心思想是专为 AI 而生,通过在芯片中针对 AI 训练高频场景设计专用计算单元,如矩阵计算单元、向量计算单元的方式,集中资源为 AI 计算做硬件优化,从而在 AI 场景下实现比通用 GPU 更高的效率和更低的功耗。
例如,华为昇腾 950PR 单卡性能压制英伟达 H20,就是 DSA 路线优势的最佳注脚。
燧原科技的发展尤为典型,做法是打破做标准芯片等客户采购的模式,主动与模型商高度协同,由腾讯提出需求,燧原做极致的针对性优化。此前,燧原科技的三代芯片已在腾讯内部适配上线数百个业务场景,从微信语音转文字到腾讯会议纪要,从广告推荐到内容审核均有覆盖。
这套打法在腾讯体系内确实跑出了效果。燧原科技 2023 至 2025 年营收从 3.01 亿元跳至 9.90 亿元,复合增长率高达 81.32%。
壁仞科技则选择软硬结合模式,其智算解决方案同时提供自研芯片、板卡、服务器乃至完整的智算集群,也包含自研的 BIRENSUPA 软件平台,其中附有编译器、算子库、通信库等完整软件栈,并兼容主流 AI 框架。而在系统层,壁仞提供万卡集群交付能力。
一组数据可以证实这套组合模式的实力。2025 年,其智能计算解决方案收入为 10.28 亿元,占总营收超 99%。
概述国产 GPU 的增长路径,可以是一句话,在单卡能力以外,构筑自己的生态护城河——从通用兼容到专用高效、从芯片到解决方案、从大模型到科学计算,每一个维度都有玩家在全力推进。
眼下的中国 AI 芯片市场,正从一个英伟达主导、其余跟随的单极格局,重塑为一个多极的、以够用 + 便宜 + 可控为新坐标系的战场。
根据 IDC 等机构数据,2025 年中国 AI 加速卡总出货量约 400 万张,其中英伟达出货约 220 万张,市场份额从巅峰的 95% 下降至约 55%;同期,本土厂商合计出货约 165 万张。
在这一轮洗牌中,国产阵营已形成清晰的梯队。以 81.2 万张出货量的华为昇腾为领头羊,阿里平头哥、百度昆仑芯、寒武纪等多强并起,拆掉了英伟达的独角戏。
今年 3 月,蚂蚁集团首席技术官何征宇带领的 Ling 团队发布的论文显示,使用优化后的低规格硬件系统,训练 1 万亿 Token 的成本可从 635 万元降至 508 万元,降幅约为 20%。
换句话说,不需要英伟达的先进芯片,国产芯片已经能支持前沿模型训练。
根据中信证券预测,到 2026 年,中国国内 AI 芯片市场规模将突破 3000 亿元人民币,大模型训练和推理需求爆发、智算中心建设和企业 AI 渗透率提升、以及国产替代进入攻坚阶段,这三大引擎将驱动国产 GPU 在 2028 年前后的推理市场占有率突破 40%,训练市场突破 25%。
更关键的变化发生在结构层面。2026 年,AI 产业的 " 云端深耕 + 边缘爆发 " 双重格局正在成型。在边缘领域,工业互联网、自动驾驶、数字孪生等场景的落地进入爆发期。海量数量庞大、场景碎片化、对功耗和成本极度敏感的边缘 AI 节点将迎来需求爆发。
这类需求,恰好不是英伟达的舒适区,却是国产 GPU 的大蛋糕,不是从英伟达手中抢来的,而是英伟达留下来的。
再往深处看,深度求索官方数据显示,国产芯片的算力利用率从行业普遍的 60% 提升到了 85%,推理成本能降至英伟达方案的三分之一。
换言之,头部项目验证了国产芯片 + 国产模型 + 国产云的闭环可以跑通。
但这并不意味着,机会窗口会永远敞开。
英伟达的 Blackwell 和 Rubin 系列仍在迭代,CUDA 生态的锁死效应仍未松动。
能否跨进软件生态的深水区,构筑一个包含开发者社区在内,完整的原生软件栈;能否用架构创新弥补制程差异,打破先进算力天花板;能否从项目交付走向平台化交付,从一单一单做转向通用运营。
这些关口,决定国产 GPU 能否从替代叙事迈向原生。眼下燧原科技 IPO,四小龙齐聚资本市场只是一个开始。未来,跑通盈利模式,孵化自有生态,这将是国产 GPU 的新篇章。


登录后才可以发布评论哦
打开小程序可以发布评论哦