GPU四小龙上桌,寒武纪们不再孤单

GPU 四小龙，即将在资本市场完成集结。

6 月 15 日，上海燧原科技通过上交所科创板上市审议。根据招股书披露，燧原科技本次 IPO 拟募资 60 亿元，其中 33 亿投向 AI 软硬件协同创新项目，剩下的钱 12 亿给第六代芯片研发、15 亿给第五代芯片研发。

国产 GPU 的资本拼图正在被补齐，四小龙摩尔线程、沐曦股份、壁仞科技、燧原科技即将在资本市场完成全员集结。

这是一个被加速的时刻。

从 2025 年 12 月到 2026 年 6 月，短短半年时间，至少 6 家 AI 芯片企业登陆或即将登陆资本市场。如果加上此前已上市的寒武纪、海光信息、天数智芯，国产 GPU 军团的总市值正在逼近 2 万亿元。

数字背后的含金量更值得关注。

当摩尔线程一季度实现账面盈利 2935 万元，沐曦股份亏损收窄 57.7%，并明确给出了 2026 年达到盈亏平衡点的时间表。不同数字指向同一个方向：

国产 GPU 正在以前所未有的速度缩短从技术突破到商业正循环的距离。

2026 年 4 月 24 日，深度求索发布了万亿参数旗舰模型 DeepSeek-V4。

与一年前 V3 发布时业界还在争论 " 国产芯片能不能跑大模型 " 不同，这一次，包括华为昇腾、寒武纪、海光、沐曦、摩尔线程、昆仑芯、平头哥真武、天数智芯在内，多家国产 AI 芯片在模型发布当天就完成了适配。

DeepSeek-V4 为国产芯片带来的，远不止一次技术适配，它改变了市场对国产算力的预期坐标系。

此前，评判一颗 AI 芯片的默认框架是，其性能达到英伟达同代产品的百分之多少。这将国产芯片置于追赶者的位置上。

但 DeepSeek-V4 的实践提供了一个新视角。华为昇腾计算业务总裁张迪煊透露，华为 AI 训推加速卡 Atlas 350 的单卡算力已经达到英伟达 H20 的 2.87 倍。

当万亿参数模型可以在国产芯片上稳定运行，对标英伟达最强卡就不再是唯一的选择标准。

这种认知的转变正在转化为真金白银。市场研究机构 Bernstein Research 预测，到 2026 年，英伟达在中国 AI 芯片市场的份额将从三年前的 95% 暴跌至 8%，华为将占据 50%，AMD 约 12%，寒武纪排名第三。

群雄逐鹿的格局下，国产 AI 加速卡整体份额突破 60%。这是一个历史性的格局重塑，三年前还被认为是不可逾越的壁垒，正在被国产芯片迅速瓦解。

GPU 四小龙的崛起同样不可忽视。

2026 年 3 月 30 日晚，摩尔线程夸娥智算集群砍下 6.6 亿元大额订单。公告显示，仅此一个订单，其合同金额就相当于摩尔线程 2024 年全年营收额的 55%。

这意味着，摩尔线程已攻克万卡级集群的工程化壁垒，从造芯片迈入交付超大规模算力集群。

此次冲刺科创板的燧原科技，则受益于与头部企业的紧密绑定。

在腾讯 2025 年全年业绩发布会上，总裁刘炽平对外披露，腾讯在 2025 年对 AI 新产品的投入约为 180 亿元，并计划在 2026 年将这一投入至少翻倍至 360 亿元以上。

需求端的爆发才刚刚开始，而燧原在其中获得的份额正在持续扩大。2026 年一季度，燧原营收 2.87 亿元，同比暴增 1474%。

眼下，窗口仍在扩大。

以壁仞科技为例，其 2025 年营收 10.35 亿元，同比增长高达 207%，手握客户覆盖国家级算力平台、电信运营商和 AI 大模型公司。53.8% 的毛利率表明，其产品在市场中拥有充分议价地位。

背后是 DeepSeek-V4 撞开的市场窗口，从华为昇腾的订单激增、到寒武纪的扭亏为盈、8 家国产芯片的 Day0 适配，国产芯片已经可以承载顶级大模型的生产级推理负载。

如果只用一个指标来衡量国产 GPU 与英伟达的差距，最合适的不是芯片算力，而是时间。

英伟达 CUDA 生态已经积累了 20 年，拥有全球 400 万开发者，全球大部分主流 AI 框架的默认适配，构成芯片帝国的护城河。开发者想要搬出 CUDA 生态，成本不止是金钱，还有一个团队数年的代码积累、调试习惯、工具链依赖，是开发者的肌肉记忆。

但更值得关注的是，国产 GPU 企业正在用远短于 20 年的时间，用多条路径绕开英伟达方案。

第一条是兼容，摩尔线程走的就是这条路。自研 MUSA 架构的软件栈高度兼容 CUDA 生态，目标是以最低迁移成本帮助开发者将应用从英伟达平台迁移过来。

换言之，摩尔线程为庞大的 CUDA 存量用户提供了一条低摩擦的切换通道。今年 5 月 18 日，摩尔线程的北京年度发布会上，摩尔线程创始人张建中直接讲道：

"MUSA 的目标从来不是做一个 CUDA 的替代品，而是要让 CUDA 开发者无缝迁移到国产平台，真正实现即插即用。"

第二条是绕开，华为昇腾和燧原科技采用的领域专用架构 DSA，即专为 AI 训练和推理定制芯片，不追求图形渲染等通用能力。

这条路的核心思想是专为 AI 而生，通过在芯片中针对 AI 训练高频场景设计专用计算单元，如矩阵计算单元、向量计算单元的方式，集中资源为 AI 计算做硬件优化，从而在 AI 场景下实现比通用 GPU 更高的效率和更低的功耗。

例如，华为昇腾 950PR 单卡性能压制英伟达 H20，就是 DSA 路线优势的最佳注脚。

燧原科技的发展尤为典型，做法是打破做标准芯片等客户采购的模式，主动与模型商高度协同，由腾讯提出需求，燧原做极致的针对性优化。此前，燧原科技的三代芯片已在腾讯内部适配上线数百个业务场景，从微信语音转文字到腾讯会议纪要，从广告推荐到内容审核均有覆盖。

这套打法在腾讯体系内确实跑出了效果。燧原科技 2023 至 2025 年营收从 3.01 亿元跳至 9.90 亿元，复合增长率高达 81.32%。

壁仞科技则选择软硬结合模式，其智算解决方案同时提供自研芯片、板卡、服务器乃至完整的智算集群，也包含自研的 BIRENSUPA 软件平台，其中附有编译器、算子库、通信库等完整软件栈，并兼容主流 AI 框架。而在系统层，壁仞提供万卡集群交付能力。

一组数据可以证实这套组合模式的实力。2025 年，其智能计算解决方案收入为 10.28 亿元，占总营收超 99%。

概述国产 GPU 的增长路径，可以是一句话，在单卡能力以外，构筑自己的生态护城河——从通用兼容到专用高效、从芯片到解决方案、从大模型到科学计算，每一个维度都有玩家在全力推进。

眼下的中国 AI 芯片市场，正从一个英伟达主导、其余跟随的单极格局，重塑为一个多极的、以够用 + 便宜 + 可控为新坐标系的战场。

根据 IDC 等机构数据，2025 年中国 AI 加速卡总出货量约 400 万张，其中英伟达出货约 220 万张，市场份额从巅峰的 95% 下降至约 55%；同期，本土厂商合计出货约 165 万张。

在这一轮洗牌中，国产阵营已形成清晰的梯队。以 81.2 万张出货量的华为昇腾为领头羊，阿里平头哥、百度昆仑芯、寒武纪等多强并起，拆掉了英伟达的独角戏。

今年 3 月，蚂蚁集团首席技术官何征宇带领的 Ling 团队发布的论文显示，使用优化后的低规格硬件系统，训练 1 万亿 Token 的成本可从 635 万元降至 508 万元，降幅约为 20%。

换句话说，不需要英伟达的先进芯片，国产芯片已经能支持前沿模型训练。

根据中信证券预测，到 2026 年，中国国内 AI 芯片市场规模将突破 3000 亿元人民币，大模型训练和推理需求爆发、智算中心建设和企业 AI 渗透率提升、以及国产替代进入攻坚阶段，这三大引擎将驱动国产 GPU 在 2028 年前后的推理市场占有率突破 40%，训练市场突破 25%。

更关键的变化发生在结构层面。2026 年，AI 产业的 " 云端深耕 + 边缘爆发 " 双重格局正在成型。在边缘领域，工业互联网、自动驾驶、数字孪生等场景的落地进入爆发期。海量数量庞大、场景碎片化、对功耗和成本极度敏感的边缘 AI 节点将迎来需求爆发。

这类需求，恰好不是英伟达的舒适区，却是国产 GPU 的大蛋糕，不是从英伟达手中抢来的，而是英伟达留下来的。

再往深处看，深度求索官方数据显示，国产芯片的算力利用率从行业普遍的 60% 提升到了 85%，推理成本能降至英伟达方案的三分之一。

换言之，头部项目验证了国产芯片 + 国产模型 + 国产云的闭环可以跑通。

但这并不意味着，机会窗口会永远敞开。

英伟达的 Blackwell 和 Rubin 系列仍在迭代，CUDA 生态的锁死效应仍未松动。

能否跨进软件生态的深水区，构筑一个包含开发者社区在内，完整的原生软件栈；能否用架构创新弥补制程差异，打破先进算力天花板；能否从项目交付走向平台化交付，从一单一单做转向通用运营。

这些关口，决定国产 GPU 能否从替代叙事迈向原生。眼下燧原科技 IPO，四小龙齐聚资本市场只是一个开始。未来，跑通盈利模式，孵化自有生态，这将是国产 GPU 的新篇章。

宙世代

一起剪

相关标签