国产大模型：这次剧本不一样

记者郑晨烨

2025 年底，全球最大的 AI 模型聚合平台 OpenRouter 发布的年度使用报告显示，在其用户构成中，47% 来自美国，中国开发者占 6%。此外，平台调用内容中，英语占比 83%，中文不足 5%。

截至 2026 年 4 月 3 日当周，该平台调用量排名前十的模型中，有 6 个来自中国。按调用量从高到低依次为：小米 MiMo-V2-Pro、阶跃星辰 Step3.5Flash、MiniMaxM2.7、DeepSeekV3.2、智谱 GLM5Turbo 和 MiniMaxM2.5。其中，小米 MiMo-V2-Pro 以 4.82 万亿 Token（词元）位居全平台第一。

事实上，自 2026 年 2 月 9 日至 15 日，当周中国模型调用量首次超过美国以来，中国模型的领先已持续近两个月。

OpenRouter 平台汇聚了超过 400 个 AI 模型，覆盖 60 多家供应商，其调用量的数据被视为观察全球开发者模型选择偏好的窗口之一。开发者可通过同一 APIKey（一种用于验证身份和调用服务的密钥）在不同模型间随时切换。

OpenRouter 联合创始人兼 COOChrisClark 在 2026 年 2 月公开表示，中国开源模型在美国企业运行的 Agent（智能体）工作流中占比 " 不成比例的高 "。同时，开发者社区中围绕模型间任务分配与成本优化的讨论也日益增多。

有观点将这一现象与 30 年前的中国制造业类比：当时中国凭借成本优势切入全球电子产业链的组装环节，产生了富士康、立讯精密等代工企业；如今，中国大模型也正以价格优势切入全球 AI 产业链的执行环节。也有观点将国产大模型视为 "AI 时代的富士康 "。

国产大模型在 AI 产业链中扮演何种角色？该角色的含金量究竟有多高？

价格优势

经济观察报记者梳理各厂商截至 2026 年 3 月底的官方 API 定价发现，中美主流大模型的价格存在巨大差距。

以输入价格为例，中国模型中，DeepSeekV3.2 为每百万 Token0.28 美元，MiniMaxM2.5 为 0.3 美元，月之暗面 KimiK2.5 为 0.42 美元。美国模型中，An－thropicClaudeOpus4.6 为 5 美元，OpenAIGPT-5.4 为 2.50 美元。美国主流模型的输入价格约为中国主流模型的 10 至 20 倍。

输出价格差距更为明显。中国模型方面，DeepSeekV3.2 为每百万 Token0.42 美元，MiniMaxM2.5 为 1.1 美元，月之暗面 KimiK2.5 为 2.2 美元。美国模型方面，OpenAIGPT-5.4 为 15 美元，ClaudeOpus4.6 为 25 美元。中美主流模型输出价格差距约为 7 倍至 60 倍。

上述价差一直存在，此前未引发大规模用户迁移，原因很简单，大多数人用 AI 的主要场景就是聊天，Token 消耗量较低，价差影响甚微。

但 2026 年初，一只 " 龙虾 " 的出现改变了这一切。

开源工具 OpenClaw（开发者社区称为 " 龙虾 "）于 2026 年 2 月前后迅速走红，上线后很快登顶 OpenRouter 应用排行榜第一，单周消耗超 6000 亿 To－ken。" 龙虾 " 属于智能体应用，和过去 " 你问我答 " 的聊天模式不同，它可使 AI 在电脑上自主执行编程、测试、文件管理等任务，无需逐步人工干预。

在这种工作模式下，Token 消耗量与聊天场景不在一个量级。

比如，一个编程任务可能需要经历几十轮 " 写代码—运行—报错—修改—再运行 " 的循环，每一轮都是一次完整的模型调用。为了让智能体记住此前的操作，每次调用还需要调用对话历史。

有开发者在社交平台上表示，一个活跃的 OpenClaw 会话上下文很容易膨胀到 23 万 Token 以上。若全程使用 ClaudeAPI，月费用可能在 800 至 1500 美元之间。也有用户称，一个配置不当的自动化任务，一天就烧掉了 200 美元。

以 OpenClaw 为代表的智能体应用推高了整个平台 Token 消耗量。比如，2025 年 3 月 3 日至 9 日当周，OpenRouter 前十大模型周调用量总计 1.24 万亿 Token。至 2026 年 2 月 16 日至 22 日当周，仅前十大模型周调用量就超过了 8.7 万亿 Token，增长近 7 倍。编程任务在平台 Token 消耗中的占比也从 2025 年初的 11% 升至 2025 年底的 50% 以上。

当单次任务 Token 消耗从几千增至几十万，中美模型间的价格差距从可忽略的成本转变为每月数百甚至上千美元的显著差异。

2026 年 2 月 19 日前后，美国大模型公司 Anthropic 更新服务条款，禁止用户将 Claude 订阅账号凭证接入 OpenClaw 等第三方工具，要求通过 API 按量计费。随后 Google 也推出类似限制。对于每天需频繁调用 API 的智能体应用，模型选择中的价格因素成为绕不过去的问题，开发者被推上了按量付费的赛道。

在智能体核心的编程场景上，中美模型能力已较为接近。

SWE-BenchVerified 是由普林斯顿大学研究团队维护的一项编程能力公开评测，做法是让 AI 模型去修复 GitHub（全球最大的开源代码托管平台）上真实的代码问题。根据该评测公开排行榜的数据，2026 年 2 月 13 日发布的中国模型 MiniMaxM2.5 拿到了 80.2%，2 月 5 日发布的美国模型 ClaudeOpus4.6 为 80.8%，两者差距只有 0.6 个百分点。

在能力相近而价格悬殊的情况下，开发者的选择迅速反映在了数据上。

2026 年 2 月 9 日至 15 日当周，中国模型 Token 调用量达 4.12 万亿，首次超过美国模型的 2.94 万亿。随后一周，中国模型调用量升至 5.16 万亿，三周时间增长 127%。同期美国模型调用量降至 2.7 万亿。

中国大模型为什么能比美国大模型便宜这么多？

工信部信息通信经济专家委员会委员盘和林向经济观察报表示，原因主要有两点：一是中国算力基础设施规模大、复用率高，报价较低；二是中国算力集群中存在大量自建算力，获取成本低于海外。

此外，技术路线也影响成本。有业内人士告诉记者，目前主流中国大模型普遍采用 MoE 架构，也称为 " 混合专家模型 "。通俗地说，一个 MoE 模型虽然参数总量很大，但每次运行时只激活其中一小部分参数来处理任务，而不是全体参数，这大幅降低了每次推理所需的计算量。

不同路径

硅谷风投机构 a16z 合伙人 MartinCasado 在 2025 年底表示，在使用开源技术栈的 AI 初创公司中，约 80% 的公司使用中国模型。他随后在社交平台上补充说明，这并非指 80% 的美国 AI 初创公司都在使用中国模型，而是那些选择开源技术路线的公司中（约占全部美国 AI 初创公司的 20% 至 30%），约 80% 使用了中国模型。

记者注意到，GitHub 上已出现多个帮助开发者在不同模型间优化成本的开源工具。其思路多为将任务按难度分级，简单任务交由免费或低价的中国模型处理，复杂任务再调用高价美国模型。

其中一个名为 ClawRouter 的项目在文档中给出了对比数据，显示采用这种搭配方式后，平均成本从每百万 Token25 美元降到了约为 2 美元。Anthropic 的产品 ClaudeCode，在官方文档中也采用了类似的分层设计，默认用最便宜的模型处理日常任务。

这种模式能够成立的前提是中国模型在执行类任务上能力足够。在编程方面，前面提到的 SWE-Bench 数据已经说明了这一点。而在编程之外，中美大模型整体能力差距有多大呢？

LMSYSChatbotArena 是目前全球公认度最高的 AI 模型评测平台之一，其做法是让真人用户在不知道模型名字的情况下同时试用两个模型，然后投票选出更好的那个，相当于一场 AI 之间的盲品测试。

在其截至 2026 年 3 月 25 日的综合排名中，前五名均为美国公司模型，中国模型中排名最高的 DeepSeekV3.2Speciale 位列第六。在专门测试复杂推理能力的 HardPrompts（高难度提示词，专门用于测试模型处理复杂推理和多步逻辑任务的能力）类别中，中美模型的差距更为明显，第一梯队仍主要为美国模型。

编程能力接近、复杂推理尚有差距，这是当下中美大模型之间差异化能力的体现，也是 " 分层调用 " 这套做法成立的基础。

不过，和 30 年前被锁在低利润率的代工厂商不同，中国大模型厂商在价格上并没有一直往下走。

事实上，从 2024 年开始，中国大模型行业曾发生过一轮价格战：2024 年 5 月，字节跳动旗下火山引擎豆包大模型以 0.0008 元 / 千 Token 的价格引发 " 价格战 "，阿里云、百度智能云相继跟进。此后近一年，行业经历 Token 价格下降超过 90% 的阶段，部分厂商推理算力毛利率一度为负。

厂商当时的策略是以亏损换取规模，培养用户调用习惯。然而，2026 年 2 月 OpenClaw 走红后，Token 消耗量增速远超预期，算力供给趋紧。

智谱最先做出反应，2026 年 2 月 12 日发布新模型 GLM-5 时上调 API 定价，3 月 16 日发布 GLM-5-Turbo 时再次提价，两轮累计涨幅 83%。

智谱 CEO 张鹏在 2025 年度业绩说明会上表示，2026 年一季度 API 调用定价提升 83%，调用量增长 400%。根据年报，智谱 2025 年全年收入 7.243 亿元，同比增长 132%，MaaS（模型即服务）平台年度经常性收入约为 17 亿元，12 个月增长 60 倍。

选择涨价的不只智谱一家。2026 年 3 月 13 日，腾讯云调整了混元系列大模型定价，部分模型涨幅超 460%。3 月 18 日，阿里云与百度智能云同日发布调价公告，AI 算力相关产品涨幅在 5% 至 34% 之间，新价格于 4 月 18 日生效。

中科曙光高级副总裁李斌在接受经济观察报采访时称，算力系统评价指标正在发生改变，过去衡量一个系统的标准是看它有多少算力，现在则要看它能够多么经济地产出 Token。

从集体降价到集体涨价，转变只用了不到两年。

2026 年 3 月，国家数据局局长刘烈宏在中国发展高层论坛上公布了一组数字：中国日均 Token 调用量已突破 140 万亿，较两年前增长超过 1000 倍。

在同月的 GTC 大会上，英伟达创始人黄仁勋称，Token 将是未来数字世界最核心的大宗商品。

在盘和林看来，中国大模型的竞争力很强，不是在补全，而是在引领，尤其在 AI 应用端。但他同时表示，中国在原创性创新上还有提升空间，当前 AI 体系中的核心架构，从人工神经网络到注意力机制，都是海外率先提出、国内跟进迭代。中国大模型下一步需要在应用端继续发力的同时，在基础算法上展开原创性创新。

30 年前的消费电子代工产业有一个特点，组装环节的利润率被上游品牌商牢牢压住，不少头部的代工厂发展至今的毛利率都没有超过 10%。成本优势带来了订单，但未能带来定价权。

当前，中国大模型的处境看起来与当年的消费电子代工产业有几分相似，但在定价权方面似乎又颇有不同。例如，智谱涨价 83% 之后，调用量增长了 400%。阿里云、百度智能云、腾讯云在 2026 年 3 月集体上调了 AI 算力和模型服务的价格，需求并没有萎缩，调用量在持续增长。

在 SWE-Bench 编程评测上，头部中国模型和头部美国模型的差距已经缩小到不足 1 个百分点。两者在复杂推理上的差距还在，但这个差距也在快速收窄。

此次，中国大模型厂商的发展路径似乎有所不同。

宙世代

一起剪

相关标签