基于 OpenRouter 平台超 100 万亿 Token 的实证研究显示,大型语言模型市场正经历深刻重构。开源模型份额已攀升至 33%,彻底打破闭源模型垄断,市场格局从 DeepSeek 的 " 一家独大 " 转向多元竞争,而中国开源 AI 在这场变革中强势崛起,正式跻身全球第一梯队。
12 月 4 日,硅谷著名风投公司 a16z、大模型 API 平台 OpenRouter 在共同撰写的报告中称,这一变革的核心驱动力来自中国模型的爆发式增长。数据显示,中国开发的开源模型市场份额从 2024 年底的 1.2% 飙升至 2025 年中近 30% 的峰值,年平均占比达 13.0%,与世界其他地区开源模型 13.7% 的份额几乎持平。Qwen、DeepSeek、MoonshotAI 等中国模型凭借技术能力与本土化适配优势,实现了从边缘参与者到核心玩家的跨越。

报告指出,开源生态内部竞争格局同步剧变。2025 年中的 " 夏季拐点 " 后,市场从 DeepSeek 家族占据超 50% 份额的高度集中,快速走向碎片化竞争。到 2025 年底,已无任何单一模型能持续占据超 25% 的市场份额,用户选型逻辑从锁定 " 最佳模型 " 转变为在 5-7 个顶尖模型间灵活组合。

此外,研究报告揭示了多个颠覆性趋势:中型模型(15B-70B)正在替代小模型成为主流,智能体推理能力超越文本生成成为核心价值,编程应用占比从 11% 飙升至超 50%,亚洲市场支出份额从 13% 翻倍至 31%。竞争规则已从排行榜跑分转向真实世界的使用留存和工作负载匹配能力。
中国力量重塑开源格局
报告称,开源模型市场已形成 " 闭源定义性能上限,开源提供多元价值 " 的双轨结构。截至 2025 年底,开源模型的市场份额稳步攀升至 33%,这一增长并非短期热潮,而是由 DeepSeek V3、Kimi K2 等高质量模型持续迭代驱动。
中国开源模型的崛起速度超出预期。2024 年底,中国模型市场份额仅为 1.2%,而到 2025 年中,其峰值已达近 30%。Qwen、DeepSeek、MoonshotAI 等中国模型在技术能力与本土化适配上展现出独特优势,标志着中国 AI 正式杀入开源赛道全球第一梯队。
从全球区域分布看,亚洲市场的整体崛起最为显著,全球支出份额从研究初期的 13% 翻倍至 31%,成为关键增长引擎。北美虽仍是最大单一区域,但其支出份额已长期低于 50%。

语言分布数据显示,简体中文以 4.95% 的占比成为仅次于英语的第二大语言,反映出中国市场的强劲需求。

从垄断到多强共治
据报告,2024 年底的开源市场呈现高度集中格局,DeepSeek 家族的 V3 和 R1 模型合计占据超 50% 的 Token 使用量,几乎形成 " 一家独大 " 局面。但这一格局在 2025 年中的 " 夏季拐点 " 后被彻底颠覆。
随着 Qwen、Minimax、Kimi K2、GPT-OSS 系列等新晋模型的密集发布,开源市场竞争壁垒被打破。这些新模型在发布后数周内便实现大规模生产级应用。到 2025 年底,已无任何单一模型能持续占据超 25% 的开源市场份额。
用户行为模式发生根本性转变。开发者从默认锁定 " 最佳模型 ",转变为在 5-7 个顶尖模型中进行多样化组合。这一变化标志着开源生态正式进入 " 群雄割据 " 的充分竞争阶段,多模型生态成为行业常态。
" 中型即新小型 " 颠覆尺寸认知
超百万亿 Token 的实证数据彻底推翻了 " 开源生态由小型轻量模型主导 " 的传统认知。数据显示,开发者正用实际行动重塑模型尺寸格局。
小型模型(
相比之下,中型模型(15B-70B)实现了从无到有的爆发式增长,以 Qwen2.5 Coder 32B 为代表的中型模型迅速构建起竞争激烈的生态。
这类模型精准匹配了用户对 " 能力与效率平衡点 " 的需求,成为开源市场的核心增长极,印证了 " 中型即新小型 " 的行业新共识。
大型模型(>70B)领域同样呈现多元化竞争态势,Qwen3 235B、Z.AI GLM 4.5 等模型成为基准测试核心标的,用户倾向于在多个顶尖大模型间灵活切换。

应用场景的中国特色
从开源模型的整体任务分布看,角色扮演以超 50% 的 Token 占比成为第一大应用,得益于开源模型内容限制较少的天然优势。编程辅助以 15%-20% 的占比位居第二,且份额持续增长。

但中国开源模型展现出显著差异化特征。与全球市场 " 角色扮演主导 " 不同,中国开源模型的编程加技术类应用合计占比达 39%,超过了 33% 的角色扮演占比。
这一差异表明,中国开源模型已在代码生成、技术推理等生产力领域具备与世界一流模型直接竞争的能力。其价值落点更偏向专业效率提升而非娱乐互动,这种定位可能为中国模型在企业级市场开辟独特竞争优势。
智能体推理引领范式转移
研究揭示的最具颠覆性发现是 LLM 使用方式的根本性范式转移——从单轮文本补全全面转向多步骤、工具集成的智能体推理工作流。
专为推理优化的模型处理的通证量从 2025 年初几乎可忽略不计飙升至占总使用量的 50% 以上。这一变化由供需双向驱动:
供给侧,GPT-5、Claude 4.5 等模型的发布大幅提升了推理能力上限;需求侧,用户愈发青睐能管理任务状态、遵循多步逻辑、支持智能体式工作流的模型。
伴随智能体推理崛起的还有两大关键特征:
提示长度剧增,平均每个请求的输入通证数从 1.5K 增长近 4 倍至 6K 以上,其中编程任务提示长度超 20K,是其他类别的 3-4 倍;
工具调用日益普及,Claude 4.5 Sonnet、Grok Code Fast 等模型领先布局,标志着 LLM 从 " 文本生成器 " 向 " 行动执行器 " 的本质转变。
" 水晶鞋效应 " 定义新护城河
研究发现了一批具备超高长期留存的 " 奠基用户群 ",并提出 " 灰姑娘的水晶鞋效应 " 框架解释这一现象,定义了 AI 时代的核心护城河。
该框架核心逻辑是:市场中始终存在未被满足的高价值 " 工作负载 ";每一代新模型发布都是一次 " 试穿水晶鞋 " 的匹配过程;当模型首次完美解决特定工作负载的技术与经济约束时,用户会围绕该模型构建流程与数据管道,形成极高转换成本与粘性。
数据印证了这一逻辑:Claude 4 Sonnet、Gemini 2.5Pro 的早期奠基用户群 5 个月后留存率仍达 40%,而 Llama 4 Maverick 等未实现匹配的模型所有用户群留存表现均极差。此外,DeepSeek 模型还呈现独特的 " 回旋镖效应 ",部分流失用户在尝试其他模型后会再度回归。
这一发现揭示,真正的竞争壁垒来自 " 工作负载 - 模型 " 的率先匹配以及由此形成的高粘性奠基用户群,留存远比增长关键。行业焦点正从排行榜的微小优势转向真实世界使用的实证分析与运营优化,从单一模型竞争转向多模型灵活策略,开源与闭源、东方与西方将长期共存竞争。



登录后才可以发布评论哦
打开小程序可以发布评论哦