2月井喷！中国AI调用量首超美国，四款大模型霸榜全球前五

每经记者：宋欣悦每经编辑：肖勇 , 王嘉琦 , 高涵

2 月，中国 AI 的模型调用量爆发式增长，首次超过美国。

全球最大的 AI 模型 API 聚合平台 OpenRouter 数据显示，9 日 ~15 日这周，中国模型以 4.12 万亿 Token 的调用量，首次超过同期美国模型的 2.94 万亿 Token。

16 日 ~22 日这周，中国模型的周调用量进一步冲高至 5.16 万亿 Token，三周大涨 127%，而同期美国模型调用量跌至 2.7 万亿 Token。与此同时，全球调用量排名前五的模型中，中国模型占据四席，这股强大的增长动能，并非依赖单一爆款产品，而是中国 AI 厂商集群式崛起。

Token 是 AI 模型处理文本的最小单位。相比用户数，Token 调用量是更能真实反映 AI 模型使用强度、用户粘性及商业价值的关键指标。

中国模型厂商，正凭借快速迭代和成本优势占领全球市场，国产算力需求正经历指数级增长。

榜单洗牌：中国 Token 调用量首超美国，四款大模型霸榜

OpenRouter 平台，汇聚了全球数百种大语言模型，拥有超过 500 万开发者用户，是目前全球最大的 AI 模型 API 聚合平台。因此，其 API 调用量数据被视为洞察全球 AI 应用落地趋势最真实的 " 晴雨表 "，因为它直接反映了开发者 " 用脚投票 " 的选择，体现了模型在实际应用中的受欢迎程度和竞争力。

值得注意的是，该平台的用户主要由海外开发者构成，其中美国用户占比高达 47.17%，而中国开发者仅占 6.01%，这使得其榜单数据更能客观反映中国 AI 模型在全球范围内的真实吸引力。

《每日经济新闻》记者（以下简称每经记者）梳理 OpenRouter 数据发现，全球大模型 Token 调用量在过去一年经历了惊人的爆发式增长。2025 年 3 月 3 日至 9 日当周，该平台前十大模型的周调用量仅为 1.24 万亿 Token。而到 2026 年 2 月中旬，这一数字已飙升至 13.95 万亿 Token，短短不到一年时间增长了超过 10 倍。

2025 年，美国模型是市场增长主要动力，其 Token 周调用量一度占据平台前十大模型总量的近七成，而同期的中国模型占比则不到两成。然而，进入 2026 年，美国模型的增速开始显露疲态，而中国模型则开启了 " 狂飙 " 模式。

数据显示，2026 年 2 月的第一周（2 日至 8 日），中国模型的周调用量已跃升至 2.27 万亿 Token，发出了强烈的追击信号。

仅仅一周之后，在 2 月 9 日至 15 日当周，中国模型便以 4.12 万亿 Token 的惊人调用量，正式超越了同期美国模型的 2.94 万亿 Token，实现了历史性赶超。

这股势头并未就此停止，到 2 月 16 日当周，中国模型的周调用量更是冲高至 5.16 万亿 Token，三周时间调用量增长 127%，将领先优势进一步扩大。

这股强大的增长动能，并非依赖单一爆款产品，而是中国 AI 厂商集群式崛起。

2026 年 2 月 16 日至 22 日的周榜单显示，平台调用量排名前五的模型中，有四款来自中国厂商，分别为 MiniMax 的 M2.5、月之暗面的 Kimi K2.5、智谱的 GLM-5 以及 DeepSeek 的 V3.2。这四款模型合计贡献了 Top5 总调用量的 85.7%。

具体来看，MiniMax 于 2026 年 2 月 13 日发布的 M2.5 模型，上线不足一周便迅速登顶周调用量榜首。在 2 月 9 日至 15 日当周，OpenRouter 平台总调用量激增的 3.21 万亿 Token 中，仅 M2.5 这一款模型就贡献了 1.44 万亿 Token 的惊人增量。

月之暗面于 1 月 27 日发布的 Kimi K2.5 模型，凭借其原生的多模态架构和强大的 Agent 并行处理能力，调用量实现了连续跳涨。该模型能调度多达 100 个 "Agent 分身 " 并行工作，将复杂任务处理效率提升 3 到 10 倍。据媒体报道，Kimi 在发布 Kimi K2.5 后不到一个月的累计收入，已超过其 2025 年全年的总收入，增长主要由全球付费用户及 API 调用量大涨共同推动。

智谱的旗舰模型 GLM-5 自 2 月 12 日发布后，凭借其 200K 的超长上下文窗口和对长程 Agent 任务的深度优化，用户规模迎来高速增长，其调用量在上线次周便增长至 0.8 万亿 Token。

过去一年，阿里千问虽单个模型上榜频次不高，但 a16z 与 OpenRouter 联合发布的报告显示，其全系列模型总 Token 调用量以 5.59 万亿位居全球第二，仅次于 DeepSeek（14.37 万亿）。

咨询公司弗若斯特沙利文（Frost & Sullivan）报告显示，在中国大模型 B 端市场，2025 年下半年，千问（Qwen）系列模型的日均 Token 调用量占比 32.1% 位列第一，相较上半年的 17.7% 几乎翻倍，相比字节豆包（21.3%）、DeepSeek（18.4%）领先优势扩大。

对于中国 AI 大模型的格局，上海财经大学特聘教授胡延平在接受每经记者采访时提出了 "AI 中国团 " 的说法。

他认为，产业市场集中度并非越高越好，有多家头部企业形成宽广的技术产业群落，而不是少数两三家寡头，对于竞争创新和人才生态建设是好事，也有利于在中美 AI 竞争中形成集群优势。

知名风险投资机构 Andreessen Horowitz（a16z）的合伙人 Martin Casado 观察到，如今在硅谷寻求融资的 AI 初创公司中，其路演核心模型高达 80% 使用中国的开源模型。

竞争力：成本不到美国 AI 的 1/10，中国 Token 为何便宜？

中国模型之所以能在短时间内席卷全球开发者，除了性能上比肩甚至超越国际顶尖模型外，其极具竞争力的成本是另一个无可争议的核心优势。

以 OpenRouter 平台公示的价格为例，中国模型的成本优势一目了然。

在模型处理输入信息（Input）的环节，MiniMax 的 M2.5 与智谱的 GLM-5，其价格均为 0.3 美元每百万 Token。作为对比，海外主流的对标产品 Claude Opus4.6 的价格则高达 5 美元 / 百万 Token，是中国这两款模型的约 16.7 倍。

在模型生成内容（Output）的环节，成本差异更为悬殊。MiniMax M2.5 的输出价格为 1.1 美元 / 百万 Token，智谱 GLM-5 为 2.55 美元 / 百万 Token，而 Claude Opus4.6 的价格则飙升至 25 美元 / 百万 Token，分别是前两者的约 22.7 倍和 9.8 倍。

如此巨大的成本差距，直接决定了开发者在选择 API 时的经济考量。

这种显著的成本差异，首先源于算法层面的架构创新。

弗若斯特沙利文中国总监李庆在接受每经记者采访时分析指出，以 " 混合专家（Mixture-of-Experts, MoE）" 架构为代表的技术路线，是中国模型能够大幅降低推理成本的核心原因之一。目前，包括榜单上的 DeepSeek、阿里巴巴的通义千问 3.5-Plus 等模型，都已广泛采用了 MoE 架构。

MoE 架构的巧妙之处在于，它将一个巨大的模型拆分为多个相对较小的 " 专家网络 " 和一个 " 门控网络 "。尽管模型的总参数量可能非常庞大（如拥有数千亿参数），从而保证了其 " 知识储备 " 和能力上限，但在实际处理一个任务时，门控网络会智能地判断该任务的性质，并只激活（调用）其中一小部分最相关的专家网络参与计算。

这种 " 按需激活 " 而非 " 全体动员 " 的模式，相较于传统的稠密模型（每次计算都调用全部参数），极大地减少了计算量和对硬件资源的需求。数据显示，采用 MoE 架构可以直接让推理时的显存占用降低 60%，推理吞吐量（单位时间内处理的 Token 数量）提升高达 19 倍。这种从技术源头上实现的降本增效，是其成本优势的根本来源。

除了算法架构的革新，中国 AI 厂商还在积极探索 " 垂直整合 " 的路径，以进一步压缩每一个 Token 背后的成本。这条路径的核心思想，是将上层的模型算法、中层的云计算基础设施和底层的 AI 芯片进行深度的、一体化的协同设计与优化，从而解决软硬件之间的适配痛点，榨干每一分算力。

李庆以阿里巴巴的 " 通义 - 云 - 芯 " 体系为例进行说明，这种从上到下的垂直整合模式，能够通过极致的算力调度算法，实现对底层硬件资源的最高效利用，从而大幅降低了 AI 服务背后的基础设施成本。这种系统级的优化，使得 Token 的生成成本得以进一步降低。

摩根大通在其研报中对中国市场做出极为乐观的预测，预计从 2025 年到 2030 年，中国 Token 消耗量的年复合增长率将达到惊人的 330%，在短短 5 年间实现 370 倍的增长。

价值质变：Token 正从互联网 " 流量 "，成为 AI 时代的 " 燃料 "

Token 消耗量的指数级攀升，表面看是用户规模与使用时长的增长，但其背后更深层次的驱动力，是用户对 AI 使用模式的根本性转变。AI 的角色正在从一个提供简单信息、进行日常闲聊的 " 问答工具 "，进化为能够深度参与工作流、处理复杂任务的 " 生产力工具 "。

国联民生证券在近期发布的研报中，提出了 "Token 通胀 " 这一概念。这并非指 Token 本身变贵，而是指在单位时间内、单位用户的 Token 消耗结构性上升。报告将这一现象归因于三大核心趋势。

首先，用户的核心需求正在从浅层的 " 问答 " 转向深度的 " 干活 "，即越来越多地利用 AI 来重构代码、改写文件、生成文档和跑测试。编程场景天然具有 " 长上下文、多轮迭代、大量输出 " 的特征，会大量消耗 Token。

其次，AI Agent 技术的兴起和普及，放大了 Token 的消耗。Agent 会主动规划、检索、执行、反思，多次调用模型，Token 消耗自然按步骤累加。

最后是推理强度上升。更多深度思考、更长链路推理会显著提高输出与中间过程的 Token 消耗。但对开发者而言，这往往带来更高成功率与更少返工，用户反而愿意 " 增加 Token 投入来换取效率 "。

这一系列转变，意味着 Token 不是传统互联网时代边际成本几乎为零的 " 流量 "，而是执行生产任务时必不可少的 " 燃料 "。

这一趋势与全球顶尖芯片制造商的判断不谋而合。英伟达 CEO 黄仁勋在 2 月 26 日的业绩电话会上，反复向市场强调一个核心观点：" 计算即收入 "" 推理即收入 "。他指出，没有算力，就无法生成 Token；没有 Token，就无法带来收入增长。在 AI 时代，推理性能直接决定了客户的收入能力，而推理的核心，正是高效地生成可被商业化的 Token。在全球数据中心电力瓶颈日益凸显的今天，" 性能 / 瓦特 "（Performance per Watt）已成为衡量 AI 服务效率与收入能力的关键指标。

李庆向每经记者表示，AI 服务的商业模式正从过去单纯的 " 按量计费 "，向 " 燃料 + 成果 " 的混合模式演进。一方面，作为 " 燃料 " 的 Token，其单价会随着技术进步和规模效应持续下降；另一方面，随着 AI 从 " 问答 " 工具向 " 干活 " 的生产力工具转变，企业将更愿意为直接的 " 成果 " 付费，这将催生出更多基于订阅制的商业模式。

李庆还预测，未来 AI 服务的定价将不可避免地走向高度定制化和灵活化。她表示，Agent 时代的到来意味着任务的复杂度千差万别，单一的定价模式将无法覆盖所有商业需求。未来，计算消耗、调用频次、任务是否涉及多步推理或规划等高成本操作，都将成为影响定价的因素，一个多维度、动态的定价体系将成为主流。

记者 | 宋欣悦

编辑 | 肖勇王嘉琦高涵

视觉 | 刘青彦

排版 | 高涵

统筹 | 易启江

宙世代

一起剪

相关标签