用百万亿 Token 揭示今年 AI 发展趋势,硅谷的这份报告火了!
无论是分析问题的角度,还是里面得出的一些结论,都被网友热烈讨论。
而且里面还公开肯定了中国开源模型,其每周 Token 用量占比一度高达 30%。并且除了 DeepSeek,编程领域的新秀 MiniMax 也被特意 cue 到。

这份报告由OpenRouter 和 a16z联合出品,标题为《State of AI:An Empirical 100 Trillion Token Study with OpenRouter》。
里面分析了自 2024 年 11 月至 2025 年 11 月,OpenRouter 平台上300+ 模型的使用情况,涵盖 GPT 系列、Claude、Gemini、DeepSeek、Qwen、Kimi 等国内外主流开源与闭源模型。

而且统计的角度相当特别——不看各种基准得分,而是看模型的真实 Token 消耗量。
Token 消耗量直接反映了模型被使用的方式和程度,因此比测试分数更能揭示其本质价值。
这一次,他们基于100 万亿 Token,在报告里得出了以下主要结论(省流版):
预计到年底,开源模型的使用量将达到约 1/3,与闭源模型形成互补而非零和博弈;
开源力量中,中国模型尤为受到青睐,流量份额从 1.2% 激增至 30%;
模型正在从 " 语言生成系统 " 转变为 " 推理执行系统 ",推理模型成为新范式;
编程和角色扮演是模型的主要使用方式;
用户留存情况呈现 " 水晶鞋效应 "(一旦合脚就能大放光彩),新模型发布时能否完美解决某类痛点成为关键;
模型价格下降固然重要,但远没有你想象的那么重要。
如果你也想一览 2025 年 AI 发展详情,那就快来和量子位一起深度学习吧。

开源不再是闭源平替,中国力量上大分
关于开源模型(OSS 模型),报告主要回答了这样几个核心问题:
问题 1:过去一年,开源模型和闭源模型的力量对比变化如何?
问题 2:有哪些关键的开源参与者?
问题 3:开源模型的形态正在发生哪些变化?
首先,以前大多认为开源模型是闭源模型的 " 平替 ",开发者往往需要二选一。但现在,开源模型已经找到了自己的独特定位,成为某些特定场景的首选。
因此,如今二者的关系更接近互补,开发者也往往同时在使用这两类模型。
而且值得一提的是,开源模型的使用量一直在稳步增长——随着 DeepSeek V3、 Kimi K2 等主要开源模型的发布,预计到 2025 年底将达到约三分之一的用量。

与此同时,中国开源模型正在成为这一增长背后的主要引擎。
国产开源模型的每周使用量占比,从去年底的 1.2% 最高上涨至 30%,平均下来也有 13%。作为对比,其他地区开源模型的平均份额为 13.7%。

不过需要说明,开源模型的格局已经发生显著变化——
虽然按照总使用量计算,DeepSeek 仍是最大贡献者。但随着更多开源模型涌入,其主导地位已经被削弱。
以 " 夏季拐点(2025 年中)" 为界线,上半年开源力量高度集中于 DeepSeek V3 和 R1(约占一半以上),下半年却呈现多元化趋势,包括 MiniMax M2、Kimi K2、GPT-OSS 等相继发布。
预计到 2025 年底,没有一个单一模型能持续占比超 25%Token 用量,整个开源市场将由 5~7 个模型均分。
总之,2025 年开源领域的竞争明显更加激烈了,而且未来大概率不会出现一家独大的情况。

另外,开源模型的形态也正在发生变化,目前中型模型更加获得市场青睐。报告给出的分类是:
大型:参数为 700 亿或更多的模型
中型:参数在 150 亿到 700 亿之间的模型
小型:参数少于 150 亿的模型
之前开源模型大多在两种极端之间平衡——要么 " 快而弱 ",要么 " 强而贵 / 慢 ",没有太多 " 又快又足够强 " 的中间选择。
但是现在,虽然大、中、小类别的模型数量都在增长,但数据显示小模型正在失宠,而中型和大型模型正在补位。
报告提到,在 2024 年 11 月 Qwen2.5-Coder-32B 发布之前,这个细分市场几乎可以忽略不计。但之后又涌入了 Mistral Small 3 和 GPT-OSS 20B 等模型,于是这个细分市场逐渐成为又一个竞技场。报告表示:
小模型主导开源生态系统的时代可能已经过去。市场现在正分化为两类,用户要么倾向于一个新兴的、强大的中型模型类别,要么将其工作负载整合到最强大的单个大型模型上。

推理模型成新范式
其次,语言模型正在从一个对话系统升级为推理系统、执行系统。
年初时,模型使用推理的 Token 用量还可以忽略不计,但现在已经超过 50%。

在所有推理模型中,目前马斯克 xAI 旗下的 Grok Code Fast 1 用的推理流量份额最大,领先于 Gemini 2.5 Pro 和 Gemini 2.5 Flash。
而大约几周前,Gemini 2.5 Pro 才是主力,另外像 DeepSeek R1 和 Qwen3 也在使用前列。报告表示:
推理模型正在成为真实工作负载的默认选择。

同时,模型调用工具的占比也在上升。
该功能最初仅集中于一小部分模型,包括 GPT-4o-mini 和 Claude 3.5、3.7 系列,它们在年初占了大头。
而到了年中,有越来越多的模型开始支持工具调用,这反映出一个更具竞争性和多样化的生态系统。
从 9 月底开始,Claude 4.5 Sonnet 模型迅速获得了份额,同时像 Grok Code Fast 和 GLM 4.5 这样的新玩家也取得了肉眼可见的进展。
报告表示,这对模型运营商来说信号相当明确:
工具使用在高价值工作流中呈上升趋势。没有可靠工具的模型有在企业采用和编排环境方面落后的风险。

编程和角色扮演成 AI 主要使用方式
此外,过去一年里,AI 模型的使用方式发生了根本变化,主要体现在以下三点:
一是任务变复杂了——从 " 写短文 " 到 " 解难题 "。
以前大家主要让 AI 生成文章或简单回答,现在更多的是让它分析一整份文档、一个代码库或很长的对话记录,从中提炼关键信息。
二是输入输出都变 " 重 " 了。
报告提到,用户平均每次给模型的提示词增加了约 4 倍,这反映出工作负载越来越依赖上下文信息。

并且由于模型推理消耗更多 Token,模型完成任务需要的用量也增加了近 3 倍。

三是模型正变成 " 自动 Agent"。
用户不再满足于问一句答一句。现在的典型用法是,给模型一个复杂目标,让它自己规划步骤、调用各种工具(如搜索、运行代码)、在长时间对话中记住状态,最终完成任务。
就是说,AI 正在从 " 聊天机器人 " 转变为能独立完成工作的 " 智能 Agent"。
而且值得一提的是,在所有任务类别中,编程和角色扮演目前是 AI 的主要使用方式。
编程是所有类别中增长最稳定的,其查询用量从年初的 11% 上涨至最近的超 50%。

在所有编程模型当中, Claude 系列模型始终占据主导地位,大部分时间其占比超过 60%。
但这一地位正在被动摇。2025 年 11 月,Anthropic 在该领域的市场份额首次跌破 60%,而在 7 月以来,OpenAI 的市场份额已从约 2% 增长至近几周的约 8%。
同期,谷歌的市场份额保持稳定,约为 15%。另外几个开源模型(比如 Qwen 和 Mistral)也正在稳步提升市场份额。报告还特意提到:
尤其是 MiniMax,已成为快速崛起的新秀,近几周取得了显著增长。

此外,角色扮演也几乎与编程持平。在开源模型中(一般限制会更小一点),它甚至占到 52% 的使用量。
在这一领域,中国开源模型和西方开源模型平分秋色。DeepSeek 的流量中,有超过 2/3 是角色扮演和闲聊,显示了其在消费者端的极高粘性。

主流模型都有自己的打开方式
而除了喜欢在 DeepSeek 玩角色扮演,用户对于各大主流模型都有自己钟爱的 " 打开方式 "。
Anthropic 显然是当之无愧的程序员,其 80% 以上流量均用于编程和技术任务。

谷歌更像一位全才,用途相对宽泛,涵盖法律、科学、技术和一些常识性查询。

马斯克旗下的 xAI 也在死磕编程,其技术应用、角色扮演及学术用途在十一月下旬显著增长。

OpenAI 的工作重点则随着时间发生明显偏移,从娱乐休闲活动逐渐转向编程和技术类任务。

Qwen 模型同样发力编程端,角色扮演和科学类任务则随时间有所波动。

总之,用户使用最多的编程正在成为兵家必争之地。
用户留存呈现 " 水晶鞋效应 "
BTW,报告专门针对用户留存问题还提出了一个有趣的 " 水晶鞋效应 "。
它是指,大部分用户会快速流失,但每一代 " 前沿 "AI 模型发布时,都会锁定一小批 " 天选用户 "。这些用户的任务需求恰好与这个模型的新能力完美匹配,就像灰姑娘穿上了刚好合脚的水晶鞋。一旦穿上,他们就很难换掉,即使后面有更好的模型出现。
典型的例子就是 5 月发布的 Claude 4 Sonnet 和 6 月发布的 Gemini 2.5 Pro,其用户留存率在 5 个月后还保持着 40% 的高水平,而这也正是取决于它们在工具调用和推理能力上取得的突破。
这也提醒大家,有时候 " 快 " 比 " 好 " 更重要。第一个用突破性能力解决关键问题的模型,即使后来被全面赶超,也能凭借早期建立的用户习惯和系统集成,长期守住基本盘。

这里也用一些大家熟知的模型打个样,看看具体有哪几种模式:
成功锁定(如 Claude、GPT-4o Mini):在刚发布时就抓住了一批核心用户,这些用户粘性极高。
从未合脚(如 Gemini 2.0 Flash):模型发布时没有带来突破性的能力,所以用户留不住,表现平平。
回旋镖效应(如 DeepSeek):一些用户试用后离开,但尝试了其他模型后又回来了。因为他们发现,DeepSeek 在性价比或特定能力上仍然是更好的选择。
不过报告也提到," 水晶鞋效应 " 的窗口期很短,基本只在它刚发布、被视为 " 最前沿 " 的那段时间。
一旦后续竞品发布,能力差距被抹平,再想吸引和锁定新用户就非常困难了。
另外,除了上面这些,报告得出的其他结论还有:
AI 不再是硅谷的独角戏,亚洲地区的付费使用量占比从 13% 翻倍至 31%;
北美的 AI 地位相对下降,虽然仍是最大市场,但份额已不足 50%;
英语依然占据 82% 的绝对主导,但简体中文以近 5% 的份额位居第二;
模型定价对使用量的影响比想象中要小,价格下降 10%,使用量仅增加 0.5%-0.7%。
而且降价并不意味着用户花钱就少了,当某些模型变得足够便宜且好用时,人们会在更多地方、用更长上下文、更频繁地调用它。
于是总 Token 反而飙升,总支出可能并不降低,这也是报告中提到的 " 杰文斯悖论 "。
最后需要提醒,这份报告也存在一定局限性。OpenRouter 主要反映的是开发者和服务端 API 调用行为,但现实里还有大量用户通过 App 或 Web 直接访问(如 ChatGPT App/Web),这些流量都不在 OpenRouter 内。
而且 OpenRouter 的定价策略也会左右开发者选择。例如,如果 GPT-5.1 在平台上贵,而 Claude 更便宜,那么使用数据很可能往 Claude 倾斜,但这无法真实代表 "Claude 就更受欢迎 "。
但不管怎样,这份报告无疑为我们提供了一个新视角、一份新参考答案。
而这,或许是其最大的价值。
报告地址:
https://openrouter.ai/state-of-ai
参考链接:
[ 1 ] https://x.com/OpenRouterAI/status/1996678816820089131
[ 2 ] https://x.com/imxiaohu/status/1997489223486865912
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
锁定 12 月 10 日周三,AI 圈一年一度绝对不容错过的盛宴马上就要来了——MEET2026 智能未来大会。 了解详情
重磅 GenAI 对话 + 前沿 Agent 圆桌,深挖年度最热议题
近三十位来自学术界、产业界与前沿创业一线的重量级嘉宾
「人工智能年度榜单」与「年度 AI 趋势报告」正式发布
,一起来 AI 认知跨年 ❤️
点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦