Token管够的时代结束了

文 | 世界模型工场

曾经 Token 管够的公司，现在集体开始学过日子了。

最近，美国 Agent 公司 Lindy 把 100% 的托管 Agent 流量，从 Claude 搬到了 DeepSeek V4。

理由是，这能节省数百万美元推理成本，迁移流量成本下降约 90%。

这不是个例。

一些美国开发者和中小公司正在转向中国模型，因为它们在大量日常任务上 " 够用且便宜 "。

据外媒报道，Siemens、Renault、Orange、ChapsVision 等欧洲企业，也开始混用美国、中国、欧洲的模型了。

回想过去一年，很多企业都在鼓励员工多用 AI，仿佛 Token 烧得越多，就越能证明公司 "AI-first"。

但随着 Token 账单摆到桌上，全球公司仿佛约好了一样开始集体反省，主打一个 " 该省省该花花 "。

一场小模型经济学的风潮悄然兴起。

Token 最大化的反噬

所谓小模型经济学，就是别什么活都请最贵的专家。

过去企业接入 AI，往往默认用最强模型。

写代码上 Claude，做 Agent 上 Claude，复杂不复杂都先上前沿模型。

但问题是，前沿模型堪称 Token 碎钞机，每多读一段上下文、多跑一轮 Agent，账单都贵得让人想流泪。

于是大家开始琢磨，是不是每件事都得上最贵的旗舰模型？

结果发现，简单活分给便宜模型，复杂活上贵模型，效果也不错。

这一套省钱 " 小妙招 "，慢慢就被叫成了 " 小模型经济学 "。

要知道这套 Token 经济学不是凭空想出来的，而是被一堆账单逼出来的。

Uber 就是一个典型案例。

这家公司曾经鼓励工程师多用 AI 编程工具，Claude Code、Cursor 这类工具都被当成提效神器。

结果仅用几个月，Uber 就烧穿了全年的 AI 编程预算。

Uber COO Andrew Macdonald 后来公开质疑，表示很难把 Claude Code 使用量和 " 多交付 25% 有用消费者功能 " 直接挂钩。

紧接着，公司开始给员工设 Token 限额。每人、每个工具，每月 1500 美元 Token 花费，超额需要获批。

亚马逊的故事同样黑色幽默。

之前为了响应公司 AI 号召，员工自发做了一个 KiroRank 排行榜，专门看谁用 Token 用得多。

结果很快有人摸到了漏洞，根本不用真解决问题，派 Agent 去干一堆没意义的活，排名照样往上。

高级副总裁 Dave Treadwell 最后只能亲自下场喊话：" 别为了用 AI 而用 AI"，排行榜随后悄悄下线。

Meta 内部也搞过类似的东西，名字起得更狂，叫 "Claudeonomics"，连 " 经济学 " 都用上了，结果栽在同一个坑里。

目前，大公司都开始收紧 Token 用量了。

微软被曝大量取消 Claude Code 直接许可，转向 GitHub Copilot CLI，Copilot 从固定订阅走向按量计费。

Meta 也从 "Token 最大化 " 转向了 "Token 最小化 " 策略。

据外媒报道，Meta 计划限制员工 Token 使用，原因是内部 AI 使用成本预计达到数十亿美元级别。

这些变化表明，企业开始意识到，Token 花费和有用产出不成正比，乱烧 Token 的时代结束了。

小模型经济学变成一门生意

光靠企业自己抠预算还不够，真正让 " 小模型经济学 " 成立的，是供给侧也跟着变了，便宜模型开始好用了。

DeepSeek V4 系列是最直接的代表。

同样干活，DeepSeek V4 Flash 价格比 Anthropic 模型低约 20-50 倍。

在 Ramp 的企业软件采购趋势榜上，DeepSeek 一度冲到第一。

Vercel 的 AI 网关数据更夸张。

在 Vercel AI Gateway 的生产流量中，DeepSeek 的 Token 份额一个月从不到 1% 升至 17%。

连微软都在认真考虑，用 DeepSeek V4 的微调版，去顶替 Copilot Cowork 里原本跑 Anthropic、OpenAI 的位置。

这也催生出一套行业里心照不宣的分层逻辑：

不差钱或者任务难的时候，照旧用 OpenAI、Anthropic 的旗舰模型；

真要算性价比，转头就去用 DeepSeek、Kimi、智谱 GLM、MiniMax 这一档 " 够用且便宜 " 的模型。

两条价格带并行，按需分配。

开源项目 ClawRouter 数据显示，用这种分层组合，平均成本能从每百万 Token 25 美元，压到约 2 美元。

在这套逻辑下，OpenRouter 这样的模型路由公司突然就开始值钱了。

OpenRouter 不训练模型，它做的是模型调度台，帮助企业和开发者在 OpenAI、Anthropic、Google、DeepSeek、Mistral 等数百个模型之间调度。

价格、延迟、稳定性、上下文长度，都是 OpenRouter 考虑的调度因素。

据外媒报道，OpenRouter 今年完成 1.13 亿美元 B 轮融资，估值约 13 亿美元；周处理 Token 量涨了 5 倍到 25 万亿，拥有 800 万用户。

Vercel 的数据也显示，大规模 AI 应用早就不是一个模型打天下。

在 Vercel AI Gateway 上，月请求量超过 1000 万次的团队，平均会同时使用 35 个模型。

有的模型负责意图识别，有的模型负责检索，有的模型负责摘要，有的模型负责复杂推理，AI 的使用变得像一条分工明确的流水线。

还有 LiteLLM、Helicone 这类工具，把模型路由做成了财务系统。

按团队、项目、模型设置预算，监控每个接口烧了多少 Token，一旦哪家 Provider 变贵了、变慢了，就把流量切走。

与此同时，云厂商也开始跟进。

AWS Bedrock 的 Intelligent Prompt Routing 已经能在同一模型家族里自动分配请求。

AWS 内部测试显示，在 Claude Haiku 和 Sonnet 之间做路由，可以在保持质量的同时节省 48% 到 56% 成本。

在这样的产业变化下，帮企业省钱的 " 小模型经济学 "，正在成为一门新生意。

企业如何落地？

虽说 " 该省省该花花 " 的道理都懂，但真正落地时，企业面对的是具体的技术活儿：

这次请求，到底该派给便宜模型还是贵模型？

这个过程，不是简单地把 Claude 换成 DeepSeek，而是要把一个 AI 任务拆成很多小步骤。

比如一个客服 Agent，用户问 " 我的订单到哪了 "，模型之间的工作流大致是：

先让便宜模型判断意图，是查物流，不是投诉，也不是退货；

再用便宜模型抽出订单号，直接调用物流 API。

最后，只需要一个中等模型把结果润色成一句人话。

用户看到的还是 " 您的包裹已到达杭州转运中心 "，但企业已经少跑了一大段昂贵推理。

AI 编程也是一样。

一个 coding agent 不需要每一步都用最贵模型。

读取目录、总结文件结构、生成简单测试、写 PR 摘要，可以交给便宜模型；

大型重构计划、跨文件依赖分析、安全敏感代码审查，再交给 Claude、GPT 这类强模型。

从技术上看，企业要实现模型路由方式，通常有几种做法。

最简单的是规则路由，比如：订单查询走小模型加 API，法律问题直接走强模型加人审。

更常见的是级联路由，先让便宜模型回答，格式校验、事实校验、置信度过不了，再升级给贵模型。

再往后，就是学习型路由。系统根据提示词难度、历史表现、预算和延迟，自动判断该用哪个模型。

近两年，这套工程化的手艺，也从工程师的经验之谈，变成了正经的研究课题。

比如，ParetoBandit 研究的是动态环境里的预算路由。

模型价格在变，模型质量会悄悄退化，新模型会不断加入，系统如何一边控制预算，一边在线调整路由？

Budget-Aware Agentic Routing 专门研究 Agent 场景。

长任务里每一步都调用强模型，在经济上不可持续，所以要在每一步决定，是该省钱，还是该上强模型？

当企业去掉了 "Token 管够 " 的幻觉，转向更加务实的 " 小模型经济学 "，这恰恰是企业继续扩大 AI 使用的前提。

宙世代

一起剪

相关标签