文 | 世界模型工场
曾经 Token 管够的公司,现在集体开始学过日子了。
最近,美国 Agent 公司 Lindy 把 100% 的托管 Agent 流量,从 Claude 搬到了 DeepSeek V4。
理由是,这能节省数百万美元推理成本,迁移流量成本下降约 90%。
这不是个例。
一些美国开发者和中小公司正在转向中国模型,因为它们在大量日常任务上 " 够用且便宜 "。
据外媒报道,Siemens、Renault、Orange、ChapsVision 等欧洲企业,也开始混用美国、中国、欧洲的模型了。
回想过去一年,很多企业都在鼓励员工多用 AI,仿佛 Token 烧得越多,就越能证明公司 "AI-first"。
但随着 Token 账单摆到桌上,全球公司仿佛约好了一样开始集体反省,主打一个 " 该省省该花花 "。
一场小模型经济学的风潮悄然兴起。
Token 最大化的反噬
所谓小模型经济学,就是别什么活都请最贵的专家。
过去企业接入 AI,往往默认用最强模型。
写代码上 Claude,做 Agent 上 Claude,复杂不复杂都先上前沿模型。
但问题是,前沿模型堪称 Token 碎钞机,每多读一段上下文、多跑一轮 Agent,账单都贵得让人想流泪。
于是大家开始琢磨,是不是每件事都得上最贵的旗舰模型?
结果发现,简单活分给便宜模型,复杂活上贵模型,效果也不错。
这一套省钱 " 小妙招 ",慢慢就被叫成了 " 小模型经济学 "。
要知道这套 Token 经济学不是凭空想出来的,而是被一堆账单逼出来的。
Uber 就是一个典型案例。
这家公司曾经鼓励工程师多用 AI 编程工具,Claude Code、Cursor 这类工具都被当成提效神器。
结果仅用几个月,Uber 就烧穿了全年的 AI 编程预算。
Uber COO Andrew Macdonald 后来公开质疑,表示很难把 Claude Code 使用量和 " 多交付 25% 有用消费者功能 " 直接挂钩。
紧接着,公司开始给员工设 Token 限额。每人、每个工具,每月 1500 美元 Token 花费,超额需要获批。
亚马逊的故事同样黑色幽默。
之前为了响应公司 AI 号召,员工自发做了一个 KiroRank 排行榜,专门看谁用 Token 用得多。
结果很快有人摸到了漏洞,根本不用真解决问题,派 Agent 去干一堆没意义的活,排名照样往上。
高级副总裁 Dave Treadwell 最后只能亲自下场喊话:" 别为了用 AI 而用 AI",排行榜随后悄悄下线。
Meta 内部也搞过类似的东西,名字起得更狂,叫 "Claudeonomics",连 " 经济学 " 都用上了,结果栽在同一个坑里。
目前,大公司都开始收紧 Token 用量了。
微软被曝大量取消 Claude Code 直接许可,转向 GitHub Copilot CLI,Copilot 从固定订阅走向按量计费。
Meta 也从 "Token 最大化 " 转向了 "Token 最小化 " 策略。
据外媒报道,Meta 计划限制员工 Token 使用,原因是内部 AI 使用成本预计达到数十亿美元级别。
这些变化表明,企业开始意识到,Token 花费和有用产出不成正比,乱烧 Token 的时代结束了。
小模型经济学变成一门生意
光靠企业自己抠预算还不够,真正让 " 小模型经济学 " 成立的,是供给侧也跟着变了,便宜模型开始好用了。
DeepSeek V4 系列是最直接的代表。
同样干活,DeepSeek V4 Flash 价格比 Anthropic 模型低约 20-50 倍。
在 Ramp 的企业软件采购趋势榜上,DeepSeek 一度冲到第一。
Vercel 的 AI 网关数据更夸张。
在 Vercel AI Gateway 的生产流量中,DeepSeek 的 Token 份额一个月从不到 1% 升至 17%。
连微软都在认真考虑,用 DeepSeek V4 的微调版,去顶替 Copilot Cowork 里原本跑 Anthropic、OpenAI 的位置。
这也催生出一套行业里心照不宣的分层逻辑:
不差钱或者任务难的时候,照旧用 OpenAI、Anthropic 的旗舰模型;
真要算性价比,转头就去用 DeepSeek、Kimi、智谱 GLM、MiniMax 这一档 " 够用且便宜 " 的模型。
两条价格带并行,按需分配。
开源项目 ClawRouter 数据显示,用这种分层组合,平均成本能从每百万 Token 25 美元,压到约 2 美元。
在这套逻辑下,OpenRouter 这样的模型路由公司突然就开始值钱了。
OpenRouter 不训练模型,它做的是模型调度台,帮助企业和开发者在 OpenAI、Anthropic、Google、DeepSeek、Mistral 等数百个模型之间调度。
价格、延迟、稳定性、上下文长度,都是 OpenRouter 考虑的调度因素。
据外媒报道,OpenRouter 今年完成 1.13 亿美元 B 轮融资,估值约 13 亿美元;周处理 Token 量涨了 5 倍到 25 万亿,拥有 800 万用户。
Vercel 的数据也显示,大规模 AI 应用早就不是一个模型打天下。
在 Vercel AI Gateway 上,月请求量超过 1000 万次的团队,平均会同时使用 35 个模型。
有的模型负责意图识别,有的模型负责检索,有的模型负责摘要,有的模型负责复杂推理,AI 的使用变得像一条分工明确的流水线。
还有 LiteLLM、Helicone 这类工具,把模型路由做成了财务系统。
按团队、项目、模型设置预算,监控每个接口烧了多少 Token,一旦哪家 Provider 变贵了、变慢了,就把流量切走。
与此同时,云厂商也开始跟进。
AWS Bedrock 的 Intelligent Prompt Routing 已经能在同一模型家族里自动分配请求。
AWS 内部测试显示,在 Claude Haiku 和 Sonnet 之间做路由,可以在保持质量的同时节省 48% 到 56% 成本。
在这样的产业变化下,帮企业省钱的 " 小模型经济学 ",正在成为一门新生意。
企业如何落地?
虽说 " 该省省该花花 " 的道理都懂,但真正落地时,企业面对的是具体的技术活儿:
这次请求,到底该派给便宜模型还是贵模型?
这个过程,不是简单地把 Claude 换成 DeepSeek,而是要把一个 AI 任务拆成很多小步骤。
比如一个客服 Agent,用户问 " 我的订单到哪了 ",模型之间的工作流大致是:
先让便宜模型判断意图,是查物流,不是投诉,也不是退货;
再用便宜模型抽出订单号,直接调用物流 API。
最后,只需要一个中等模型把结果润色成一句人话。
用户看到的还是 " 您的包裹已到达杭州转运中心 ",但企业已经少跑了一大段昂贵推理。
AI 编程也是一样。
一个 coding agent 不需要每一步都用最贵模型。
读取目录、总结文件结构、生成简单测试、写 PR 摘要,可以交给便宜模型;
大型重构计划、跨文件依赖分析、安全敏感代码审查,再交给 Claude、GPT 这类强模型。
从技术上看,企业要实现模型路由方式,通常有几种做法。
最简单的是规则路由,比如:订单查询走小模型加 API,法律问题直接走强模型加人审。
更常见的是级联路由,先让便宜模型回答,格式校验、事实校验、置信度过不了,再升级给贵模型。
再往后,就是学习型路由。系统根据提示词难度、历史表现、预算和延迟,自动判断该用哪个模型。
近两年,这套工程化的手艺,也从工程师的经验之谈,变成了正经的研究课题。
比如,ParetoBandit 研究的是动态环境里的预算路由。
模型价格在变,模型质量会悄悄退化,新模型会不断加入,系统如何一边控制预算,一边在线调整路由?
Budget-Aware Agentic Routing 专门研究 Agent 场景。
长任务里每一步都调用强模型,在经济上不可持续,所以要在每一步决定,是该省钱,还是该上强模型?
当企业去掉了 "Token 管够 " 的幻觉,转向更加务实的 " 小模型经济学 ",这恰恰是企业继续扩大 AI 使用的前提。


登录后才可以发布评论哦
打开小程序可以发布评论哦