
文|晓静
编辑|徐青阳
硅谷正在流行一个新词:Tokenmaxxing。
在 Meta 和 OpenAI 内部,工程师们开始在 AI 使用排行榜上展开竞争。根据外媒报道,甚至有一名工程师一周消耗了 2100 亿个 Token,相当于 33 个维基百科的文本量。有人每月仅 AI 账单就高达 15 万美元。一位爱立信驻斯德哥尔摩的工程师花在 Claude 上的钱比自己的工资还高,但账单由公司承担。Token 预算正在成为工程师的新型工作福利," 就像免费零食或免费午餐曾经那样 "。
Shopify CEO Tobi Lütke 早在 2025 年 4 月就发布内部备忘录,宣布 "AI 使用是 Shopify 的基线预期 ",要求所有团队在申请新人力之前必须先证明 AI 无法完成该工作,并将 AI 使用纳入绩效考核。Meta 随后宣布从 2026 年起将 "AI 驱动的影响力 " 正式纳入所有员工的绩效评估。
当 Token 消耗量开始出现在 KPI 里,它已经成为了一种组织行为信号。
与此同时,产业层面的信号同样密集。3 月 16 日,黄仁勋在英伟达 GTC 大会上把 Token 定义为 "AI 时代的基石 ",称它将成为 " 最值钱的大宗商品 "。次日,阿里巴巴宣布成立 Alibaba Token Hub 事业群,由 CEO 吴泳铭直接负责,定位是 " 创造 Token、输送 Token、应用 Token"。

但是,Tokenmaxxing 排行榜只记录了消耗量,没有人记录这些 Token 到底完成了多少有效任务。
这恰好是今天整个 Token 经济中最大的盲区。

2100 亿 Token 听起来是一个惊人的数字。但理解它的真实含义,需要先放弃一个假设:Token 是标准品。

图:Tokscale 全球 Token 消耗排行榜,Tokscale 是一个开源 Token 使用量追踪和排行榜工具,支持 Claude Code、Cursor、OpenCode、Codex 等多个平台,用户可以提交数据参与全球排名
两年前,大模型的定价还相对简单,通常只有输入 Token 和输出 Token 两个基础价格;但到了今天,主流厂商的定价体系已经明显分层,同样是 "Token",在不同调用条件下往往对应完全不同的收费标准。
以 Anthropic 为例,Claude Opus 4.6 的标准输入价格为每百万 Token 5 美元,输出价格为 25 美元;如果启用 Prompt Caching,5 分钟缓存写入为 6.25 美元、1 小时缓存写入为 10 美元、缓存读取为 0.50 美元。若使用 Batch API,输入和输出价格都可再打五折;若指定仅在美国本地推理,相关 Token 价格还会统一上浮 10%;而在 Fast Mode 下,Opus 4.6 的输入和输出价格则会直接提升至标准价的 6 倍。
也就是说,同一家厂商、同一个模型、同样被称作 "Token" 的计费单位,已经会因为缓存、批处理、区域推理和速度档位等不同条件,出现数倍甚至十余倍的价格差。
真正拉高成本的,也早已不只是模型本身的调用费。OpenAI 目前的价目表显示,Web Search 已按模型类型区分收费:面向 GPT-4.1、GPT-4o 等模型的网页搜索为每千次 10 美元,而面向 GPT-5 等推理模型的网页搜索则为每千次 25 美元。
File Search 的费用为每千次调用 2.50 美元,外加向量存储每 GB 每天 0.10 美元,前 1 GB 免费。代码容器也已成为单独计费项:当前 1 GB 容器收费 0.03 美元,4 GB、16 GB 和 64 GB 容器则分别对应更高价格;从 2026 年 3 月 31 日起,这套价格还将切换为按每 20 分钟一个 session per container 计费。
模型之外,搜索、检索、存储、执行环境这些过去常被视为 " 附属能力 " 的环节,如今都已被拆分成独立的成本中心。
Google 也在沿着同样的方向推进。Vertex AI 官方定价页面显示,自 2026 年 2 月 11 日起,Agent Engine 中的 Code Execution、Sessions 和 Memory Bank 已开始正式收费,相关价格不再笼统打包,而是按照 vCPU 小时和 GiB 内存小时分别计价。
所以,今天再谈 " 大模型价格 ",已经不能只盯着输入和输出 Token 单价。真正发生变化的是计费逻辑,大模型厂商目前卖的已经是一整套可运行、可存储、可搜索、可调用工具、可持续执行的 AI 基础能力。

如果单看模型 API 的牌面价格,Token 确实在逼近白菜价。Anthropic 的 Opus 从上一代的 15 美元 / 百万 Token 降到了 5 美元,降幅三分之二。DeepSeek V3.2 压到了 0.28 美元。Google Gemini 2.5 Flash Lite 低至约 0.10 美元。
中国模型的价格优势更明显,OpenRouter 数据显示,中国模型的 Token 单价约为海外竞品的六分之一到十分之一。即便腾讯云混元 HY2.0 Instruct 在结束公测补贴、涨价超过 460% 之后,输入价格折合约 0.62 美元 / 百万 Token,仍然低于 Anthropic 最便宜的 Haiku 4.5(1 美元),不到 Sonnet 4.6 的五分之一。

第一,模型变聪明了,代价是变 " 话多 " 了。Artificial Analysis 的报告指出,推理模型的平均输出 Token 使用量大约是非推理模型的 5.5 倍。Anthropic 和 OpenAI 都把 extended thinking Token 按输出 Token 计费,模型想得越深,账单越长。单价降了,但完成同一个任务的 Token 总量翻了好几倍。
第二,Agent 让 Token 从 " 一次消耗 " 变成 " 持续消耗 "。这正是 Tokenmaxxing 的深层驱动力,工程师并不是在手动刷 Token,他们的 AI 编程智能体在 24 小时不间断运行,自动拆分任务、调用工具、自我迭代。据阿里云的数据,单个 Agent 的算力消耗是传统 Chatbot 的 100 到 1000 倍。中国整体日均 Token 消耗在 2025 年中突破 30 万亿,到 2026 年 2 月已跃升至 180 万亿级别。
第三,生产 Token 的底层成本在涨。2026 年 3 月 18 日,阿里云和百度智能云同日宣布上调 AI 算力和存储产品价格,涨幅最高 34%。AWS 在 1 月将机器学习容量块提价约 15%,谷歌云宣布 5 月起上调 AI 基础设施费用。
GPU、并行存储、高速网络、数据中心电力,模型牌价在降,但生产 Token 所依赖的一切都在涨。Anthropic 在发布 Opus 4.6 时专门强调 " 价格保持不变 ",言下之意是更强的能力由厂商自己消化成本。
换句话说,模型是引擎,但油钱、停车费和高速过路费都在涨。
三个机制叠在一起,结果就是 Token 的牌面价格和真实任务成本之间,出现了一条越来越宽的裂缝。
对于那些把 Token 预算写进 offer 的公司来说,成本优化的重心正在转移,过去最有效的方式是选更便宜的模型,现在关键变成了:减少 Agent 的无效调用轮次,用缓存策略压缩重复输入,比如 Anthropic 的缓存读取价格只有标准输入的十分之一,在不同能力等级的模型之间做智能路由,行业内流传的一个建议是 70% 任务走 Haiku、20% 走 Sonnet、10% 走 Opus,成本可降约 60%,以及用批量处理替代实时调用拿到五折。
回到 Tokenmaxxing。排行榜记录了 Token 消耗量,但没有记录产出质量。一个工程师一周烧掉 33 个维基百科的 Token,不等于他完成了 33 个维基百科价值的工作。
大厂把 Token 消耗量写入 KPI,或者是作为一种 " 福利 ",本质上真的是生产力的跃升吗,还是某种 " 生产力表演 "?
这触及了 Token 经济学最核心的结构性缺陷,行业还没有建立起从 Token 消耗到任务完成的有效度量。Token 衡量的是投入,不是产出。一个 Agent 花了 100 万 Token 完成了任务,和另一个花了 10 万 Token 完成了同样的任务,在 Tokenmaxxing 排行榜上的表现恰好相反,前者排名更高。
Shopify CEO Lütke 在备忘录中有一句话值得注意:他声称一些同事正在贡献 " 此前认为不可能的 10 倍产出 ",但他没有给出具体衡量标准。
一种新型的职业焦虑就诞生了:不通过高昂的 Token 消耗来展示 AI 生产力,就有可能被视为落伍。这种焦虑,和 2000 年代初每家企业争相建网站、2010 年代每个品牌必须做 App 的逻辑一模一样:技术采纳本身变成了信号,消耗量变成了代理指标,真实价值的衡量被推迟了。
但与之前不同的是,这一轮的成本代价是实打实的。15 万美元的月度 AI 账单、一周 2100 亿 Token 的消耗、持续涨价的底层算力和存储,Tokenmaxxing 不是免费的。当成本足够高时," 烧 Token" 和 " 用 Token 创造价值 " 之间的区别,就会从哲学问题变成财务问题。
Token 单价仍会继续下降,这一点没有悬念。
真正的焦虑在于,谁能最高效地把 Token 变成任务完成率。对每一个程序员、每一家企业、每一个普通用户来说,衡量 AI 的成本,不要看每百万 Token 多少钱,要看完成一件事究竟值得花多少钱。
这两个数字之间的差距,是以 "Token 为新度量衡的智能时代 " 下一阶段最大的商业机会,也是最深的成本陷阱。


登录后才可以发布评论哦
打开小程序可以发布评论哦