Token消耗量成为KPI，程序员一周烧掉“33个维基百科”

文｜晓静

编辑｜徐青阳

硅谷正在流行一个新词：Tokenmaxxing。

在 Meta 和 OpenAI 内部，工程师们开始在 AI 使用排行榜上展开竞争。根据外媒报道，甚至有一名工程师一周消耗了 2100 亿个 Token，相当于 33 个维基百科的文本量。有人每月仅 AI 账单就高达 15 万美元。一位爱立信驻斯德哥尔摩的工程师花在 Claude 上的钱比自己的工资还高，但账单由公司承担。Token 预算正在成为工程师的新型工作福利，" 就像免费零食或免费午餐曾经那样 "。

Shopify CEO Tobi Lütke 早在 2025 年 4 月就发布内部备忘录，宣布 "AI 使用是 Shopify 的基线预期 "，要求所有团队在申请新人力之前必须先证明 AI 无法完成该工作，并将 AI 使用纳入绩效考核。Meta 随后宣布从 2026 年起将 "AI 驱动的影响力 " 正式纳入所有员工的绩效评估。

当 Token 消耗量开始出现在 KPI 里，它已经成为了一种组织行为信号。

与此同时，产业层面的信号同样密集。3 月 16 日，黄仁勋在英伟达 GTC 大会上把 Token 定义为 "AI 时代的基石 "，称它将成为 " 最值钱的大宗商品 "。次日，阿里巴巴宣布成立 Alibaba Token Hub 事业群，由 CEO 吴泳铭直接负责，定位是 " 创造 Token、输送 Token、应用 Token"。

图：黄仁勋在 GTC 演讲中展示了 Token 成本与收入关系的图表，将数据中心分为免费层、中级层、高级层和 Premium 层来分配算力，并展示 Vera Rubin 芯片相比 Grace Blackwell 带来 5 倍收入提升的预测。

一年前，Token 还只是开发者才关心的技术计量单位。现在，它成为了芯片公司用来定义产品价值的语言，也是互联网巨头围绕它重组事业群的理由，更是成为了工程师 offer 里的新型福利和核心 KPI。

但是，Tokenmaxxing 排行榜只记录了消耗量，没有人记录这些 Token 到底完成了多少有效任务。

这恰好是今天整个 Token 经济中最大的盲区。

01 一个工程师烧掉的到底是什么

2100 亿 Token 听起来是一个惊人的数字。但理解它的真实含义，需要先放弃一个假设：Token 是标准品。

图：Tokscale 全球 Token 消耗排行榜，Tokscale 是一个开源 Token 使用量追踪和排行榜工具，支持 Claude Code、Cursor、OpenCode、Codex 等多个平台，用户可以提交数据参与全球排名

两年前，大模型的定价还相对简单，通常只有输入 Token 和输出 Token 两个基础价格；但到了今天，主流厂商的定价体系已经明显分层，同样是 "Token"，在不同调用条件下往往对应完全不同的收费标准。

以 Anthropic 为例，Claude Opus 4.6 的标准输入价格为每百万 Token 5 美元，输出价格为 25 美元；如果启用 Prompt Caching，5 分钟缓存写入为 6.25 美元、1 小时缓存写入为 10 美元、缓存读取为 0.50 美元。若使用 Batch API，输入和输出价格都可再打五折；若指定仅在美国本地推理，相关 Token 价格还会统一上浮 10%；而在 Fast Mode 下，Opus 4.6 的输入和输出价格则会直接提升至标准价的 6 倍。

也就是说，同一家厂商、同一个模型、同样被称作 "Token" 的计费单位，已经会因为缓存、批处理、区域推理和速度档位等不同条件，出现数倍甚至十余倍的价格差。

真正拉高成本的，也早已不只是模型本身的调用费。OpenAI 目前的价目表显示，Web Search 已按模型类型区分收费：面向 GPT-4.1、GPT-4o 等模型的网页搜索为每千次 10 美元，而面向 GPT-5 等推理模型的网页搜索则为每千次 25 美元。

File Search 的费用为每千次调用 2.50 美元，外加向量存储每 GB 每天 0.10 美元，前 1 GB 免费。代码容器也已成为单独计费项：当前 1 GB 容器收费 0.03 美元，4 GB、16 GB 和 64 GB 容器则分别对应更高价格；从 2026 年 3 月 31 日起，这套价格还将切换为按每 20 分钟一个 session per container 计费。

模型之外，搜索、检索、存储、执行环境这些过去常被视为 " 附属能力 " 的环节，如今都已被拆分成独立的成本中心。

Google 也在沿着同样的方向推进。Vertex AI 官方定价页面显示，自 2026 年 2 月 11 日起，Agent Engine 中的 Code Execution、Sessions 和 Memory Bank 已开始正式收费，相关价格不再笼统打包，而是按照 vCPU 小时和 GiB 内存小时分别计价。

所以，今天再谈 " 大模型价格 "，已经不能只盯着输入和输出 Token 单价。真正发生变化的是计费逻辑，大模型厂商目前卖的已经是一整套可运行、可存储、可搜索、可调用工具、可持续执行的 AI 基础能力。

图：OpenAI API 定价页面截图，Token 之外的多层收费结构（Web Search、File Search、Container 等独立计费项）

02 为什么 Token 越来越便宜，账单却越来越贵

如果单看模型 API 的牌面价格，Token 确实在逼近白菜价。Anthropic 的 Opus 从上一代的 15 美元 / 百万 Token 降到了 5 美元，降幅三分之二。DeepSeek V3.2 压到了 0.28 美元。Google Gemini 2.5 Flash Lite 低至约 0.10 美元。

中国模型的价格优势更明显，OpenRouter 数据显示，中国模型的 Token 单价约为海外竞品的六分之一到十分之一。即便腾讯云混元 HY2.0 Instruct 在结束公测补贴、涨价超过 460% 之后，输入价格折合约 0.62 美元 / 百万 Token，仍然低于 Anthropic 最便宜的 Haiku 4.5（1 美元），不到 Sonnet 4.6 的五分之一。

图：Artificial Analysis 维护着一个实时更新的 LLM 排行榜，不同模型之间价格梯度巨大

但 AI 的总使用成本并没有随之下降。三个机制在同时起作用。

第一，模型变聪明了，代价是变 " 话多 " 了。Artificial Analysis 的报告指出，推理模型的平均输出 Token 使用量大约是非推理模型的 5.5 倍。Anthropic 和 OpenAI 都把 extended thinking Token 按输出 Token 计费，模型想得越深，账单越长。单价降了，但完成同一个任务的 Token 总量翻了好几倍。

第二，Agent 让 Token 从 " 一次消耗 " 变成 " 持续消耗 "。这正是 Tokenmaxxing 的深层驱动力，工程师并不是在手动刷 Token，他们的 AI 编程智能体在 24 小时不间断运行，自动拆分任务、调用工具、自我迭代。据阿里云的数据，单个 Agent 的算力消耗是传统 Chatbot 的 100 到 1000 倍。中国整体日均 Token 消耗在 2025 年中突破 30 万亿，到 2026 年 2 月已跃升至 180 万亿级别。

第三，生产 Token 的底层成本在涨。2026 年 3 月 18 日，阿里云和百度智能云同日宣布上调 AI 算力和存储产品价格，涨幅最高 34%。AWS 在 1 月将机器学习容量块提价约 15%，谷歌云宣布 5 月起上调 AI 基础设施费用。

GPU、并行存储、高速网络、数据中心电力，模型牌价在降，但生产 Token 所依赖的一切都在涨。Anthropic 在发布 Opus 4.6 时专门强调 " 价格保持不变 "，言下之意是更强的能力由厂商自己消化成本。

换句话说，模型是引擎，但油钱、停车费和高速过路费都在涨。

三个机制叠在一起，结果就是 Token 的牌面价格和真实任务成本之间，出现了一条越来越宽的裂缝。

对于那些把 Token 预算写进 offer 的公司来说，成本优化的重心正在转移，过去最有效的方式是选更便宜的模型，现在关键变成了：减少 Agent 的无效调用轮次，用缓存策略压缩重复输入，比如 Anthropic 的缓存读取价格只有标准输入的十分之一，在不同能力等级的模型之间做智能路由，行业内流传的一个建议是 70% 任务走 Haiku、20% 走 Sonnet、10% 走 Opus，成本可降约 60%，以及用批量处理替代实时调用拿到五折。

03 Token 焦虑的本质

回到 Tokenmaxxing。排行榜记录了 Token 消耗量，但没有记录产出质量。一个工程师一周烧掉 33 个维基百科的 Token，不等于他完成了 33 个维基百科价值的工作。

大厂把 Token 消耗量写入 KPI，或者是作为一种 " 福利 "，本质上真的是生产力的跃升吗，还是某种 " 生产力表演 "？

这触及了 Token 经济学最核心的结构性缺陷，行业还没有建立起从 Token 消耗到任务完成的有效度量。Token 衡量的是投入，不是产出。一个 Agent 花了 100 万 Token 完成了任务，和另一个花了 10 万 Token 完成了同样的任务，在 Tokenmaxxing 排行榜上的表现恰好相反，前者排名更高。

Shopify CEO Lütke 在备忘录中有一句话值得注意：他声称一些同事正在贡献 " 此前认为不可能的 10 倍产出 "，但他没有给出具体衡量标准。

一种新型的职业焦虑就诞生了：不通过高昂的 Token 消耗来展示 AI 生产力，就有可能被视为落伍。这种焦虑，和 2000 年代初每家企业争相建网站、2010 年代每个品牌必须做 App 的逻辑一模一样：技术采纳本身变成了信号，消耗量变成了代理指标，真实价值的衡量被推迟了。

但与之前不同的是，这一轮的成本代价是实打实的。15 万美元的月度 AI 账单、一周 2100 亿 Token 的消耗、持续涨价的底层算力和存储，Tokenmaxxing 不是免费的。当成本足够高时，" 烧 Token" 和 " 用 Token 创造价值 " 之间的区别，就会从哲学问题变成财务问题。

Token 单价仍会继续下降，这一点没有悬念。

真正的焦虑在于，谁能最高效地把 Token 变成任务完成率。对每一个程序员、每一家企业、每一个普通用户来说，衡量 AI 的成本，不要看每百万 Token 多少钱，要看完成一件事究竟值得花多少钱。

这两个数字之间的差距，是以 "Token 为新度量衡的智能时代 " 下一阶段最大的商业机会，也是最深的成本陷阱。

宙世代

一起剪

相关标签