AI未来指北 6小时前
Token消耗量成为KPI,程序员一周烧掉“33个维基百科”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

文|晓静

编辑|徐青阳

硅谷正在流行一个新词:Tokenmaxxing。

在 Meta 和 OpenAI 内部,工程师们开始在 AI 使用排行榜上展开竞争。根据外媒报道,甚至有一名工程师一周消耗了 2100 亿个 Token,相当于 33 个维基百科的文本量。有人每月仅 AI 账单就高达 15 万美元。一位爱立信驻斯德哥尔摩的工程师花在 Claude 上的钱比自己的工资还高,但账单由公司承担。Token 预算正在成为工程师的新型工作福利," 就像免费零食或免费午餐曾经那样 "。

Shopify CEO Tobi Lütke 早在 2025 年 4 月就发布内部备忘录,宣布 "AI 使用是 Shopify 的基线预期 ",要求所有团队在申请新人力之前必须先证明 AI 无法完成该工作,并将 AI 使用纳入绩效考核。Meta 随后宣布从 2026 年起将 "AI 驱动的影响力 " 正式纳入所有员工的绩效评估。

当 Token 消耗量开始出现在 KPI 里,它已经成为了一种组织行为信号。

与此同时,产业层面的信号同样密集。3 月 16 日,黄仁勋在英伟达 GTC 大会上把 Token 定义为 "AI 时代的基石 ",称它将成为 " 最值钱的大宗商品 "。次日,阿里巴巴宣布成立 Alibaba Token Hub 事业群,由 CEO 吴泳铭直接负责,定位是 " 创造 Token、输送 Token、应用 Token"。

图:黄仁勋在 GTC 演讲中展示了 Token 成本与收入关系的图表,将数据中心分为免费层、中级层、高级层和 Premium 层来分配算力,并展示 Vera Rubin 芯片相比 Grace Blackwell 带来 5 倍收入提升的预测。
一年前,Token 还只是开发者才关心的技术计量单位。现在,它成为了芯片公司用来定义产品价值的语言,也是互联网巨头围绕它重组事业群的理由,更是成为了工程师 offer 里的新型福利和核心 KPI。

但是,Tokenmaxxing 排行榜只记录了消耗量,没有人记录这些 Token 到底完成了多少有效任务。

这恰好是今天整个 Token 经济中最大的盲区。

01 一个工程师烧掉的到底是什么

2100 亿 Token 听起来是一个惊人的数字。但理解它的真实含义,需要先放弃一个假设:Token 是标准品。

图:Tokscale 全球 Token 消耗排行榜,Tokscale 是一个开源 Token 使用量追踪和排行榜工具,支持 Claude Code、Cursor、OpenCode、Codex 等多个平台,用户可以提交数据参与全球排名

两年前,大模型的定价还相对简单,通常只有输入 Token 和输出 Token 两个基础价格;但到了今天,主流厂商的定价体系已经明显分层,同样是 "Token",在不同调用条件下往往对应完全不同的收费标准。

以 Anthropic 为例,Claude Opus 4.6 的标准输入价格为每百万 Token 5 美元,输出价格为 25 美元;如果启用 Prompt Caching,5 分钟缓存写入为 6.25 美元、1 小时缓存写入为 10 美元、缓存读取为 0.50 美元。若使用 Batch API,输入和输出价格都可再打五折;若指定仅在美国本地推理,相关 Token 价格还会统一上浮 10%;而在 Fast Mode 下,Opus 4.6 的输入和输出价格则会直接提升至标准价的 6 倍。

也就是说,同一家厂商、同一个模型、同样被称作 "Token" 的计费单位,已经会因为缓存、批处理、区域推理和速度档位等不同条件,出现数倍甚至十余倍的价格差。

真正拉高成本的,也早已不只是模型本身的调用费。OpenAI 目前的价目表显示,Web Search 已按模型类型区分收费:面向 GPT-4.1、GPT-4o 等模型的网页搜索为每千次 10 美元,而面向 GPT-5 等推理模型的网页搜索则为每千次 25 美元。

File Search 的费用为每千次调用 2.50 美元,外加向量存储每 GB 每天 0.10 美元,前 1 GB 免费。代码容器也已成为单独计费项:当前 1 GB 容器收费 0.03 美元,4 GB、16 GB 和 64 GB 容器则分别对应更高价格;从 2026 年 3 月 31 日起,这套价格还将切换为按每 20 分钟一个 session per container 计费。

模型之外,搜索、检索、存储、执行环境这些过去常被视为 " 附属能力 " 的环节,如今都已被拆分成独立的成本中心。

Google 也在沿着同样的方向推进。Vertex AI 官方定价页面显示,自 2026 年 2 月 11 日起,Agent Engine 中的 Code Execution、Sessions 和 Memory Bank 已开始正式收费,相关价格不再笼统打包,而是按照 vCPU 小时和 GiB 内存小时分别计价。

所以,今天再谈 " 大模型价格 ",已经不能只盯着输入和输出 Token 单价。真正发生变化的是计费逻辑,大模型厂商目前卖的已经是一整套可运行、可存储、可搜索、可调用工具、可持续执行的 AI 基础能力。

图:OpenAI API 定价页面截图,Token 之外的多层收费结构(Web Search、File Search、Container 等独立计费项)
02 为什么 Token 越来越便宜,账单却越来越贵

如果单看模型 API 的牌面价格,Token 确实在逼近白菜价。Anthropic 的 Opus 从上一代的 15 美元 / 百万 Token 降到了 5 美元,降幅三分之二。DeepSeek V3.2 压到了 0.28 美元。Google Gemini 2.5 Flash Lite 低至约 0.10 美元。

中国模型的价格优势更明显,OpenRouter 数据显示,中国模型的 Token 单价约为海外竞品的六分之一到十分之一。即便腾讯云混元 HY2.0 Instruct 在结束公测补贴、涨价超过 460% 之后,输入价格折合约 0.62 美元 / 百万 Token,仍然低于 Anthropic 最便宜的 Haiku 4.5(1 美元),不到 Sonnet 4.6 的五分之一。

图:Artificial Analysis 维护着一个实时更新的 LLM 排行榜,不同模型之间价格梯度巨大
但 AI 的总使用成本并没有随之下降。三个机制在同时起作用。

第一,模型变聪明了,代价是变 " 话多 " 了。Artificial Analysis 的报告指出,推理模型的平均输出 Token 使用量大约是非推理模型的 5.5 倍。Anthropic 和 OpenAI 都把 extended thinking Token 按输出 Token 计费,模型想得越深,账单越长。单价降了,但完成同一个任务的 Token 总量翻了好几倍。

第二,Agent 让 Token 从 " 一次消耗 " 变成 " 持续消耗 "。这正是 Tokenmaxxing 的深层驱动力,工程师并不是在手动刷 Token,他们的 AI 编程智能体在 24 小时不间断运行,自动拆分任务、调用工具、自我迭代。据阿里云的数据,单个 Agent 的算力消耗是传统 Chatbot 的 100 到 1000 倍。中国整体日均 Token 消耗在 2025 年中突破 30 万亿,到 2026 年 2 月已跃升至 180 万亿级别。

第三,生产 Token 的底层成本在涨。2026 年 3 月 18 日,阿里云和百度智能云同日宣布上调 AI 算力和存储产品价格,涨幅最高 34%。AWS 在 1 月将机器学习容量块提价约 15%,谷歌云宣布 5 月起上调 AI 基础设施费用。

GPU、并行存储、高速网络、数据中心电力,模型牌价在降,但生产 Token 所依赖的一切都在涨。Anthropic 在发布 Opus 4.6 时专门强调 " 价格保持不变 ",言下之意是更强的能力由厂商自己消化成本。

换句话说,模型是引擎,但油钱、停车费和高速过路费都在涨。

三个机制叠在一起,结果就是 Token 的牌面价格和真实任务成本之间,出现了一条越来越宽的裂缝。

对于那些把 Token 预算写进 offer 的公司来说,成本优化的重心正在转移,过去最有效的方式是选更便宜的模型,现在关键变成了:减少 Agent 的无效调用轮次,用缓存策略压缩重复输入,比如 Anthropic 的缓存读取价格只有标准输入的十分之一,在不同能力等级的模型之间做智能路由,行业内流传的一个建议是 70% 任务走 Haiku、20% 走 Sonnet、10% 走 Opus,成本可降约 60%,以及用批量处理替代实时调用拿到五折。

03 Token 焦虑的本质

回到 Tokenmaxxing。排行榜记录了 Token 消耗量,但没有记录产出质量。一个工程师一周烧掉 33 个维基百科的 Token,不等于他完成了 33 个维基百科价值的工作。

大厂把 Token 消耗量写入 KPI,或者是作为一种 " 福利 ",本质上真的是生产力的跃升吗,还是某种 " 生产力表演 "?

这触及了 Token 经济学最核心的结构性缺陷,行业还没有建立起从 Token 消耗到任务完成的有效度量。Token 衡量的是投入,不是产出。一个 Agent 花了 100 万 Token 完成了任务,和另一个花了 10 万 Token 完成了同样的任务,在 Tokenmaxxing 排行榜上的表现恰好相反,前者排名更高。

Shopify CEO Lütke 在备忘录中有一句话值得注意:他声称一些同事正在贡献 " 此前认为不可能的 10 倍产出 ",但他没有给出具体衡量标准。

一种新型的职业焦虑就诞生了:不通过高昂的 Token 消耗来展示 AI 生产力,就有可能被视为落伍。这种焦虑,和 2000 年代初每家企业争相建网站、2010 年代每个品牌必须做 App 的逻辑一模一样:技术采纳本身变成了信号,消耗量变成了代理指标,真实价值的衡量被推迟了。

但与之前不同的是,这一轮的成本代价是实打实的。15 万美元的月度 AI 账单、一周 2100 亿 Token 的消耗、持续涨价的底层算力和存储,Tokenmaxxing 不是免费的。当成本足够高时," 烧 Token" 和 " 用 Token 创造价值 " 之间的区别,就会从哲学问题变成财务问题。

Token 单价仍会继续下降,这一点没有悬念。

真正的焦虑在于,谁能最高效地把 Token 变成任务完成率。对每一个程序员、每一家企业、每一个普通用户来说,衡量 AI 的成本,不要看每百万 Token 多少钱,要看完成一件事究竟值得花多少钱。

这两个数字之间的差距,是以 "Token 为新度量衡的智能时代 " 下一阶段最大的商业机会,也是最深的成本陷阱。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

kpi 工程师 ai 维基百科 芯片
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论