巨头开始“烧不动Token”了

文 | 影子备忘录

一家未具名的科技巨头，因为忘了给员工的 Claude 使用许可证设置上限，短短一个月内在 AI 上的支出高达 5 亿美元——折合人民币约 33 亿元，相当于每天烧掉超 1 亿元。

这家公司是谁，至今没人确认，但社交媒体上的猜测几乎都指向了亚马逊，一个在 2026 年资本支出高达约两千亿美元的庞然大物。

五亿美元意味着什么？足够一家中等规模科技公司干一整年营收的钱，只够这家巨头在 AI 大模型上点一个月 " 外卖 "。

更令人咋舌的是，这并非孤例。Uber 的 CTO 在内部备忘录中坦承，公司将 Claude Code 部署给约 5000 名工程师后，短短四个月内就用光了全年的 AI 预算。

单个工程师每月产生的 API 成本高达 500 到 2000 美元，即便对于这家市值 1500 亿美元的企业，账单依然让高管措手不及。

微软也在同一时间紧急收紧了内部 AI 工具的使用权限，逐步关停大部分 Claude Code 授权，要求数以千计的工程师强制迁移回自家的 GitHub Copilot。

Meta、亚马逊同样在最近几周收紧了内部 AI Token 消耗指标——数以十亿美元计的计算资源被消耗，却几乎没有可衡量的业务产出。

如果说此前市场上关于 AI 泡沫的讨论还停留在口头辩论，那么此时此刻，真金白银的账单已经给出了答案：巨头真的烧不动 Token 了。

Token 是如何从 " 白菜价 " 变成 " 奢侈品 " 的

两年前，Token 还不是个问题。

2024 年，大模型厂商疯狂烧钱训练更大的模型，通过免费送 Token、低价倾销抢占市场。当时甚至有人说 " 卖 Token 不如卖矿泉水 " ——百万元级的输入 Token 只要几毛钱，贵一点的模型不过一两美元。

整个行业沉浸在 " 成本将持续下降 " 的叙事里，所有人都相信规模效应会像互联网一样将边际成本无限摊薄。

然而，2025 年下半年开始，风向变了。

根据 OpenRouter 的统计，过去一年全球周度 Token 消耗量从 2.1T 激增至 24.5T，2026 年以来周度消耗同比增幅达 280%。

在国内，日均 Token 调用量从 2024 年初的 1000 亿飙升至 2026 年 3 月的 140 万亿，两年增长超 1000 倍，仅 2026 年第一季度就较 2025 年底增长了 40%。

需求端的急剧膨胀，瞬间撕开了供给端的缺口。

Epoch AI 发布的报告算了一笔简单的账：全球 Blackwell 芯片的算力增速是每年约 3.4 倍，而全球 Token 需求增速是每年约 10 倍。3.4 对 10，差距在逐年撕裂。

更致命的是，一旦上下文窗口拉长到 128k，吞吐量会暴跌 50 倍。而当企业级应用普及后，绝大多数任务恰恰需要处理海量上下文，这就意味着有效供给比理论值还要紧俏。

供给端的瓶颈是结构性且短中期无解的。HBM 高带宽内存是 AI 服务器的 " 心脏 "，三星、SK 海力士和美光三家占据了全球 95% 以上的产能，其扩产周期长达 24 到 36 个月。

2025 年下半年以来，HBM 价格涨幅超过 50%，直接推高了 AI 芯片的成本。CoWoS 封装产能同样严重不足，台积电即便在 2025 年将产能翻倍，2026 年的订单依然排到了年底。

受此挤压，普通 DDR5 内存半年的涨价幅度高达 300%，256G 服务器内存单条报价已突破 4 万元。

算力租赁市场率先反映了这种紧张。自 2026 年 2 月以来，租用英伟达最先进的 B200 芯片的费用已翻了一番，接近每小时 6 美元。

即使是旧款的 H100，一年期租赁合约价格也从 2025 年 10 月的约 1.7 美元 / 小时，上涨至 2026 年 3 月的 2.35 美元 / 小时，涨幅近四成。

一台 8 卡的英伟达 B300 服务器，报价从 3 月份前的不到 400 万元，飙升至约 700 万元，而且 " 到货就被扫光 "。

传导到模型层，结果就是全线涨价。GPT-5.5 定价翻倍，Gemini 部分场景涨价 3 倍，Claude 的 API 价格水涨船高。曾几何时被津津乐道的 "AI 成本将持续下降 " 的神话，已经被现实击得粉碎。

为什么越烧 Token，产出越少？

如果说成本上涨是外部环境的 " 天灾 "，那么企业内部的管理问题，则是让账单更加触目惊心的 " 人祸 "。

亚马逊、Meta 等巨头此前推崇的 AI 使用量内部排行榜，催生了一个被称为 "Tokenmaxxing" 的现象——员工通过 AI 代理执行毫无意义的任务来消耗 Token，目的只是为了在排行榜上获得更高的排名。亚马逊工程高级副总裁事后不得不公开告诫员工：" 请不要为了用 AI 而用 AI"。

Meta 类似的管理指标催生了几乎同样的问题。该公司约 8.5 万名员工每月消耗 60 万亿 Token，换算下来每位员工每天烧掉约 100 万输出 Token。

部分工程团队被允许每天在 Token 上花费 300 美元，够一个人一天生成 2500 万输出 Token。

苹果的案例更让人咋舌，部分工程团队被允许每天在 Token 上花费 300 美元——按当时的价格算，够一个人一天生成 2500 万输出 Token。

最荒谬的是那笔 5 亿美元的账单——由于没有设置使用上限，导致 AI 工具被毫无节制地滥用。高额 Token 账单迅速堆积，财务部门收到时，数据甚至已经过时了三天。

但比管理失控更值得追问的是：这些烧掉的 Token，到底创造了多少真实价值？

开发者生产力平台 Entelligence.AI 汇总了 2444 家企业的数据，给出了一个令人警醒的答案：每投入 1 美元 AI Token 费用，只有 18 美分产生了触达用户的实际价值。

高达 44 美分被用来修复 AI 自身引入的 Bug，27 美分流向返工，11 美分被审查摩擦所消耗。这意味着大部分 Token 不仅没有提升效率，反而成为了效率的损耗源。

洋葱集团创始人甚至直言：" 很多员工，其实在拿公司的 Token 摸鱼，甚至接私活。白天在公司上班，同时接外面的私活——开发单、设计单、运营单 "。

甚至闲鱼等二手平台上，大量卖家正在利用公司配发的模型额度对外接单。AI 还没淘汰人类，人类倒先把公司的 AI 预算给报销了。

Uber 的遭遇同样揭示了这种困局。该公司将 Claude Code 部署给约 5000 名工程师后，月使用率飙升至 95%，全员 AI 素养得到了极大提升，但单月成本却超出了全年的预算规划。

Uber 不得不紧急制定严苛的分级管理制度，像当年节省纸张一样精打细算每一个 Token 的成本。

一个更加反常识的结论正在被越来越多的企业意识到：在某些场景下，AI 不仅没有提升效率，甚至反而拖慢了效率。

METR 的最新研究显示，Claude Code 在实测中让资深开发者的完成速度慢了 19%。投入 Token，修复 Bug，返工，审查摩擦——这个循环正在吞噬原本应该被创造出来的效率空间。

当巨头们把 Token 使用量纳入 KPI 考核，员工们唯一能理性做的事情，就是无限制地消耗 Token 来刷分数。这套激励机制本身就是对 " 效率最大化 " 最大的讽刺。

效率越高，烧钱越快

当人们谈论 AI 的效率提升时，通常谈论的是 " 单位 Token 产出的价值 "。但这个公式存在一个被有意无意忽略的前提—— Token 总量是有限的。

实际上，随着 AI 性能的提升，用户的使用频率和单次任务的复杂度只会越来越高。这是一个内在的、不可调和的悖论。

中信证券的报告数据显示，AI 计算需求已呈指数级扩张。从核心厂商的消耗数据来看，国内字节跳动（豆包）2025 年 12 月的日均 Token 消耗量达到 63 万亿，与 OpenAI 的 52 万亿、谷歌的 65 万亿处于同一量级。

到 2026 年 3 月，这一数字突破 120 万亿，三个月内实现了翻倍增长。豆包日均 Token 调用量相比 2024 年 5 月增长了整整 1000 倍。

仅 2026 年前四个月，部分企业就已经耗尽了全年的 Token 预算。

谷歌在 I/O 大会上宣布，Gemini 的使用量已从 2025 年 5 月的每月 480 万亿 Token 跃升至 2026 年 5 月的每月 3200 万亿 Token，增幅超过 6 倍，主要驱动因素正是代理型 AI（Agent）和编码工具——这两者消耗的计算资源远超基本的聊天机器人查询。

在英伟达内部的一次交流中，甚至有员工坦率地提出担忧：" 对我的团队而言，AI 成本已超过了人力成本 "。

当 AI 比人还贵的时候，" 用 AI 替代人力 " 的逻辑起点就不复存在了。

这就引出了一个根本性的问题：AI 的边际成本结构，和传统工业是截然不同的。

过去工业革命的底层逻辑是 " 买断制 " ——建工厂、买设备需要极高的初始投入，但一旦机器运转起来，多生产一件产品的边际成本几乎为零。机器不需要按时薪结算，产量越大，平摊到单件上的成本就越低。

而到了 AI 时代，逻辑变成了 " 租赁制 "。初始成本几乎为零，你只需要按 Token 付费来 " 租赁 "AI 的思考能力。

但这种模式的致命弱点在于：当任务变得复杂时，Token 消耗会呈指数级爆炸。一个朴素的算术题摆在了所有人面前：AI 省下的那点人力成本，未必填得上 Token 的账单。

具体来看技术维度的错配也相当明显。在大模型的推理成本结构中，约 60% 到 70% 来自工具调用和上下文处理，这一比例在复杂 Agent 任务中会更高。

以 " 订机票 + 酒店 + 租车 " 的复合任务为例：用户输入占比不足 1%，模型内部推理（思考链）约占 5% 到 10%，工具调用（API 交互）约占 85% 到 90%，最终输出不足 5%。这意味着仅仅通过优化模型推理来降本的空间极为有限，真正的大头消耗来自 Agent 与外部环境的反复交互。

当 AI 从 " 一问一答 " 变为 " 自主执行 "，消耗的 Token 量级从几百跃升到几十万甚至上百万，这就是为什么开源模型和闭源模型之间曾经的价格差距，在企业级用量面前几乎毫无意义——问题是用了多少，而不是单价多便宜。

就连微软这样拥有充沛云资源和完整 AI 产业链的巨头，也开始反思这一悖论。微软停用了内部对 Anthropic 旗下 Claude Code 的使用授权，因为按照 Token 按量计费的模式，哪怕是自家云资源配合使用，依然觉得成本高到难以承受。

这释放了一个危险的信号：当基础设施的提供者自己都烧不起 Token 的时候，第三方企业用户的日子只会更难过。

成本剧烈增加，趋势不可逆增加

AI 行业曾以一种近乎天真的乐观主义坚信 " 摩尔定律 " 能持续适用于大模型成本。但事实正在给出不同的答案。

尽管技术优化一直在路上，但在需求爆发的浪潮面前，一切优化都被稀释了。NVIDIA 在 2025 年 GTC 大会上公布的公开数据显示，通过量化和 KV Cache 优化，推理成本理论上可以降低 50% 到 70%。

但同期，GPT-4 到 GPT-4o 的推理成本下降了约 50%，而用户调用量增长了 5 倍。技术优化的幅度远远追不上需求膨胀的速度。

更进一步的数据显示，自 2024 年以来，谷歌处理的 Token 量年增 10 倍，其他供应商的增速也差不多。而全球 AI 算力每年只增长 3.4 倍，芯片内存带宽每年增长 4.1 倍。

3.4 对 10 的巨大鸿沟，意味着算力需求的增长在可预见的未来都将领先于供给，而这将不可避免地推动 Token 价格继续走高。

从整个产业来看，Token 成本正在重构 AI 经济的底层逻辑。中信证券指出，供需失衡将推动云产业链进入量价齐升周期。

优刻得因硬件成本结构性上涨上调服务价格；阿里云宣布 AI 算力、存储产品最高涨价 34%。国内头部大模型企业单月收入突破 10 亿元，部分企业 20 天的收入就超过了 2025 年全年。

这组数据的背后，是 Token 已经从 " 获客成本 " 变成了企业必须严肃对待的 " 硬成本 "。

算力需求的全球竞争也在加速推高成本。据统计，美国四大云服务商（微软、亚马逊、谷歌、Meta）2025 至 2026 年计划资本开支合计分别达到 4002 亿、6500 亿美元。

国内阿里、腾讯、百度、字节同期合计投入 507.16 亿、669.71 亿美元。全球范围内的算力军备竞赛，使得任何一家企业都难以独善其身。

在成本端，高盛预计到 2030 年，AI Agent 所消耗的 Token 用量将增长 24 倍，达每月 120 千万亿个 Token。

每日数亿元的 Token" 燃烧 "，意味着 Token 已经从一个技术细节，上升为企业财务模型中最不可忽视的变量。AI 的推理成本，正在成为这个时代最昂贵的账单之一。

技术的进步还带来了另一重悖论：模型变得更强大，意味着单次调用消耗更多资源。

以 Anthropic 最新开放的百万级上下文窗口为例，一个 90 万 Token 的请求与一个 9 千 Token 的请求单价完全一致。

表面上看这似乎是降价，但前提是你确实需要 90 万 Token。当多模态处理和完整代码库分析成为标准配置，单次请求的 Token 消耗自然水涨船高。技术的发展并未减少 Token 消耗，反而在功能上为更大量的消耗提供了空间。

这一现实的连锁反应已经开始显现，据 IT 桔子数据，2026 年第一季度，已有超过 10 家 AI 应用初创公司停止运营或转型。

纯 API 创业公司既无自有流量生态，也无算力囤货，更无私有化部署能力，它们成为 Token 成本上涨冲击下最先倒下的群体。这并非短期的价格波动，而是 AI 产业结构性洗牌的开始。

出路在哪里？

面对天价 Token 账单，整个行业正在经历一场深刻的反思。

第一条出路，是技术层面的降本。以 DeepSeek 为代表的新一代开源模型，正在用稀疏注意力等架构创新大幅压低推理成本。

DeepSeek R1 的 API 调用价格低至 $0.001/ 千 token，仅为 GPT-4 Turbo 的十分之一，成本来源于三大技术优化：量化压缩使模型体积缩减 75%；动态批处理算法将 GPU 利用率提升至 92%；架构级优化使计算量减少 50%。

这种 " 性能不减、成本腰斩 " 的技术路径，为整个行业提供了可借鉴的降本范式。DeepSeek V3 的训练成本仅为前沿模型的十分之一到二十分之一，API 价格低至同类的十六分之一，在 Hacker News 等开发者社区引发了广泛讨论。这也说明，AI 算力的普及并不必然等同于高成本，关键在于技术架构的革新。

第二条出路，是企业内部的管理重构。亚马逊已经在行动，他们关闭了鼓励 Tokenmaxxing 的内部排行榜 KiroRank，转而采用名为 " 标准化部署 " 的指标，衡量的是实际交付的 AI 辅助代码，而非消耗的 Token 数量。

Uber 也制定了严格的分级管理制度，限制工程师的 AI 工具使用流量。从 " 用量考核 " 到 " 结果考核 "，这一转变意味着企业对 AI 的态度已经从 " 追求普及率 " 转向 " 追求投资回报率 "。

正如 Uber 的遭遇所揭示的那样，让全员用上 AI 并不难，难的是让 AI 为业务创造价值。

第三条出路，是商业模式的重构。国内豆包开始推出付费订阅，从每月 68 元到 500 元不等；百度文心一言也推出 49.9 元 / 月会员；Kimi 试水每月 49 元至 199 元档位。

虽然用户对收费反应不一，但一个事实已经明确：靠资本输血维持免费模式的阶段已经走到了尽头。

同时，Anthropic 将 Claude 企业版的定价模式从固定订阅转向 " 基础费 + 按实际算力消耗付费 " 的混合模式。

旧模式下最高需为每位授权用户支付每月 200 美元，新模式下则在每用户每月 20 美元的基础费之上额外按实际消耗的算力付费。在此背景下，AI 成本的最终承担者，将从风险投资和企业 IT 预算，逐渐转移至最终用户。

技术降本、管理增效、商业变现——这三条路没有一条是轻松的，但它们合在一起，构成了 AI 经济走向可持续的唯一路径。

结语

当人们回顾 2026 年的这个夏天，很可能会发现，这是 AI 从神话回归常识的转折点。

"AI 一定比人便宜 "，这句过去两年被无数次重复的信念，如今终于迎来了审视。

简单任务上 AI 确实远比人工廉价，但当任务变得复杂、当循环思考上线、当 Agent 开始 " 永不下班 "，昂贵的 API 账单终将反超人类薪资。

Token 的稀缺不是技术问题，而是经济问题。它提醒所有人：算力虽大，但不是无限的；效率虽高，但不是免费的；创新虽好，但不是无代价的。

AI 带来的效率提升是真实的，但同时伴随着成本的剧烈增加——这才是完整的、不被有意忽略的经济账。

巨头们收缩 AI 预算并不意味着放弃 AI，而是一次健康的回调。

从 " 烧 Token 竞赛 " 回归到 " 价值创造 "，从 " 为了用 AI 而用 AI" 回到 "AI 是工具不是目的 " ——这些判断虽然听起来像是常识，但在狂热的市场中，常识往往是最容易被遗忘的东西。

下一次，当你打开对话框问 AI 一个简单的问题，消耗几百个 Token 时，不妨想一想那些在后台循环思考数万次的 Agent，那些反复调用外部工具去完成一个任务的自动化流程，那些为了一个代码 Bug 而绕了无数弯路的复杂推理——每一个 Token 的背后，都是一笔真实账。

AI 的账，终究要有人来付。

宙世代

一起剪

相关标签