AI 支出管理正在成为企业 IT 治理的新战场。随着 AI Agent 和代码工具的普及,Token 账单正式进入 CFO 视野,企业的应对方式正在重塑 AI 产业链的受益格局。
据追风交易台,瑞银证券分析师 Karl Keirstead 团队在 6 月 23 日发布的 AI 研究报告中给出核心判断:Token 支出优化的激增可能暂时拖累 AI 收入增长,但长期趋势依然强劲。其前期调研显示,约 60% 的企业已以某种方式限制 AI 开支,核心动作是为 Token 使用加设护栏。这一比例意味着,AI 支出的成本治理已从个别企业的自发行为演变为更广泛的行业现象。
变化的直接影响正在传导至产业链。高价前沿模型面临降档使用与开源替代的压力,中国开源模型——包括阿里 Qwen、DeepSeek、MiniMax、智谱 GLM 等——开始进入企业采购与部署选项,一家大型全球银行已在本地部署 Qwen 以平衡 Claude 等高端模型的使用。
云厂商和硬件层所受冲击相对有限,软件公司则处于最为复杂的位置:既面临客户预算压缩,又有机会将自身定位为 Token 优化平台。
企业没有停用 AI,只是开始看 Token 账单
企业 AI 使用的早期阶段以粗放为主要特征——鼓励员工尽量试用,优先追求采用率,成本纪律普遍较弱。随着 AI Agent 和 AI Coding 工具的普及,Token 消耗从聊天机器人式的小流量演变为持续跑任务的大流量,"Token-maxxing" 问题开始浮出水面。
从调研中可见具体案例的极端性:有公司年内 Token 预算被大量消耗,不得不将内部 AI 工具从 5 个收缩至 2 个;有企业在 AWS Bedrock 上出现单个用户单月花费 3.5 万美元的情况;还有 DevOps 团队成员每周 Token 用量达到配额的 100% 至 200%,但企业暂未明确干预。
这并非一个统一的 " 踩刹车 " 故事。部分企业因 AI 已深度嵌入产品工作流,目标不是少用 Token,而是提升每一美元的产出;还有企业将员工薪酬目标与 AI 使用挂钩,CFO 的降本诉求与 CEO 的推广目标之间形成张力。Databricks CEO 对这一轮变化的描述是:" 这是一个大减速带,不是小减速带。"
真正被压缩的往往是 ROI 不清晰的使用场景。软件工程师代码产出提升、客服 AI Agent 带来的呼叫量减少、研发流程提速,这些指标让部分公司没有动力强行限用,企业愿意忍受高 Token 账单的前提是 ROI 看得见。
模型路由让高端模型从 " 默认项 " 变成 " 奢侈项 "
Token 优化最重要的技术动作不是简单限额,而是模型路由:将不同任务分配给不同模型,只有复杂推理、关键代码和长上下文分析才调用最贵的模型。
价格差异是推动这一行为的直接驱动力。以 Anthropic 模型定价为例,Haiku 4.5 输出价格为每百万 Token 5 美元,Opus 4.5-4.8 为 25 美元,Fable/Mythos 5 则高达 50 美元——从最低端升至最高端,输出 Token 价格相差 10 倍。这一价差使得 " 按任务选模型 " 具有显著的成本意义。
更合理的计算维度是 " 每个成功结果的有效成本 ":高端模型若能一次生成高质量结果,可能比低端模型反复迭代更划算,但这也意味着高端模型必须持续证明自身溢价的合理性。以前将所有任务都提交给最强模型的团队,现在开始追问:这个任务真的需要最大上下文窗口吗?
微软近期推出的 MAI 小语言模型也踩中了这一方向。MAI "Thinking" 被描述为 350 亿参数的中等规模模型,Code-1 则定位低端前沿模型,目标是为企业提供 " 够用但更便宜 " 的选项。
中国开源模型进入企业成本曲线
降档不只发生在同一家模型供应商内部。企业正在更大规模地评估开源模型,尤其是来自中国的开源模型,包括阿里 Qwen、DeepSeek、MiniMax、智谱 GLM 以及 Moonshot 旗下的 Kimi。
据描述的案例,一家大型全球银行为管理 Token 支出,开始在本地部署 Qwen,以平衡 Claude 等高端模型的使用。本地化部署将成本结构从按 Token 付费转变为本地硬件容量配置,同时规避了使用外部托管中国模型的合规风险。
云平台已将上述模型纳入标准菜单。AWS Bedrock 的模型选项中已包含 MiniMax、Kimi、Qwen、DeepSeek、GLM;微软方面通过 Azure AI Foundry 提供 DeepSeek,并在多模型策略下持续评估不同模型的性能与成本组合。
对中国模型提供商而言,这是机会,但边界同样清晰。开源模型通常免费或低价,直接货币化空间有限,更现实的路径可能类似 BMW 与阿里围绕 Qwen 展开合作的项目模式。
云和芯片受到的不是同一种压力
模型层是此轮成本压力的直接承压点,云和硬件层的冲击则需绕道传导。
AWS、Azure、Google Cloud 已是多模型平台,并未单押某一家前沿模型公司。客户从高价模型切换至小模型或开源模型,可能影响云厂商的模型 API 收入增速,但只要推理仍在云上运行,算力需求便不会消失。企业越重视成本管理,反而越可能将模型选择、部署、安全和计费统一托管至云平台。
对 GPU 云和 AI 基础设施定价权的影响是需要持续观察的变量:若模型公司因客户价格敏感而下调每 Token 价格,云算力是否仍具提价能力?这一问题已进入投资者讨论,但当前算力供给仍然偏紧,AI 渗透仍处早期,训练与推理需求并未因优化行为而中断。
硬件层的判断整体偏向乐观。GB200/GB300 等新一代算力刚开始形成规模,基于这些芯片训练和推理的模型有望带来更好的 Token 经济性。音频、视频、物理 AI 等多模态数据流需求仍在持续扩展算力边界。
软件公司:预算压力与 " 优化器 " 机会并存
AI Token 支出上升后,企业预算并非可以无限扩张。目前可观察到的几个资金来源方向包括:放缓招聘、减少外部 IT 服务支出、压缩 SaaS 和应用软件预算增长。
Uber 的例子具有代表性:AI 使用继续推进,但通过放缓内部人员增长来抵消 Token 成本。这一框架也被用来解读 IT 服务公司和部分 SaaS 公司的疲弱表现。
大型席位制 SaaS 公司处境尤为复杂。Salesforce、ServiceNow、Workday 等公司一方面面对客户预算重排,另一方面仍在推动从席位收费向 " 席位加使用量 " 的计费模式过渡——而当客户刚刚被 AI 账单冲击时,接受另一个使用量计费模型的意愿明显下降。
但软件公司也有一张反牌。Palantir 约一个月前商业化 AIP Evolve,帮助客户选择最适合任务的模型、调优 Prompt、改善数据调用。据披露,Evolve 在一个案例中推荐更换模型后,Token 成本下降 97%,上线前三周采用率达到 90%。
软件公司的结构性优势在于 " 不绑定单一模型 " ——可将自身定位为模型中立的调度平台,在 Claude、Qwen、Llama 及各类小模型之间为客户做成本与性能调度,逻辑与多云数据库公司类似。
AI 增长逻辑未变,斜率之争才刚开始
当前最难量化的变量是 Token 增速究竟会被压低多少。许多企业自身尚未完全摸清 Token 花在哪里,可靠的全行业数据更加稀缺。
一个较为保守的路径假设是:若某企业原本 AI Token 支出为 100,且预计数月后增长至 150,优化后实际可能落在 120 至 130 区间,而非倒退至 80。也就是说,增速被压低,而非需求逆转。
瑞银旗下 Evidence Lab 对约 130 家企业的最新调查显示,仅 8% 的企业已在生产环境中大规模部署 AI Agent,37% 是生产中有限规模使用,29% 仍在试点,26% 只是使用 Copilot 或 AI Coding 等产品但尚未部署 Agent 应用。AI Agent 真正大规模消耗 Token 的阶段才刚开始。

头部 AI 原生公司的数据印证了这一判断。法律 AI 公司 Harvey 披露,其 Token 消耗从 1 月的 1 万亿增长至 5 月的 12 万亿至 13 万亿,说明优化与扩张可以同时发生:企业会更精细地分配支出,但 AI 使用场景仍在持续向外扩展。
此轮 Token 优化与 2022 年至 2024 年后疫情时代云与软件的 " 预算回撤 " 存在本质差异:后者是成熟用量被砍,前者更接近新技术扩散早期的成本治理。其结果不是 AI 需求消失,而是重塑赢家排序——高价模型收入增速受压,低成本模型和路由工具受益,云平台继续吃多模型部署需求,软件公司则站在被砍预算与成为省钱工具的岔路口上。



登录后才可以发布评论哦
打开小程序可以发布评论哦