瑞银发现:60%已开始控制AI支出,企业转向低成本模型与开源中国模型

AI 支出管理正在成为企业 IT 治理的新战场。随着 AI Agent 和代码工具的普及，Token 账单正式进入 CFO 视野，企业的应对方式正在重塑 AI 产业链的受益格局。

据追风交易台，瑞银证券分析师 Karl Keirstead 团队在 6 月 23 日发布的 AI 研究报告中给出核心判断：Token 支出优化的激增可能暂时拖累 AI 收入增长，但长期趋势依然强劲。其前期调研显示，约 60% 的企业已以某种方式限制 AI 开支，核心动作是为 Token 使用加设护栏。这一比例意味着，AI 支出的成本治理已从个别企业的自发行为演变为更广泛的行业现象。

变化的直接影响正在传导至产业链。高价前沿模型面临降档使用与开源替代的压力，中国开源模型——包括阿里 Qwen、DeepSeek、MiniMax、智谱 GLM 等——开始进入企业采购与部署选项，一家大型全球银行已在本地部署 Qwen 以平衡 Claude 等高端模型的使用。

云厂商和硬件层所受冲击相对有限，软件公司则处于最为复杂的位置：既面临客户预算压缩，又有机会将自身定位为 Token 优化平台。

企业没有停用 AI，只是开始看 Token 账单

企业 AI 使用的早期阶段以粗放为主要特征——鼓励员工尽量试用，优先追求采用率，成本纪律普遍较弱。随着 AI Agent 和 AI Coding 工具的普及，Token 消耗从聊天机器人式的小流量演变为持续跑任务的大流量，"Token-maxxing" 问题开始浮出水面。

从调研中可见具体案例的极端性：有公司年内 Token 预算被大量消耗，不得不将内部 AI 工具从 5 个收缩至 2 个；有企业在 AWS Bedrock 上出现单个用户单月花费 3.5 万美元的情况；还有 DevOps 团队成员每周 Token 用量达到配额的 100% 至 200%，但企业暂未明确干预。

这并非一个统一的 " 踩刹车 " 故事。部分企业因 AI 已深度嵌入产品工作流，目标不是少用 Token，而是提升每一美元的产出；还有企业将员工薪酬目标与 AI 使用挂钩，CFO 的降本诉求与 CEO 的推广目标之间形成张力。Databricks CEO 对这一轮变化的描述是：" 这是一个大减速带，不是小减速带。"

真正被压缩的往往是 ROI 不清晰的使用场景。软件工程师代码产出提升、客服 AI Agent 带来的呼叫量减少、研发流程提速，这些指标让部分公司没有动力强行限用，企业愿意忍受高 Token 账单的前提是 ROI 看得见。

模型路由让高端模型从 " 默认项 " 变成 " 奢侈项 "

Token 优化最重要的技术动作不是简单限额，而是模型路由：将不同任务分配给不同模型，只有复杂推理、关键代码和长上下文分析才调用最贵的模型。

价格差异是推动这一行为的直接驱动力。以 Anthropic 模型定价为例，Haiku 4.5 输出价格为每百万 Token 5 美元，Opus 4.5-4.8 为 25 美元，Fable/Mythos 5 则高达 50 美元——从最低端升至最高端，输出 Token 价格相差 10 倍。这一价差使得 " 按任务选模型 " 具有显著的成本意义。

更合理的计算维度是 " 每个成功结果的有效成本 "：高端模型若能一次生成高质量结果，可能比低端模型反复迭代更划算，但这也意味着高端模型必须持续证明自身溢价的合理性。以前将所有任务都提交给最强模型的团队，现在开始追问：这个任务真的需要最大上下文窗口吗？

微软近期推出的 MAI 小语言模型也踩中了这一方向。MAI "Thinking" 被描述为 350 亿参数的中等规模模型，Code-1 则定位低端前沿模型，目标是为企业提供 " 够用但更便宜 " 的选项。

中国开源模型进入企业成本曲线

降档不只发生在同一家模型供应商内部。企业正在更大规模地评估开源模型，尤其是来自中国的开源模型，包括阿里 Qwen、DeepSeek、MiniMax、智谱 GLM 以及 Moonshot 旗下的 Kimi。

据描述的案例，一家大型全球银行为管理 Token 支出，开始在本地部署 Qwen，以平衡 Claude 等高端模型的使用。本地化部署将成本结构从按 Token 付费转变为本地硬件容量配置，同时规避了使用外部托管中国模型的合规风险。

云平台已将上述模型纳入标准菜单。AWS Bedrock 的模型选项中已包含 MiniMax、Kimi、Qwen、DeepSeek、GLM；微软方面通过 Azure AI Foundry 提供 DeepSeek，并在多模型策略下持续评估不同模型的性能与成本组合。

对中国模型提供商而言，这是机会，但边界同样清晰。开源模型通常免费或低价，直接货币化空间有限，更现实的路径可能类似 BMW 与阿里围绕 Qwen 展开合作的项目模式。

云和芯片受到的不是同一种压力

模型层是此轮成本压力的直接承压点，云和硬件层的冲击则需绕道传导。

AWS、Azure、Google Cloud 已是多模型平台，并未单押某一家前沿模型公司。客户从高价模型切换至小模型或开源模型，可能影响云厂商的模型 API 收入增速，但只要推理仍在云上运行，算力需求便不会消失。企业越重视成本管理，反而越可能将模型选择、部署、安全和计费统一托管至云平台。

对 GPU 云和 AI 基础设施定价权的影响是需要持续观察的变量：若模型公司因客户价格敏感而下调每 Token 价格，云算力是否仍具提价能力？这一问题已进入投资者讨论，但当前算力供给仍然偏紧，AI 渗透仍处早期，训练与推理需求并未因优化行为而中断。

硬件层的判断整体偏向乐观。GB200/GB300 等新一代算力刚开始形成规模，基于这些芯片训练和推理的模型有望带来更好的 Token 经济性。音频、视频、物理 AI 等多模态数据流需求仍在持续扩展算力边界。

软件公司：预算压力与 " 优化器 " 机会并存

AI Token 支出上升后，企业预算并非可以无限扩张。目前可观察到的几个资金来源方向包括：放缓招聘、减少外部 IT 服务支出、压缩 SaaS 和应用软件预算增长。

Uber 的例子具有代表性：AI 使用继续推进，但通过放缓内部人员增长来抵消 Token 成本。这一框架也被用来解读 IT 服务公司和部分 SaaS 公司的疲弱表现。

大型席位制 SaaS 公司处境尤为复杂。Salesforce、ServiceNow、Workday 等公司一方面面对客户预算重排，另一方面仍在推动从席位收费向 " 席位加使用量 " 的计费模式过渡——而当客户刚刚被 AI 账单冲击时，接受另一个使用量计费模型的意愿明显下降。

但软件公司也有一张反牌。Palantir 约一个月前商业化 AIP Evolve，帮助客户选择最适合任务的模型、调优 Prompt、改善数据调用。据披露，Evolve 在一个案例中推荐更换模型后，Token 成本下降 97%，上线前三周采用率达到 90%。

软件公司的结构性优势在于 " 不绑定单一模型 " ——可将自身定位为模型中立的调度平台，在 Claude、Qwen、Llama 及各类小模型之间为客户做成本与性能调度，逻辑与多云数据库公司类似。

AI 增长逻辑未变，斜率之争才刚开始

当前最难量化的变量是 Token 增速究竟会被压低多少。许多企业自身尚未完全摸清 Token 花在哪里，可靠的全行业数据更加稀缺。

一个较为保守的路径假设是：若某企业原本 AI Token 支出为 100，且预计数月后增长至 150，优化后实际可能落在 120 至 130 区间，而非倒退至 80。也就是说，增速被压低，而非需求逆转。

瑞银旗下 Evidence Lab 对约 130 家企业的最新调查显示，仅 8% 的企业已在生产环境中大规模部署 AI Agent，37% 是生产中有限规模使用，29% 仍在试点，26% 只是使用 Copilot 或 AI Coding 等产品但尚未部署 Agent 应用。AI Agent 真正大规模消耗 Token 的阶段才刚开始。

头部 AI 原生公司的数据印证了这一判断。法律 AI 公司 Harvey 披露，其 Token 消耗从 1 月的 1 万亿增长至 5 月的 12 万亿至 13 万亿，说明优化与扩张可以同时发生：企业会更精细地分配支出，但 AI 使用场景仍在持续向外扩展。

此轮 Token 优化与 2022 年至 2024 年后疫情时代云与软件的 " 预算回撤 " 存在本质差异：后者是成熟用量被砍，前者更接近新技术扩散早期的成本治理。其结果不是 AI 需求消失，而是重塑赢家排序——高价模型收入增速受压，低成本模型和路由工具受益，云平台继续吃多模型部署需求，软件公司则站在被砍预算与成为省钱工具的岔路口上。

宙世代

一起剪

相关标签