财联社 1 月 2 日讯(记者郭松峤)" 我们平台上每天有海量的客服、推荐、风控场景需要调用大模型,Token 成本就像悬在头上的‘达摩克利斯之剑’。" 一位电商企业的 AI 技术负责人近日对财联社记者感叹,并道出了全行业的普遍焦虑。
2026 年,随着人工智能大模型从技术演示走向产业落地,一个冰冷的现实摆在所有从业者面前:企业主和 CIO 们开始用商业的眼光,而非技术炫酷的程度,来审视每一笔 AI 投资。那个决定性的商业天平,最终倾斜到了一个最基础的计量单位上—— Token(令牌)。
当智能体应用越铺越开,单个交互会话的 Token 消耗量呈指数级激增,高昂的成本结构让许多创新在规模化前,就卡死在了 " 经济账 " 上。
不过,企业的痛点,正是政策与产业发力的交汇点。
政策引擎:打响 " 成本歼灭战 " 的发令枪
进入 " 十五五 " 时期,国家对于人工智能产业发展的顶层设计,发生了从 " 鼓励探索 " 到 " 赋能千行百业 " 的深刻转变。
国家部委层面,国家数据局已将 " 优化算力资源布局 "、" 实施全国一体化算力网监测调度工程 " 列为重点任务,其深层逻辑正是通过优化资源配置和提升使用效率,从源头降低社会使用算力的总成本。工信部则持续推动 " 国货国用 ",鼓励国产 AI 芯片及服务器等关键环节的生态突破,这不仅是供应链安全的保障,更是通过开放、竞争的市场环境,倒逼技术效能提升和成本下降。
地方的行动更为迅速直接。深圳市在其行动计划中,设定了 AI 算力综合成本下降的量化目标。更引人注目的是如福建漳州等地推出的 " 算力券 " 政策,直接为企业抵扣使用公共算力的费用,实质上是政府出手,替企业分担最核心的 Token 成本压力。
" 这些政策组合拳,瞄准的正是 AI 产业化最后一公里的障碍——成本。" 天使投资人、资深人工智能专家郭涛向财联社记者解读," 它传递的信号是,未来的竞争,不仅是技术高低的竞争,更是将技术转化为经济价值的效率竞争。"
token 消耗量指数级增长
Token 是大型语言模型处理信息的基本单位。用户输入的每一个字、模型输出的每一段话,都在消耗 Token。因此,Token 成本直接决定了调用 AI 服务的价格。
当前的现实是,尽管以 DeepSeek 为代表的开源大模型极大地降低了创新门槛,但智能体应用的普及却催生了 Token 消耗量的 " 指数级海啸 "。
据行业最新数据显示,头部科技公司的月度 Token 处理量已突破千万亿级别,且年增长率超过十倍。单次交互的上下文越来越长,任务规划越来越复杂,导致单任务 Token 消耗激增数十倍。
" 这好比移动互联网初期,如果 1MB 流量的价格始终居高不下,就不会有今天的短视频和直播生态。" 郭涛指出。他比喻,AI 基础设施的 " 提速降本 " ,将直接决定 " 人工智能 +" 在千行百业渗透的深度与广度。
来自多方的数据也有力佐证了 token 消耗量的指数级增长趋势。
火山引擎最新披露的数据显示,截至今年 12 月,字节跳动旗下豆包大模型日均 token 使用量突破 50 万亿,较去年同期增长超过 10 倍,相比 2024 年 5 月刚推出时的日均调用量增长达 417 倍;谷歌在 10 月披露,其各平台每月处理的 token 用量已达 1300 万亿,相当于日均 43.3 万亿,而一年前月均仅为 9.7 万亿。
华东某大型商业银行科技部负责人告诉记者,该行一年在智能客服、风险审计、投研助手等场景的 Token 消耗费用已达数千万元级。" 随着智能体覆盖的业务越来越复杂,交互越来越频繁,成本压力急剧上升。我们今年技术预算的一个核心 KPI,就是实现单位智能业务成本的显著下降。"
这一诉求在今年以来变得尤为迫切。据财联社记者了解,包括浙江、江苏在内的多个制造业大省,在推动 " 智改数转 " 过程中,已将 "AI 应用成本 " 作为企业申报专项扶持资金的重要评估维度。
当使用量达到 " 百万亿 token/ 月 " 的量级时,哪怕每百万 token 成本只下降 1 美元,也可能带来每月 1 亿美元的成本差异。浪潮信息首席 AI 战略官刘军认为:"token 成本就是竞争力,它直接决定了智能体的盈利能力。要让 AI 真正进入规模化普惠阶段,token 成本必须在现有基础上继续实现数量级的下降。"
硬件创新瞄准 token 成本瓶颈
降本呼声高涨,但为何如此之难?
财联社记者调研了解到,根源在于当前主流的 AI 算力基础设施,其设计基因源于大模型的 " 训练时代 "。
训练任务像一场持续数月、需要调动全部兵力的 " 集团军大会战 ",追求的是总体吞吐量和稳定性。而当进入 " 推理时代 ",尤其是智能体所需的实时交互推理,任务更像是一场场要求 " 秒级响应 " 的 " 特种部队精确突击 "。沿用旧架构,导致了三大核心瓶颈:算力利用率(MFU)严重 " 倒挂 "、" 存储墙 " 瓶颈加剧、横向扩展代价高昂。
面对这一结构性挑战,单纯的硬件堆砌已无解。行业领军企业开始将创新火力集中到系统架构层面,目标是实现 Token 成本的 " 数量级跨越 "。
以算力基础设施提供商浪潮信息近期发布的新品为例,其思路颇具代表性。该公司推出的元脑 HC1000 超扩展 AI 服务器,并未追求单一的算力峰值,而是瞄准了 " 单位算力的 Token 产出效率 " 这一新靶心。
刘军表示:" 我们看到原来的 AI 计算是瞄着大而全去建设的,五脏俱全,各种各样的东西都在里面。但是当我们聚焦降低 token 成本这一核心目标之后,我们重新思考系统架构设计,找到系统瓶颈,重构出一个极简设计的系统。"
刘军强调,当前 "1 元 / 每百万 token" 还远远不够,面对未来 token 消耗量的指数级增长,若要实现单 token 成本的持续、数量级下降,需要推动计算架构的根本性革新。
" 这也要求整个 AI 产业的产品技术创新,要从当前的规模导向转为效率导向,从根本上重新思考和设计 AI 计算系统,发展 AI 专用计算架构,探索开发大模型芯片,推动算法硬件化的专用计算架构创新,实现软硬件深度优化,这将是未来的发展方向。" 刘军说。


登录后才可以发布评论哦
打开小程序可以发布评论哦