
出品 | 妙投 APP
作者 | 张贝贝
编辑 | 丁萍
头图 | 视觉中国
大模型确实越来越便宜,但企业使用 AI 这件事,正在变得越来越贵。
这听起来矛盾,却是当下 Token 经济最真实的一面。
以 OpenAI 公开定价为锚,2023 年 3 月 GPT-4 发布时每百万 Token 输入 30 美元 / 输出 60 美元,到 2024 年 5 月 GPT-4o 发布时降至 5 美元 /15 美元,再到今天,大量够用级推理模型已经把价格打到每百万 Token 几毛美元甚至更低。
如果以早期 GPT-4 价格作为高位锚点,部分通用推理 Token 价格在三年内最高降幅达 99%。
这也是过去两年行业最流行的判断:大模型会像带宽一样,越用越便宜。
但进入 2026 年,这个判断只说对了一半。便宜的是部分模型 Token 价格,企业的 AI 运营总支出并未缩减。
原因在于,通用 Token 价格虽然在探底,企业却正从简单问答转向 Agent 协作、代码生成等复杂工作流,而这类任务的 Token 消耗量往往是简单问答的十倍甚至百倍,导致算力总支出膨胀。
由此形成价格撕裂期:通用 Token 在探底,高价值能力在分层,企业 AI 支出在调用结构中膨胀。
但这种膨胀并非雨露均沾,而是沿着芯片、光模块、云平台直至应用等产业链环节,进行重新分配。在投资视角下,这种价格分裂的本质,是产业利润的再分配。谁掌握稀缺资源、关键能力和高粘性场景,谁就更有机会在 Token 用量爆发中持续收费。
本文试图回答一个更现实的问题:在这场价格撕裂中,AI 产业链中谁在真正赚钱,谁被成本和价格战挤压?
谁在真正赚钱?
过去两年,简单问答、摘要、翻译、分类等通用任务,在 MoE 架构、缓存、蒸馏和推理优化推动下,成本在逼近 " 水电价 "。
这些任务有几个共同特征:可预期、可缓存、可替代、对模型能力要求不极致。这类 Token 最容易被技术优化,也最容易被价格战打穿。它们正在从 "AI 能力 " 变成 " 基础设施能力 "。所谓 99% 的降价红利,主要发生在这一层。
但企业真正花钱越来越多的地方,并不在这里,更多集中在编程、Agent 协作、长上下文推理、多模态处理等高消耗场景。这些场景正在从低价补贴池里被剥离出来,重新按 " 旗舰能力 " 计费。
以智谱为例,其 GLM-5.1 对准编程与 Agent 场景,输入价格为每百万 Token 6-8 元,输出价格为 24-28 元;日常轻量任务则建议继续用 GLM-4.7,输入价格为 2-4 元,输出价格为 8-16 元。两者价差约 3 倍。
这是模型厂商通过模型档位分层重新划分了价格池。它们正在把简单问答、翻译、摘要这类任务当作基础流量,低价获客;同时开始向编程、Agent、复杂推理、多模态这类场景要利润。
与此同时,底层的物理成本并未跟随通用 Token 的降价变化。HBM 价格高位运行、数据中心电力与液冷成本高企,这些硬约束迫使阿里、腾讯、百度等云厂商在 3 月罕见上调了 AI 算力服务价格。
即,当可压缩场景的 Token 成本不断探底,不可压缩场景的算力成本依然坚挺,这正是企业算力支出失控的底层推手之一。
但更大的问题,不是单价,是用量膨胀。
过去企业用大模型,大多是一问一答,单次调用成本相对可控。
现在更多付费场景变成了 Agent 协作、长上下文记忆、复杂逻辑推理、代码生成和多模态处理等。此情况下,即使 Token 单价下降,但单轮单次任务消耗的 Token 数量可能放大十倍、几十倍的情况下,企业 AI 运营总成本反而可能上涨。
这是为什么一些企业在大规模开放 AI 编程工具后,很快遇到预算失控问题。
如 Uber 在为 5000 名工程师开放 AI 编程工具后,仅 4 个月便烧光了 2026 全年预算;国内米哈游技术团队负责人郑银河在 2026 年 5 月阿里云峰会上公开披露,团队一位工程师测试多 Agent 协作时,因未设熔断、数十个 Agent 进入循环调用,费用飙升,13 小时内收到 200 万元 Token 账单。
正是这三层结构的叠加,导致了 "99% 降价 " 与 " 企业 AI 更贵 " 的共存。
而企业多花出去的钱,并没有消失,它变成了产业链上某些环节的收入和利润。
因为通用 Token 越便宜,越容易刺激企业把 AI 推向更复杂、更高频、更重算力的场景;而这些新增需求,最终会流向芯片、光模块、云平台、高价值模型 API、应用场景和基础设施等。
即,真正赚钱的,不是卖便宜 Token 的人,是能从 Token 用量爆发里持续收费的人。这是理解当下 AI 产业链分化的关键。
接下来,对产业链上中下游分别展开讨论。

上游要卡住瓶颈
Token 经济下,AI 产业链的上游由计算芯片(GPU/NPU/LPU,加速器)、高速存储(HBM)、高速互联(含光模块)、智算中心基础设施(供电、冷却)等构成,这些环节决定 Token 生成的速度、稳定性和单位成本。
但上游并不是一块铁板。真正掌握定价权的,是那些卡住了物理瓶颈的环节。
首先是 GPU 和 HBM。
随着 Agent 与多模态处理的发展,瓶颈不再局限于算力,更在于显存容量、带宽和数据搬运能力。HBM 产能周期长、扩产慢(一般需 24 – 36 个月),又被大客户长协锁定,供给刚性直接转化为利润护城河。
海外三大存储巨头(SK 海力士、三星和美光)凭借 HBM,将 DRAM 综合毛利率拉回 50%+,其中 SK 海力士 2025 年 Q4 的毛利率已达 69%。
更关键的是,稀缺的 HBM 带宽通常不单独出售,而是被封装进 GPU 加速卡、整机和高速互联系统中,最终以整套计算系统的出售溢价体现出来。因此,最厚的利润池并非单一的 HBM 或 GPU,而是 "GPU+HBM+ 独家互联技术 " 打包在一起的套餐。
不过,国内破局之路尚处起步,长鑫存储作为唯一 DRAM IDM(设计 + 制造一体化),正以低毛利换良率爬坡,攻坚 HBM 供给瓶颈;摩尔线程、沐曦、壁仞、燧原科技等 GPU 厂商则试图通过自研架构与开放互联标准(如 OISA),在英伟达体系外构建可用的国产算力底座。
从估值层面看,资本市场对于 HBM 赛道的追捧主要来自于供给紧张。只不过,据长城证券测算,2025-2026 年全球 HBM 供需比分别为 45% 和 27%,缺口确实存在,但有所收窄。这意味着估值锚正在从 " 有没有货 " 移向 " 高端占比与毛利率能不能守得住 "。未来一旦 HBM 产能扩张速度超过需求增速,估值逻辑将会变化,届时需注意下调风险。
至于 GPU 赛道,AI 算力需求仍在情况下,资本市场仍会活跃。只不过,已经过了 " 讲故事 " 的阶段,转向 " 业绩检验期 "。如数据中心收入质量、下一代架构的出货锁单、以及单位 Token 成本下降是否会压低 " 按集群付费 " 的天花线等都会被检验。未来任何关于 " 增速边际放缓 " 的信号,可能都会导致估值回调。

其次是光模块。
AI 集群不是简单堆砌 GPU,单服务器内、跨服务器节点间、乃至跨数据中心的互联能力,共同决定了算力能不能真正跑起来。800G 向 1.6T 光模块升级,本质上是 Token 海量爆发后对更高带宽、更低延迟的刚性需求,这是该赛道走强的重要驱动因素。
所以,这一环节依靠 " 高端规格迭代 + 客户认证壁垒 " 构筑护城河,头部厂商如中际旭创、新易盛的毛利率已从早年 30% 左右攀升至 40% 以上。
但要注意的是,中际旭创、新易盛等企业的前五大客户收入贡献均超 7 成,客户集中风险比较高,任何一个大客户的订单波动都会影响全年业绩。且这种情况下,光模块企业的议价能力较弱。未来若 1.6T 的放量速度不及预期,或买方议价让平均售价阶梯下行速度快于成本降幅,利润增速可能会面临拐点。
而中际旭创、新易盛分别为 102 倍何 75 倍的滚动市盈率,近 5 年历史分位数均在 94% 以上,意味着市场已把 " 未来 2-3 年高增 + 份额不丢 " 提前付款,安全边际薄。
再就是电力与散热。当单卡功耗继续上升,传统风冷接近物理极限,液冷从可选项变成刚需。而高密度机柜的稳定运行,则依赖于园区级供电容量的冗余与效率。这一环节是典型的 " 资本开支驱动 + 交付能力壁垒 "。
英维克凭借全栈液冷技术绑定头部算力集群,资本市场上确实享有高溢价。但英维克当下 196 倍的滚动市盈率,近 5 年历史分位数 94%,处于估值高位。这意味着市场已经把 2026 年全年的液冷放量充分定价,甚至透支了部分 2027 年的预期。未来一旦招标价松动或对手报价拉低毛利,估值回调风险会比较大。
而特锐德是全球最大的预制舱式变电站制造商,近期推出的 " 算电岛 " 方案,通过高压直入与 800V 直流供电,可将 Token 的用电成本降低约 30%,这一叙事受到市场较多关注。但估值能否从电力设备向 AI 基础设施迁移,取决于下半年算电岛的订单和交付数据。
位于产业链末端的服务器系统集成与组装,便是典型的 " 量大、利薄 " 赛道。
以国内 AI 服务器出货龙头浪潮信息为例,其主业本质是 " 品牌整机 +JDM 联合设计制造 " 平台。一台 AI 服务器的物料成本里,大部分被上游 GPU、存储芯片锁定,下游又面临云厂商的强势议价,导致其毛利率较低,2025 年仅 5% 左右。它更像是 " 高级搬运工 ",在上下游的夹缝中赚取辛苦钱。
所以,上游各赛道表面看都在涨,底层逻辑却不同:
(1)HBM/GPU:不可替代性来自物理硬约束(产能周期、技术壁垒、生态锁定),溢价有 " 供给刚性 " 托底,但需警惕产能扩张后的供需逆转。
(2)光模块 / 液冷:不可替代性更多建立在 "1.6T 升级、云厂商资本开支扩张 ",即需求持续超预期的假设上。弹性最大,但一旦预期落空,跌幅也最猛。客户集中和价格下降是始终悬在头上的风险。
(3)电力、液冷:有刚需的安全边际(电网准入、市占率、交付能力),也有 AI 增量需求的弹性预期。AI 叙事顺利时,它跟着涨;叙事出问题时,它也会跌,但跌幅相对可控。
(4)服务器组装:不具备不可替代性,没有定价权,毛利率常年徘徊在个位数。出货量增长时跟随行业 Beta 上涨,但一旦下游砍单或库存调整,估值会迅速压缩。市场给它的更多是 " 低毛利高周转的周期加工厂 " 估值。
上游投资的本质,是判断 " 不可替代性 " 的成色:物理约束越硬,安全边际越高;叙事依赖越强,波动越大;什么都没有,就只能赚辛苦钱。

(图表来源:妙投制作)
中游要锁定生态
上游划定了算力的物理成本和稀缺性,但真正把算力变成可售卖、可计费、可被普通开发者调用的 " 服务 " 的,是中游的云厂商、算力租赁平台、大模型供应商以及运营商。(云厂商、算力租赁平台虽涉足上游基础设施建设,但其核心利润来源于中游的平台调度与生态锁定,故归入中游)
这一环节的核心逻辑通过分层定价实现利润最大化,不再是 " 越便宜越好 "。
云厂商的做法最典型。阿里、腾讯、百度等云厂商下调通用模型价格,并不意味着愿意长期亏钱。对云厂商来说,通用模型只是入口,真正的利润池在后面:云数据库、云存储、云专线、安全、弹性算力、专属推理实例和行业解决方案。
因此,当云厂商上调部分 AI 算力服务价格时,涨的往往不是普通聊天 Token,而是更接近企业生产环境的高消耗服务:专属集群、弹性算力资源、高可用保障和企业级部署能力等。
当企业被 Agent 的循环调用绑定在阿里或腾讯等云生态时,平台收取的费用由 " 算力费 " 转为 " 企业生产流水的过路费 "。这种估值锚是 " 迁移成本 "。
这正是分层定价的体现:用低价的通用模型抢占入口,再对真正支撑企业级业务(如运行 Agent、长上下文推理)的高阶服务收取溢价,从而实现利润最大化。
从估值层面看,中国 AI 科技股如阿里巴巴、腾讯控股估值均在 15 倍左右,美国同类(微软 / 亚马逊 / 谷歌)约 27 倍,差额较大。这是因为市场仍用 " 传统互联网 " 而非 "AI 云 " 框架定价。未来企业被 Agent 绑定的 " 迁移成本 " 能支撑更高的利润率中枢时,有望驱动市场重新定价。
模型厂商也在转向分层定价。轻量模型负责走量,承接可蒸馏、可缓存、可替代的通用流量;旗舰模型负责守价,锁定编程、长上下文、复杂推理和 Agent 协作等高价值场景。智谱 GLM-4.7 与 GLM-5.1 之间约 3 倍的价差,就是这种分层定价的缩影。
走生态路线的厂商,如阿里通义、字节豆包更倾向于把模型能力嵌入云和平台生态,通用档压价,后续靠 Agent 开发平台、企业服务和云资源消费变现。
走高端能力路线的厂商,则更看重旗舰模型在高价值场景中的付费能力。它们未必要卷最低价,但要证明自己的不可替代性。
从估值层面看,市场交易的是 "AGI 叙事 " 而非当期业务。如智谱顶着 " 全球通用大模型第一股 " 光环,市销率高达 1000 倍,脱离基本面。一旦业绩兑现不及预期(算力瓶颈、开源竞争、企业采用放缓),面临大幅回调风险。(注:① 6 月 18 日收盘,市值约 9300 亿港元,2025 年营收 7 亿;②因为亏损,所以用市销率估值)
运营商的 Token 套餐则是另一种打法。中国移动、中国电信、中国联通把 AI 算力包装成类似 " 流量包 " 的产品,优势在于用户触达和计费体系。但这类模式能否真正赚钱,还要看其数据中心、电力和上游模型成本,能否被规模摊薄。只有智算收入占比持续提升、生态锁定能力被验证,估值才会有修复空间。
至于算力租赁商,虽然需求景气度高,但商业模式缺乏技术壁垒,本质是 " 买卡转租赚差价 ",一旦供需逆转利润即刻崩塌。就像通用 Token 价格降了后,部分客户可能因为用云厂商的服务更省事、更便宜而不再续租。
如智谱 2025 年策略调整就是例证,从 " 租赁设备 " 为主转向算力服务商 / 云平台购买计算服务为主。从此维度看,数据港 160 倍的滚动市盈率不算低,安全垫较弱。
总体看,中游的格局已经比较清楚:有云生态、有模型能力、有企业服务能力的玩家,可以把通用 Token 当入口;缺乏技术壁垒的算力租赁,则会沦为被挤压的夹层 。

(图表来源:妙投制作)
下游要嵌入场景
通用 Token 降价后,下游并没有普遍迎来躺赢,而是出现了剧烈的分化。
简单 AI 写作、换脸工具、聊天等无壁垒的应用,竞争会越来越激烈。真正能吃到红利的,是有场景壁垒、用户粘性和付费闭环的公司。
这些场景包括 AI 办公、AI 编程、法律合同审查、医疗报告生成、工业故障排查、金融信息服务等。它们有一个共同点:用户原本就有明确需求,AI 的作用是在已有工作流里提高效率。
金山办公是典型代表。WPS 原本就有用户、文档、订阅和企业客户,AI 能力嵌入后,可以提升付费转化、企业客单价和产品粘性。2025 年 WPS AI 国内月活突破 8013 万,同比暴涨 307%,日均 Token 调用量超 2000 亿,同比增长超 12 倍。公司同期营收 59.29 亿元,毛利率高达 85.95%。
要知道,金山办公的高毛利并非模型带来的,而是文档场景的护城河带来的。AI 只是提高 ARPU 和粘性的增强器。没有场景壁垒的 AI 应用,反而容易沦为上游硬件和模型 API 的 " 打工仔 "。
进一步从估值角度看,金山办公当下 27 倍左右的滚动市盈率,对比未来 2 年机构预期的归母净利润年复合增速 11% 左右看,通用 Token 降价利好已在估值中体现。未来随着付费率与留存继续提升,估值有望进一步走强。但一旦这两个数据拐头,溢价也会收窄。
此外,下游还有另一个变量:Token 治理能力。
Agent 工作流的复杂性,使企业账单不可预期。企业需要搞清楚哪个 Agent 最烧钱,哪个 Prompt(任务说明书)导致上下文膨胀,哪个用户 / 功能 / 工作流在消耗 Token,才能做调整和降本。
这使 AI FinOps 成为一个新机会。
所谓 AI FinOps,指的是围绕模型调用、Token 消耗、模型路由、缓存、上下文压缩、预算上限和熔断机制建立的一套成本治理能力。它解决的不是 " 要不要用 AI",而是 " 怎么大规模用 AI 而不被账单反噬 "。
如,迅策科技正将业务延伸至 LLM Observability,即大模型可观测性,用于跟踪模型调用、Token 消耗和系统表现,相关业务推进值得持续观察。
从估值角度看,但该赛道目前处于极早期,市场尚未形成统一的估值锚。这类公司更可能参考 SaaS 的 PS 估值(5-10 倍),后续可跟踪再验证。
所以下游真正的分水岭是 " 有没有场景壁垒 " 和 " 有没有 Token 治理能力 "。有场景吃红利,没壁垒的公司被同质化竞争卷死;有 Token 治理能力的控住成本,没治理能力的公司则可能会被 Agent 调用量反噬。
写在最后
综上,Token 经济下,高估值的锚不仅是模型能力的边际提升,更是 "AI 算力通胀 " 下的物理瓶颈。
这轮变化的起点,是推理算力消耗的快速膨胀。Agent 循环、长上下文、多模态任务带来的算力消耗大幅度增长时,市场的估值锚从 " 软件订阅逻辑 " 切换到了 " 硬件消耗逻辑 "。
此背景下,产业链价值开始重构。真正的利润,将向具备稀缺性、定价权和现金流兑现能力的环节聚集。
短期看,当前确定性最高的产业机会集中在上游供给侧的硬约束资产,包括 HBM、GPU、光模块、电力、液冷和数据中心基础设施等,这些资源决定了 AI 能否大规模运行。
中期看,弹性来自云厂商和模型厂商的分层定价能力,尤其是能否把通用 Token 调用量转化为企业级服务收入。通用模型低价获客,高价值能力分层变现,将成为中游玩家能否穿越价格战的关键。
长期看,最大价值仍会回到下游场景,只有真正嵌入工作流、掌握用户和数据闭环的 AI 应用,才能吃到产业成熟后的利润红利。此外,拥有 Token FinOps,即算力成本治理能力的企业,也值得持续关注,因为企业需要知道 AI 的钱花到哪里去了,才好调整控本。
因此,未来 AI 产业的投资逻辑,不再是单纯比拼模型单价,更多是比谁能在价格分裂中找到自身不可替代的价值,从而保有定价权和利润份额。


登录后才可以发布评论哦
打开小程序可以发布评论哦