Token低价陷阱_ZAKER新闻

出品 | 妙投 APP

作者 | 张贝贝

编辑 | 丁萍

头图 | 视觉中国

大模型确实越来越便宜，但企业使用 AI 这件事，正在变得越来越贵。

这听起来矛盾，却是当下 Token 经济最真实的一面。

以 OpenAI 公开定价为锚，2023 年 3 月 GPT-4 发布时每百万 Token 输入 30 美元 / 输出 60 美元，到 2024 年 5 月 GPT-4o 发布时降至 5 美元 /15 美元，再到今天，大量够用级推理模型已经把价格打到每百万 Token 几毛美元甚至更低。

如果以早期 GPT-4 价格作为高位锚点，部分通用推理 Token 价格在三年内最高降幅达 99%。

这也是过去两年行业最流行的判断：大模型会像带宽一样，越用越便宜。

但进入 2026 年，这个判断只说对了一半。便宜的是部分模型 Token 价格，企业的 AI 运营总支出并未缩减。

原因在于，通用 Token 价格虽然在探底，企业却正从简单问答转向 Agent 协作、代码生成等复杂工作流，而这类任务的 Token 消耗量往往是简单问答的十倍甚至百倍，导致算力总支出膨胀。

由此形成价格撕裂期：通用 Token 在探底，高价值能力在分层，企业 AI 支出在调用结构中膨胀。

但这种膨胀并非雨露均沾，而是沿着芯片、光模块、云平台直至应用等产业链环节，进行重新分配。在投资视角下，这种价格分裂的本质，是产业利润的再分配。谁掌握稀缺资源、关键能力和高粘性场景，谁就更有机会在 Token 用量爆发中持续收费。

本文试图回答一个更现实的问题：在这场价格撕裂中，AI 产业链中谁在真正赚钱，谁被成本和价格战挤压？

谁在真正赚钱？

过去两年，简单问答、摘要、翻译、分类等通用任务，在 MoE 架构、缓存、蒸馏和推理优化推动下，成本在逼近 " 水电价 "。

这些任务有几个共同特征：可预期、可缓存、可替代、对模型能力要求不极致。这类 Token 最容易被技术优化，也最容易被价格战打穿。它们正在从 "AI 能力 " 变成 " 基础设施能力 "。所谓 99% 的降价红利，主要发生在这一层。

但企业真正花钱越来越多的地方，并不在这里，更多集中在编程、Agent 协作、长上下文推理、多模态处理等高消耗场景。这些场景正在从低价补贴池里被剥离出来，重新按 " 旗舰能力 " 计费。

以智谱为例，其 GLM-5.1 对准编程与 Agent 场景，输入价格为每百万 Token 6-8 元，输出价格为 24-28 元；日常轻量任务则建议继续用 GLM-4.7，输入价格为 2-4 元，输出价格为 8-16 元。两者价差约 3 倍。

这是模型厂商通过模型档位分层重新划分了价格池。它们正在把简单问答、翻译、摘要这类任务当作基础流量，低价获客；同时开始向编程、Agent、复杂推理、多模态这类场景要利润。

与此同时，底层的物理成本并未跟随通用 Token 的降价变化。HBM 价格高位运行、数据中心电力与液冷成本高企，这些硬约束迫使阿里、腾讯、百度等云厂商在 3 月罕见上调了 AI 算力服务价格。

即，当可压缩场景的 Token 成本不断探底，不可压缩场景的算力成本依然坚挺，这正是企业算力支出失控的底层推手之一。

但更大的问题，不是单价，是用量膨胀。

过去企业用大模型，大多是一问一答，单次调用成本相对可控。

现在更多付费场景变成了 Agent 协作、长上下文记忆、复杂逻辑推理、代码生成和多模态处理等。此情况下，即使 Token 单价下降，但单轮单次任务消耗的 Token 数量可能放大十倍、几十倍的情况下，企业 AI 运营总成本反而可能上涨。

这是为什么一些企业在大规模开放 AI 编程工具后，很快遇到预算失控问题。

如 Uber 在为 5000 名工程师开放 AI 编程工具后，仅 4 个月便烧光了 2026 全年预算；国内米哈游技术团队负责人郑银河在 2026 年 5 月阿里云峰会上公开披露，团队一位工程师测试多 Agent 协作时，因未设熔断、数十个 Agent 进入循环调用，费用飙升，13 小时内收到 200 万元 Token 账单。

正是这三层结构的叠加，导致了 "99% 降价 " 与 " 企业 AI 更贵 " 的共存。

而企业多花出去的钱，并没有消失，它变成了产业链上某些环节的收入和利润。

因为通用 Token 越便宜，越容易刺激企业把 AI 推向更复杂、更高频、更重算力的场景；而这些新增需求，最终会流向芯片、光模块、云平台、高价值模型 API、应用场景和基础设施等。

即，真正赚钱的，不是卖便宜 Token 的人，是能从 Token 用量爆发里持续收费的人。这是理解当下 AI 产业链分化的关键。

接下来，对产业链上中下游分别展开讨论。

上游要卡住瓶颈

Token 经济下，AI 产业链的上游由计算芯片（GPU/NPU/LPU，加速器）、高速存储（HBM）、高速互联（含光模块）、智算中心基础设施（供电、冷却）等构成，这些环节决定 Token 生成的速度、稳定性和单位成本。

但上游并不是一块铁板。真正掌握定价权的，是那些卡住了物理瓶颈的环节。

首先是 GPU 和 HBM。

随着 Agent 与多模态处理的发展，瓶颈不再局限于算力，更在于显存容量、带宽和数据搬运能力。HBM 产能周期长、扩产慢（一般需 24 – 36 个月），又被大客户长协锁定，供给刚性直接转化为利润护城河。

海外三大存储巨头（SK 海力士、三星和美光）凭借 HBM，将 DRAM 综合毛利率拉回 50%+，其中 SK 海力士 2025 年 Q4 的毛利率已达 69%。

更关键的是，稀缺的 HBM 带宽通常不单独出售，而是被封装进 GPU 加速卡、整机和高速互联系统中，最终以整套计算系统的出售溢价体现出来。因此，最厚的利润池并非单一的 HBM 或 GPU，而是 "GPU+HBM+ 独家互联技术 " 打包在一起的套餐。

不过，国内破局之路尚处起步，长鑫存储作为唯一 DRAM IDM（设计 + 制造一体化），正以低毛利换良率爬坡，攻坚 HBM 供给瓶颈；摩尔线程、沐曦、壁仞、燧原科技等 GPU 厂商则试图通过自研架构与开放互联标准（如 OISA），在英伟达体系外构建可用的国产算力底座。

从估值层面看，资本市场对于 HBM 赛道的追捧主要来自于供给紧张。只不过，据长城证券测算，2025-2026 年全球 HBM 供需比分别为 45% 和 27%，缺口确实存在，但有所收窄。这意味着估值锚正在从 " 有没有货 " 移向 " 高端占比与毛利率能不能守得住 "。未来一旦 HBM 产能扩张速度超过需求增速，估值逻辑将会变化，届时需注意下调风险。

至于 GPU 赛道，AI 算力需求仍在情况下，资本市场仍会活跃。只不过，已经过了 " 讲故事 " 的阶段，转向 " 业绩检验期 "。如数据中心收入质量、下一代架构的出货锁单、以及单位 Token 成本下降是否会压低 " 按集群付费 " 的天花线等都会被检验。未来任何关于 " 增速边际放缓 " 的信号，可能都会导致估值回调。

其次是光模块。

AI 集群不是简单堆砌 GPU，单服务器内、跨服务器节点间、乃至跨数据中心的互联能力，共同决定了算力能不能真正跑起来。800G 向 1.6T 光模块升级，本质上是 Token 海量爆发后对更高带宽、更低延迟的刚性需求，这是该赛道走强的重要驱动因素。

所以，这一环节依靠 " 高端规格迭代 + 客户认证壁垒 " 构筑护城河，头部厂商如中际旭创、新易盛的毛利率已从早年 30% 左右攀升至 40% 以上。

但要注意的是，中际旭创、新易盛等企业的前五大客户收入贡献均超 7 成，客户集中风险比较高，任何一个大客户的订单波动都会影响全年业绩。且这种情况下，光模块企业的议价能力较弱。未来若 1.6T 的放量速度不及预期，或买方议价让平均售价阶梯下行速度快于成本降幅，利润增速可能会面临拐点。

而中际旭创、新易盛分别为 102 倍何 75 倍的滚动市盈率，近 5 年历史分位数均在 94% 以上，意味着市场已把 " 未来 2-3 年高增 + 份额不丢 " 提前付款，安全边际薄。

再就是电力与散热。当单卡功耗继续上升，传统风冷接近物理极限，液冷从可选项变成刚需。而高密度机柜的稳定运行，则依赖于园区级供电容量的冗余与效率。这一环节是典型的 " 资本开支驱动 + 交付能力壁垒 "。

英维克凭借全栈液冷技术绑定头部算力集群，资本市场上确实享有高溢价。但英维克当下 196 倍的滚动市盈率，近 5 年历史分位数 94%，处于估值高位。这意味着市场已经把 2026 年全年的液冷放量充分定价，甚至透支了部分 2027 年的预期。未来一旦招标价松动或对手报价拉低毛利，估值回调风险会比较大。

而特锐德是全球最大的预制舱式变电站制造商，近期推出的 " 算电岛 " 方案，通过高压直入与 800V 直流供电，可将 Token 的用电成本降低约 30%，这一叙事受到市场较多关注。但估值能否从电力设备向 AI 基础设施迁移，取决于下半年算电岛的订单和交付数据。

位于产业链末端的服务器系统集成与组装，便是典型的 " 量大、利薄 " 赛道。

以国内 AI 服务器出货龙头浪潮信息为例，其主业本质是 " 品牌整机 +JDM 联合设计制造 " 平台。一台 AI 服务器的物料成本里，大部分被上游 GPU、存储芯片锁定，下游又面临云厂商的强势议价，导致其毛利率较低，2025 年仅 5% 左右。它更像是 " 高级搬运工 "，在上下游的夹缝中赚取辛苦钱。

所以，上游各赛道表面看都在涨，底层逻辑却不同：

（1）HBM/GPU：不可替代性来自物理硬约束（产能周期、技术壁垒、生态锁定），溢价有 " 供给刚性 " 托底，但需警惕产能扩张后的供需逆转。

（2）光模块 / 液冷：不可替代性更多建立在 "1.6T 升级、云厂商资本开支扩张 "，即需求持续超预期的假设上。弹性最大，但一旦预期落空，跌幅也最猛。客户集中和价格下降是始终悬在头上的风险。

（3）电力、液冷：有刚需的安全边际（电网准入、市占率、交付能力），也有 AI 增量需求的弹性预期。AI 叙事顺利时，它跟着涨；叙事出问题时，它也会跌，但跌幅相对可控。

（4）服务器组装：不具备不可替代性，没有定价权，毛利率常年徘徊在个位数。出货量增长时跟随行业 Beta 上涨，但一旦下游砍单或库存调整，估值会迅速压缩。市场给它的更多是 " 低毛利高周转的周期加工厂 " 估值。

上游投资的本质，是判断 " 不可替代性 " 的成色：物理约束越硬，安全边际越高；叙事依赖越强，波动越大；什么都没有，就只能赚辛苦钱。

（图表来源：妙投制作）

中游要锁定生态

上游划定了算力的物理成本和稀缺性，但真正把算力变成可售卖、可计费、可被普通开发者调用的 " 服务 " 的，是中游的云厂商、算力租赁平台、大模型供应商以及运营商。（云厂商、算力租赁平台虽涉足上游基础设施建设，但其核心利润来源于中游的平台调度与生态锁定，故归入中游）

这一环节的核心逻辑通过分层定价实现利润最大化，不再是 " 越便宜越好 "。

云厂商的做法最典型。阿里、腾讯、百度等云厂商下调通用模型价格，并不意味着愿意长期亏钱。对云厂商来说，通用模型只是入口，真正的利润池在后面：云数据库、云存储、云专线、安全、弹性算力、专属推理实例和行业解决方案。

因此，当云厂商上调部分 AI 算力服务价格时，涨的往往不是普通聊天 Token，而是更接近企业生产环境的高消耗服务：专属集群、弹性算力资源、高可用保障和企业级部署能力等。

当企业被 Agent 的循环调用绑定在阿里或腾讯等云生态时，平台收取的费用由 " 算力费 " 转为 " 企业生产流水的过路费 "。这种估值锚是 " 迁移成本 "。

这正是分层定价的体现：用低价的通用模型抢占入口，再对真正支撑企业级业务（如运行 Agent、长上下文推理）的高阶服务收取溢价，从而实现利润最大化。

从估值层面看，中国 AI 科技股如阿里巴巴、腾讯控股估值均在 15 倍左右，美国同类（微软 / 亚马逊 / 谷歌）约 27 倍，差额较大。这是因为市场仍用 " 传统互联网 " 而非 "AI 云 " 框架定价。未来企业被 Agent 绑定的 " 迁移成本 " 能支撑更高的利润率中枢时，有望驱动市场重新定价。

模型厂商也在转向分层定价。轻量模型负责走量，承接可蒸馏、可缓存、可替代的通用流量；旗舰模型负责守价，锁定编程、长上下文、复杂推理和 Agent 协作等高价值场景。智谱 GLM-4.7 与 GLM-5.1 之间约 3 倍的价差，就是这种分层定价的缩影。

走生态路线的厂商，如阿里通义、字节豆包更倾向于把模型能力嵌入云和平台生态，通用档压价，后续靠 Agent 开发平台、企业服务和云资源消费变现。

走高端能力路线的厂商，则更看重旗舰模型在高价值场景中的付费能力。它们未必要卷最低价，但要证明自己的不可替代性。

从估值层面看，市场交易的是 "AGI 叙事 " 而非当期业务。如智谱顶着 " 全球通用大模型第一股 " 光环，市销率高达 1000 倍，脱离基本面。一旦业绩兑现不及预期（算力瓶颈、开源竞争、企业采用放缓），面临大幅回调风险。（注：① 6 月 18 日收盘，市值约 9300 亿港元，2025 年营收 7 亿；②因为亏损，所以用市销率估值）

运营商的 Token 套餐则是另一种打法。中国移动、中国电信、中国联通把 AI 算力包装成类似 " 流量包 " 的产品，优势在于用户触达和计费体系。但这类模式能否真正赚钱，还要看其数据中心、电力和上游模型成本，能否被规模摊薄。只有智算收入占比持续提升、生态锁定能力被验证，估值才会有修复空间。

至于算力租赁商，虽然需求景气度高，但商业模式缺乏技术壁垒，本质是 " 买卡转租赚差价 "，一旦供需逆转利润即刻崩塌。就像通用 Token 价格降了后，部分客户可能因为用云厂商的服务更省事、更便宜而不再续租。

如智谱 2025 年策略调整就是例证，从 " 租赁设备 " 为主转向算力服务商 / 云平台购买计算服务为主。从此维度看，数据港 160 倍的滚动市盈率不算低，安全垫较弱。

总体看，中游的格局已经比较清楚：有云生态、有模型能力、有企业服务能力的玩家，可以把通用 Token 当入口；缺乏技术壁垒的算力租赁，则会沦为被挤压的夹层。

（图表来源：妙投制作）

下游要嵌入场景

通用 Token 降价后，下游并没有普遍迎来躺赢，而是出现了剧烈的分化。

简单 AI 写作、换脸工具、聊天等无壁垒的应用，竞争会越来越激烈。真正能吃到红利的，是有场景壁垒、用户粘性和付费闭环的公司。

这些场景包括 AI 办公、AI 编程、法律合同审查、医疗报告生成、工业故障排查、金融信息服务等。它们有一个共同点：用户原本就有明确需求，AI 的作用是在已有工作流里提高效率。

金山办公是典型代表。WPS 原本就有用户、文档、订阅和企业客户，AI 能力嵌入后，可以提升付费转化、企业客单价和产品粘性。2025 年 WPS AI 国内月活突破 8013 万，同比暴涨 307%，日均 Token 调用量超 2000 亿，同比增长超 12 倍。公司同期营收 59.29 亿元，毛利率高达 85.95%。

要知道，金山办公的高毛利并非模型带来的，而是文档场景的护城河带来的。AI 只是提高 ARPU 和粘性的增强器。没有场景壁垒的 AI 应用，反而容易沦为上游硬件和模型 API 的 " 打工仔 "。

进一步从估值角度看，金山办公当下 27 倍左右的滚动市盈率，对比未来 2 年机构预期的归母净利润年复合增速 11% 左右看，通用 Token 降价利好已在估值中体现。未来随着付费率与留存继续提升，估值有望进一步走强。但一旦这两个数据拐头，溢价也会收窄。

此外，下游还有另一个变量：Token 治理能力。

Agent 工作流的复杂性，使企业账单不可预期。企业需要搞清楚哪个 Agent 最烧钱，哪个 Prompt（任务说明书）导致上下文膨胀，哪个用户 / 功能 / 工作流在消耗 Token，才能做调整和降本。

这使 AI FinOps 成为一个新机会。

所谓 AI FinOps，指的是围绕模型调用、Token 消耗、模型路由、缓存、上下文压缩、预算上限和熔断机制建立的一套成本治理能力。它解决的不是 " 要不要用 AI"，而是 " 怎么大规模用 AI 而不被账单反噬 "。

如，迅策科技正将业务延伸至 LLM Observability，即大模型可观测性，用于跟踪模型调用、Token 消耗和系统表现，相关业务推进值得持续观察。

从估值角度看，但该赛道目前处于极早期，市场尚未形成统一的估值锚。这类公司更可能参考 SaaS 的 PS 估值（5-10 倍），后续可跟踪再验证。

所以下游真正的分水岭是 " 有没有场景壁垒 " 和 " 有没有 Token 治理能力 "。有场景吃红利，没壁垒的公司被同质化竞争卷死；有 Token 治理能力的控住成本，没治理能力的公司则可能会被 Agent 调用量反噬。

写在最后

综上，Token 经济下，高估值的锚不仅是模型能力的边际提升，更是 "AI 算力通胀 " 下的物理瓶颈。

这轮变化的起点，是推理算力消耗的快速膨胀。Agent 循环、长上下文、多模态任务带来的算力消耗大幅度增长时，市场的估值锚从 " 软件订阅逻辑 " 切换到了 " 硬件消耗逻辑 "。

此背景下，产业链价值开始重构。真正的利润，将向具备稀缺性、定价权和现金流兑现能力的环节聚集。

短期看，当前确定性最高的产业机会集中在上游供给侧的硬约束资产，包括 HBM、GPU、光模块、电力、液冷和数据中心基础设施等，这些资源决定了 AI 能否大规模运行。

中期看，弹性来自云厂商和模型厂商的分层定价能力，尤其是能否把通用 Token 调用量转化为企业级服务收入。通用模型低价获客，高价值能力分层变现，将成为中游玩家能否穿越价格战的关键。

长期看，最大价值仍会回到下游场景，只有真正嵌入工作流、掌握用户和数据闭环的 AI 应用，才能吃到产业成熟后的利润红利。此外，拥有 Token FinOps，即算力成本治理能力的企业，也值得持续关注，因为企业需要知道 AI 的钱花到哪里去了，才好调整控本。

因此，未来 AI 产业的投资逻辑，不再是单纯比拼模型单价，更多是比谁能在价格分裂中找到自身不可替代的价值，从而保有定价权和利润份额。

免责声明：本文内容仅供参照，文内信息或所表达的意见不构成任何投资建议，请读者谨慎作出投资决策。

宙世代

一起剪

相关标签