价格连涨三次，错失万亿Token：智谱在Agent浪潮中跑输大盘

文 | 新立场 pro

4 月 8 日，智谱进行了今年第三次涨价。

在 2 月代码订阅套餐价格上调 30%，3 月旗舰 API 价格上调 20% 后。昨日，模型聚合平台 OpenRouter 数据显示，GLM 系列 API 价格再度上调 10%，配合同日发布的旗舰开源模型 GLM-5.1，调价后其编程场景缓存命中 Token 单价，已接近 Anthropic 旗下 Claude Sonnet 4.6 的水平。截至收盘，智谱股价涨幅 11.49%，报 868 港元，市值 3872 亿港元。

与此同时，API 年化收入（ARR）在过去 12 个月内暴涨 60 倍至 17 亿元人民币，Token 调用量在价格累计上调 83% 的背景下逆势增长 400%。CEO 张鹏对外的表述只有一句话：瓶颈在算力，不在客户。

在整个中国大模型行业仍以价格战换市场的语境下，这一反向操作的底层逻辑，被智谱以罕见的坦率写入了首份财报，并压缩成一个方程式：AGI 商业价值 = 智能上限 × Token 消耗规模。

对智谱而言，它是一套完整的战略操作系统，规定了研发投入的优先级、定价策略的方向，以及公司在市场份额与利润率之间如何取舍。全球范围内，OpenAI 在安全报告里讲叙事，Anthropic 以 " 负责任扩展 " 塑造品牌，谷歌把 AI 经济学深埋在集团财报之中。从这个意义上说，智谱是全球极少数敢于将自身全部商业逻辑公开量化的 AI 公司。

" 智能上限 "，是智谱认为自己能够掌控的变量。4 月 8 日发布的 GLM-5.1 在最接近真实软件开发场景的 SWE-bench Pro 基准上首次超越 Claude Opus 4.6。更引人注目的是其 " 长程任务 " 能力：GLM-5.1 能在单次任务中持续自主工作长达 8 小时，自主规划、执行、测试，碰壁时切换策略，出错后自行修复，最终交付工程级成果。

"Token 消耗规模 "，是智谱认为将随智能上限提升而放大的因变量。以 OpenClaw 为代表的 Agentic 工具链在 2026 年初的爆发，验证了这一逻辑的短期弹性，单次复杂任务涉及数百次工具调用和数千轮内部推理，Token 消耗量是普通对话的数十至数百倍，总调用量由此呈指数而非线性增长。

在纸面上，这套逻辑完美自洽。但商业世界里，方程式的优雅从未等同于胜算。智谱需要回答的命题是：在一个转换成本趋近于零的 API 市场里，仅凭模型的能力代差，究竟能不能建立起真正的定价权？尤其是当技术的领先窗口不可避免地被压缩时，这家公司又将如何支撑它庞大的成长预期？

大模型没有 " 死忠粉 "

理解智谱定价权主张的正确起点，不是看它的模型有多强，而是先理解它所身处的市场，从结构上就不支持传统意义的定价权。

Oracle 在数据库领域维持数十年高溢价，依赖的是数百万行业务逻辑深度嵌入客户系统后产生的迁移恐惧，以及切换供应商意味着多年工程周期和数亿美元整合风险。这类定价权的本质，是随使用年限递增、几乎不可逆的转换成本积累。

API 经济从结构上摧毁了这道护城河。更换一个大模型 API 供应商，技术层面通常只需修改接口端点、调整若干参数，工程师可以在一个下午完成迁移测试和验证。这意味着，在大模型 API 市场，理论上有且只有一种持久的定价权来源，即模型能力代差本身。这是智谱方程式的底层假设，也是它在逻辑上最暴露的地方。

从价格战最高降幅 90% 到 API 价格累计上调 83%，智谱在单一财年内完成了一次令市场困惑的定价逆转。历史上有一个可资参照的案例，2001 年互联网泡沫破灭后，Salesforce 是少数坚持订阅定价、拒绝跟随竞争对手降价的 SaaS 公司之一。最终，其客户留存率和净收入留存率（NRR）反而高于妥协者。

其核心思考便在于价格锚定了用户对产品价值的心理预期，轻易降价等于主动摧毁这一锚点，令客户在每次续约谈判中永久占据心理优势。智谱的反向提价，在执行逻辑上与之高度相似。

但这一类比有一个关键边界，Salesforce 的定价能力，最终由 CRM 数据的深度黏性所支撑：销售历史、客户关系、商机记录随时间积累在平台内部，迁移成本随使用年限增长而增加，而非减少。API 市场的结构恰好相反，技术标准化程度越高，迁移成本越趋近于零。

因此，在大模型的世界里，技术护城河的保质期，往往比初创公司制定一轮战略规划的时间还要短。这意味着，智谱此刻握在手里的定价权，更像是一张体验券，很难形成结构性护城河。

以 GLM-5.1 为例，其在 SWE-bench Pro 上超越 Claude Opus 4.6 是一个标志性节点，它证明了中国开源模型的技术能力已进入全球第一梯队，但历史数据表明，这类领先窗口的时间在持续缩短。2023 年 3 月 GPT-4 发布时，其与其他模型之间的能力鸿沟被普遍认为难以在短期内追平。但到 2024 年中，Llama 3、Mistral 等开源模型已在多数主流基准上逼近其水平。这一压缩周期不足 18 个月。

以中国开源生态的迭代密度，压缩速度只会更快。DeepSeek、Qwen 的迭代节奏，以及今天的 GLM-5.1 本身，都是这一趋势的组成部分。这意味着，任何单一厂商基于基准测试领先所建立的定价权，其有效窗口期可能以季度而非年度来计量。

而企业客户在购买 API 服务时，优先级序列是什么？从智谱目前的收入结构可以得到一个反直觉的答案。2025 全年，智谱本地化部署（即企业私有化部署）收入达 5.34 亿元，占总营收 73.7%，仍是绝对的收入主力。

大量客户黏性建立在私有化部署产生的集成成本和运维依赖之上，而非纯粹的 API 能力代差逻辑。尤其是其本地化部署业务长期积累的政企客户关系，而这恰恰是传统意义上的转换成本逻辑，而非公式中所假设的 " 智能上限 " 逻辑。

事实上，智谱的这场冒险存在着一个坚实的支点：任务复杂度的跃升，可能从根本上改变 API 市场的定价经济学，从而使 " 能力代差 " 从可替代变为不可替代。

GLM-5.1 所代表的 " 长程任务 " 能力，在单次任务中持续自主工作 8 小时，与此前以分钟级交互为主的聊天模型之间，是质的差异，而非量的差异。在长程任务场景中，模型的上下文一致性、自我纠错能力和局部最优逃逸能力之间的差距，会被时间轴放大，一个在短对话中仅有微小差异的模型，在 8 小时连续执行中可能产生结果上的断崖分化。

这意味着，随着 Agentic 应用场景的规模化，" 足够好 " 与 " 最强 " 之间的功能差距，可能从不可感知变为不可接受，此时，能力代差将首次产生真正意义上的转换成本。

但这一逻辑成立的前提，是 Agentic 场景必须足够快速、足够深入地成为主流商业化战场，而这也是智谱方程式的核心赌注。

方程式本身并不能证明这个前提成立，它只是在该前提下，提供了一套内部一致的战略推论。

谁赚到了 Token 最大的流量红利？

方程式的第二项，从来不是某家厂商单独的战场。在这场战争中，智谱的位置，比它的基准测试排名所呈现的，要复杂得多。

2026 年初，中国大模型行业的 Token 调用量出现了一次断层式跃升。OpenRouter 数据显示，三月初，中国大模型周调用量达到 4.69 万亿 Token，连续两周超越美国，全球排名前五均为国产模型。驱动这一跃升的，是以 OpenClaw 为代表的 Agentic 编程工具链的大规模普及。

Agent 应用与传统聊天的本质区别在于 Token 消耗逻辑，一次复杂任务涉及数百次工具调用和数千轮推理步骤，单任务消耗量是普通对话的数十至数百倍。总调用量因此由用户规模的线性增长，切换为任务复杂度驱动的指数膨胀。对模型厂商而言，这既是收入爆发的引擎，也是算力成本急剧攀升的来源。

这一需求突变，重写了整个行业的供需方程。仅在 2026 年 3 月的一周内，腾讯云、阿里云、百度智能云三大头部厂商相继发布调价公告。腾讯云混元系列部分模型涨幅甚至高达 463%，多款此前免费公测的模型同步转入商用计费。

腾讯管理层在财报电话会上提供了一个精准的机制描述：基础设施产能早已被预订一空，超大规模服务商长期以低利润率运营，当需求回升时整个行业别无选择，只能提价。结构性的供需失衡，给了所有玩家涨价的空间，也给了智谱一个掩护，让其主动涨价的决策，在行业整体背景下显得更为顺理成章。

但其财报随之引出了另一个行业难点，智谱的综合毛利率从 2024 年的 56.3% 压缩至 2025 年的 41%。没有自建基础设施带来的规模效应，轻资产模式下的算力成本随 Token 调用量的增长线性上升。涨价，不只是定价自信的表达，也是维持商业逻辑自洽的必要动作。

这是所有中国独立大模型公司共同面对的难题。据雷锋网报道，去年一家头部独立大模型厂商曾拖欠华南某云厂商上亿元的训练费，直到后来商业化艰难跑通，才一块一块地把账填平。直到今年，随着 Agent 与多模态在真实生产场景中生根，独立厂商们借由海外市场和 B 端落地，才稍稍从捉襟见肘的窒息感中缓过一口气。

理解了这种底层的资源焦虑，才能看清智谱与同期赴港上市的 MiniMax，为何会走出教科书式的战略分岔。两家公司的起点几乎相同：单位经济学可盈利，但业务层面资不抵债，竞争压力主导着支出节奏。

MiniMax 选择开源分发与全球消费者触达。在 OpenRouter 榜单上，MiniMax 曾连续五周霸榜，月调用量高达 6.9 万亿 Token，约为智谱 2.7 万亿 Token 的 2.6 倍。最新财报显示，其研发增速与营收增速的差距首次收窄，平台规模效应开始显现。这是平台逻辑的典型路径：以低边际成本换取市场覆盖率，寄望于规模触发网络外部性。

智谱选择精品逻辑，留守国内企业市场提价，将 Token 消耗锁定在高复杂度、高可靠性的生产力场景，追求高 ARPU 而非最大调用量。企业级验证在短期内有据可查，GLM-5 发布后，中国十大互联网公司中已有九家深度接入 GLM，字节、阿里、腾讯均在列，智谱由此成为大厂智能化转型的基础设施角色之一。

商业史上，用极致规模换取网络效应，或用极致能力赚取 B 端溢价，都曾铺就过百亿美金的坦途。但残酷之处在于，在同一个爆发的清晨、同一班开往 AGI 的列车上，这两种截然不同的战略，注定无法同时成为最后的赢家。分水岭已经显现。

在 OpenClaw 调用量榜单上，GLM-5 曾短暂登顶，但更多时间里霸榜的是 Kimi、MiniMax、MiMo、Qwen。Kimi K2.5 曾因性价比优势被 OpenClaw 设为官方免费主力模型，快速积累调用量；MiniMax 则凭借多模态与基座优化强势反转。真正需要智谱 GLM-5.1 那种 "8 小时工程级能力 " 的长程任务，只占极小比例。

根本原因在于，Agent 工具链的调用量分布，遵循类似于互联网流量的幂律结构，绝大多数调用来自轻量级、高频的日常自动化请求，工程级的长程任务只占极小比例。这恰好是智谱的弱势场景，高定价在规模竞争中构成结构性阻力，而精品定位的用户群体，其调用量天花板远低于大众化工具的日活规模。

AGI 浪潮真正的盛宴，属于那些愿意在价格竞争中让利、以模型调用量换生态覆盖率的厂商。智谱的精品逻辑，意味着它正在系统性地错过这一轮由普适 Agent 驱动的增量红利。这是市场的自然筛选，也是智谱主动写在方程式里的必然。

写在最后

智谱方程式本身所指向的核心命题，最终仍要回到技术竞争的物理规律。唐杰在 AGI 前沿峰会上的那句话，值得被完整引用：大模型到现在更多的是在拼速度、拼时间，也许我们代码正确了，也许我们就会在这方面走的更远一点，但也许失败以后就半年，半年就没了。

在大模型赛道，能力迭代的速度已经系统性地快于竞争优势的固化速度。GLM-5.1 今日在 SWE-bench Pro 上的成绩，是一个真实的技术里程碑；六个月后，它将成为历史注脚，而非持续的竞争护城河。这是一条所有参与者都必须正视的规律，与公司的背景和结构都无关。

智谱 AI 的第一份年度财报，以一个方程式开篇，以一系列开放性问题收尾。一家全年营收仅够覆盖三个月研发支出的公司，能否在技术窗口关闭之前，将能力溢价转化为结构性护城河？能否在算力瓶颈解除之前，将供不应求的稀缺性转化为长期客户粘性？能否在下一轮行业价格战到来之前，完成从 " 最强模型 " 到 " 不可替代系统 " 的跃迁？

它们的答案，将取决于方程式中的哪一项先出现变化：是 " 智能上限 " 的领先窗口在开源竞争中提前关闭，还是 "Token 消耗规模 " 在高阶场景的增量，最终无法覆盖精品定位的规模天花板。