Kimi用户“被劝退”，都怪中国大模型Token调用量领跑全球？

文 | 冷眼观天

3 月 15 日，全球最大 AI 模型聚合平台 OpenRouter 发布了一组数据，中国大模型在这一周的调用量达到 4.69 万亿 Token，连续第二周压过美国，全球调用量排名前三的位置被中国模型包揽。

同一时期，月之暗面公司的 Kimi 正经历一场从资本到市场的连环爆发。

据证券时报报道，2025 年 12 月底至今，Kimi 完成三轮融资，估值在不到三个月内翻了四倍，升至 180 亿美元，成为国内估值最快突破百亿美元的 " 十角兽 " 公司。

新一轮 10 亿美元融资正在进行。

受 Kimi K2.5 模型及 Kimi Claw 火爆出圈带动，1 月底以来，Kimi20 天收入超过 2025 年全年。

全球支付巨头 Stripe 的数据显示，Kimi 个人订阅用户 1 月支付订单数环比增长 8280%，2 月环比再涨 123.8%，冲进 Stripe 全球榜单前十。

海外开发者发现知名 AI 编程工具 Cursor 发布的新模型 Composer 2 疑似基于 Kimi K2.5 开发，马斯克在社交平台回复 " 是的，这就是 Kimi 2.5"，Kimi 随后表示感谢。

此前马斯克还曾对月之暗面的技术报告表示 " 令人印象深刻的结果 "。

两件事，一个指向中国 AI 基建的整体水位，另一个指向单一明星公司的声量与资本神话。

表面上看，都是好消息。

但如果把这两条线放在一起，用同一个用户视角去观察，就会看到一种被高速增长掩盖的紧张感。

我使用 Kimi 查资料时，最常遇到的就是那句 " 高峰时段算力不足 "。

起初以为只是个别产品的运营波动，直到看到 4.69 万亿 Token 这个数字，才意识到那句提示语背后站着的不是某个公司的服务器告急，而是整个行业的供需方程式正在被改写。

Kimi 的算力不足，是中国大模型 4.69 万亿 Token 周调用量这个宏观数据在个体身上的具体折射。

宏观数据讲的是总盘子，但总盘子是由无数个用户每一次点击、每一个智能体昼夜不停的轮询堆积出来的。

Kimi 作为头部应用，它的算力紧张恰恰说明那个 " 总盘子 " 已经大到了让供给端出现明显缺口的程度。

AI 智能体是这一轮需求爆炸的直接推手。

以 OpenClaw 为代表的智能体框架，把大模型从回答问题的工具变成了自动执行任务的数字员工。

一个配置合理的智能体可以全天候工作，消耗的 Token 是普通聊天的几十倍甚至上百倍。

Kimi K2.5 恰好成为开源智能体框架 OpenClaw 的首选模型，海外开发者的调用量因此激增，直接加剧了算力紧张。

这个细节很重要，Kimi 的算力紧张不是来自国内用户的自然增长，而是被一个技术范式转变推到了风口。

AI 智能体正在从极客玩物变成规模化部署的生产力工具，每一轮调用都是持续的、长链路的、高度密集的，不再像人类聊天那样有间歇和停顿。

其模式对算力的消耗方式，与过去的应用场景完全不同。

与此同时，4.69 万亿 Token 的周调用量里，智能体贡献了巨大份额。

摩根大通预测，中国的 AI 推理 Token 消耗量将从 2025 年的约 10 千万亿增长到 2030 年的约 3900 千万亿，五年增长约 370 倍。

数字所指向的，正是眼下发生的智能体浪潮。

另一个容易被忽略的细节，是应用场景的深化。

AI 正在从聊天走向编程、多模态处理这些更消耗 Token 的复杂任务。

Kimi K2.5 的技术报告中提到的视觉文本联合优化，本身就是因为处理视频和长图文时的令牌生成效率成为瓶颈。

一个视频的处理任务，其单次消耗远超日常对话。

而编程场景中，模型需要反复生成、调试、修正，每一轮都是 Token 的密集消耗。

用户规模也在加速扩张。

微信兼容 OpenClaw 这件事，预示着 AI 应用正从小众工具走向全民应用。

当智能体嵌入到国民级社交产品中，需求的基数将不再是几十万开发者，而是数亿普通用户。

全民化的扩散速度，远比芯片产能的扩张要快。

供给侧的物理极限，则是更硬的约束。

高性能芯片获取难、成本高，在当前国际环境下，即便 Kimi 资金充裕，也难以在短时间内获得足够的高性能计算芯片来满足暴涨的需求。

全球范围内，高性能计算芯片的产能扩张速度远慢于需求的增长速度，供应短缺是普遍现象。

中国大模型总调用量的增长，并非建立在算力无限供应的基础上，而是在全球芯片供应紧张、硬件成本持续上涨的硬约束下实现的。

Kimi 作为其中的一员，自然也受制于这个天花板。

2026 年 3 月，阿里云、百度智能云、腾讯云相继宣布上调 AI 算力产品价格或调整 Token 计费标准，算力成本压力已经传导到终端。

全行业都在为算力短缺买单，Kimi 的高峰时段算力不足，正是成本压力传导到用户体验层面的直接体现。

从技术层面看，Kimi 应对算力瓶颈的方式是从架构、推理、系统三个层面进行系统性重构。

架构层通过混合注意力机制将长程记忆计算复杂度降至线性，结合稀疏化专家模型与动态路由让简单任务仅激活少量专家网络，并通过视觉文本联合优化实现负载均衡，视频处理长度提升四倍而算力消耗未同比例增长。

推理层借助 Toggle Token 策略将输出 Token 减少 25% 至 30%，以智能体集群编排将复杂任务拆解为多模型并行处理，延迟降低 4.5 倍，再通过分级服务将简单问答路由至轻量级模型，精准配置算力资源。

系统层通过解耦编码器进程使多模态效率达到纯文本训练的 90%，利用显存管理与 KV Cache 复用缓解显存压力，并以异构算力适配扩大可用算力池边界。

以上技术优化的方向非常清晰，从 " 暴力堆料 " 转向 " 精细运营 "，用算法换取算力，用效率缓解短缺。

但一个必须面对的事实是，在 4.69 万亿 Token 的宏观需求面前，物理算力的绝对缺口依然存在。

高峰期的 " 算力不足 "，实际上是平台在保障核心用户体验与控制运营成本之间做出的动态平衡结果。

技术优化可以缓解压力，但无法从根本上消除供给与需求之间的巨大落差。

接下来，大模型在算力消耗上的技术改善空间依然巨大。

但更值得关注的，是中美大模型在算力效率这个维度上正在展开的竞争。

过去几年，中美 AI 竞赛的核心指标是模型参数量、上下文长度、多模态能力。

现在，算力效率正在成为新的制高点。

美国企业凭借高端芯片的供给优势，长期沿用大力出奇迹的路径，用更强的单卡性能掩盖架构上的粗放。

中国企业则在芯片供应受限的硬约束下，被迫在架构创新、推理优化、系统调度上走得更深。

Kimi Linear 架构、Toggle Token 策略、Agent Swarm 并行、异构算力适配，这些都是在供给受限条件下长出来的能力。

阿里云推出的 Aegaeon GPU 池化系统，通过 Token 级别的精细调度让一个 GPU 同时服务多个模型，将所需 GPU 数量削减 82%，也是这种压力倒逼创新的典型。

国金证券的判断值得关注，国产算力全链景气加速，有望量价齐升。

在供需双侧强逻辑的挤压下，2026 年算力产业链将进入 " 全链通胀 " 周期，行业景气度从核心芯片向 AIDC、云与算力服务、配套电力设备及服务器等环节全面外溢。

判断的背后，是算力从 " 够不够 " 变成 " 贵不贵 " 的转折点。

OpenClaw 重塑云计算的供需结构，云厂商的商业逻辑从单纯的底层算力租赁跃升为 Agent 数字员工的工位提供商。

通过一键部署和价格补贴抢占应用入口，云厂商逐步掌控下一代 AI 应用的底层分发权。

如此变化意味着，算力不再只是基础设施，而是成为应用层竞争的门票。

回到用户最直接的感受。

使用 Kimi 时遇到 " 高峰时段算力不足 "，表面看是一个产品体验问题，深层次看是中国 AI 产业在 Token 时代初期，需求爆发式增长与供给结构性短缺之间矛盾的典型体现。

那个提示语告诉我们，中国 AI 已经走到了一个临界点，再往前每一步，都需要技术、资本、产业链三端协同发力。

技术优化可以缓解燃眉之急，融资能够解决短期的现金流问题，但高性能算力全球供给紧张的基本面，不是光靠技术优化和钱就能马上解决的。

也因此，4.69 万亿 Token 这个数字带来的不只是自豪感，更是一个清醒的提醒，需求的狂飙已经撞上了物理世界的墙。

中美大模型在算力效率上的竞争，将是未来几年最值得观察的维度。

美国企业拥有更宽松的芯片供给环境，但未必在架构创新和系统调度上拥有绝对优势。

中国企业在供给受限条件下被迫打磨出来的精细化运营能力，反而可能成为一种差异化的竞争壁垒。

Kimi K2.5 被 Cursor 模型套用，马斯克公开表示认可，种种细节本身就说明技术层面的能力已经跨越了某种门槛。

算力效率的竞争，是一场软硬一体化的综合较量。

谁的架构更省算力，推理策略更精简，系统调度更极致，谁就能在同样的硬件条件下支撑更多的用户和更复杂的应用场景。

眼下，Kimi 用户的 " 算力不足 " 提示，4.69 万亿 Token 的周调用量，马斯克的技术认可，180 亿美元的估值跃升，共同构成这一转型的多面镜像。

镜像之中，既有中国 AI 产业的创新活力与商业潜力，也有物理约束与供给短缺的现实压力。

未来的胜负手，在于技术优化、商业模式、生态协同、政策支持的系统整合能力。

月之暗面披露的技术方案，是这一整合能力的初步展示；而完全释放这一能力，仍需跨越算力供给的漫长隧道。

宙世代

一起剪

相关标签