“价格屠夫”来了：小米MiMo大模型API永久降价最高达99%

5 月 27 日，小米宣布 MiMo-V2.5 系列大模型 API 价格体系进行永久性调价，最高降幅度达 99%，且不再区分上下文长度。

具体来看 MiMo-V2.5-Pro：

百万 tokens 输入（缓存命中）只需要 0.025 元。

百万 tokens 输入（缓存未命中）3 元。

百万 tokens 输出 6 元。

不仅如此，Token Plan 方面，小米采取 " 加量不加价 " 策略，用户在 Agent 或 Code 场景下的可用 Token 数量将提升至原来的 5-8 倍，并把规则调整为 " 所见即所得 "，简化了因换算导致的复杂计价逻辑。

这是继 DeepSeek 上周宣布 V4-Pro 永久降价至原价 25% 之后，国内头部大模型在短短一周内的又一次重磅价格调整。

国际比较看，DeepSeek 与小米的最新定价已显著低于主流海外厂商。

国际主流模型方面，OpenAI GPT-4o 的标准输入价格为每百万 Tokens 2.5 美元，输出价格为 10 美元；Claude Sonnet 4.6 的输入为每百万 Tokens 3 美元，输出为 15 美元。

与简单的 " 烧钱 " 不同，小米此次降价的逻辑指向工程层面的成本结构优化。

据小米解释，基于 SGLang HiCache 完整支持 SWA（Sliding Window Attention），将 KV Cache 在 GPU 显存、CPU 内存、SSD 等多级存储之间的数据搬运量降低至优化前的近 1/7，并将可缓存 token 数量提升至优化前的近 5 倍，显著提升了缓存命中率和推理效率。此外，小米还通过优化专家方案、输入长度分桶策略等手段，进一步提升集群输入吞吐能力。

这与 DeepSeek 的降价逻辑一脉相承，都是通过架构创新以及推理系统的工程化优化，结构性地压低单位 Token 服务成本，再将红利让渡给开发者。

从行业情况来看，本轮国产大模型降价潮亦是伴随着应用方需求的变化，随着大模型正在从 " 聊天 " 进入 " 干活 " 的阶段，真正让开发者和企业用户焦虑的也不再只是一次问答金额，而是 Agent 在多轮推理、调用和自动化成本工作流等过程中持续燃烧的 Token。

当百万 Tokens 价格被不断压低，国内大模型的竞争也会继续向下游传导。对于开发者来说，成本下降意味着更多 Agent 等应用供给会迎来井喷；对于厂商来说，低价背后则是更高的推理效率、更强的算力调度能力，以及更长周期的生态投入。

价格战未必能直接决定谁的模型最强，但可以推动其更快地被开发者调用，小米 MiMo 此时大幅降价正是国内大模型走向 " 规模化使用 " 的又一个注脚。

宙世代

一起剪

相关标签