智东西 前天
罗福莉划重点,小米大模型降价99%的秘籍公开
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

智东西

作者 | 程茜

编辑 | 李水青

智东西 6 月 1 日报道,5 月 30 日,小米首次公开 MiMo-V2.5 系列 API 永久降价 99% 的技术秘籍,其博客提到,这也是业内首篇全面覆盖 Hybrid SWA+MoE+ 多模态组合架构的大规模工程落地方案。

其降价的核心技术基础是,小米 MiMo 大模型团队围绕 Hybrid SWA+MoE+ 多模态的复合架构,系统性重构从 KV Cache 管理、分级缓存、前缀缓存到调度策略与 Prefill/Decode 链路的完整推理栈,KV Cache 存储压缩至同级方案的约 1/7,在长序列场景下推理成本大幅下降。

5 月 30 日,小米 MiMo 大模型负责人‌罗福莉在 X 发帖介绍了这篇技术论文,并提到,经实际生产流量验证,这些优化措施使有效 KV Cache 容量提升了近 5 倍,主流测试框架下的服务器端缓存命中率平均达到 93%~95%,结合 MoE 配置调优和多模态推理优化,这些措施能够实现更高效的长上下文推理,也是近期小米 MiMo API 降价的部分原因。

小米发布题为《MiMo-V2.5 系列推理全链路优化:将 Hybrid SWA 效率推向极致》的技术博客是对其上周 MiMo-V2.5 系列 API 永久降价、TokenPlan 计费体系优化等一系列举措的最新回应。

5 月 27 日,小米官宣 MiMo-V2.5 系列 API 永久降价,TokenPlan 计费体系优化后其用量提升至原来的 5~8 倍。小米 MiMo 几乎直接对标 DeepSeek API 价格。更新价格后,MiMo-V2.5 输入缓存命中价格降至 0.02 元 / 百万 tokens,未命中输入为 1 元 / 百万 tokens,输出价格为 2 元 / 百万 tokens;MiMo-V2.5-Pro 则分别为 0.025 元、3 元和 6 元。

DeepSeek 与小米 MiMo API 价格对比表(智东西制表)

同日,罗福莉在社交平台 X 上就预告了技术报告即将发布,并提前划了重点。她提到输入(缓存命中)部分降幅高达 99%,根本原因是其推理框架现在支持 SWA 的 KVCache 优化;输入(缓存未命中)和输出价格降低 60%-80% 是因为 Hybrid SWA 架构中 SWA 层占比为 6/7,其计算量约为 Full Attention 的 1/7。此外,在 API 大幅降价的同时,小米仍能基本实现收支平衡。

技术博客:

https://mimo.xiaomi.com/zh/blog/mimo-v2-5-inference

一、MiMo-V2.5 核心架构,计算量仅为全注意力机制 1/7

小米在技术博客中提到,MiMo-V2.5 系列模型的推理效率是多维度协同优化的结果。

其核心架构是 Hybrid SWA+MoE+ 多模态架构,并系统性重构了 KV Cache 管理、分级缓存、前缀缓存树,优化调度策略及 Prefill/Decode 链路,最终将其理论效率优势真正兑现到生产环境。

小米研究人员选择 Hybrid SWA+MoE+ 多模态架构的原因是,MiMo-V2.5 设计之初的目标就是,训练出一个在长文推理场景下既足够强、又足够高效的模型。

传统全局注意力(Full Attention)架构无法兼顾,Hybrid SWA 的核心思想是在局部窗口注意力(SWA)与全局注意力之间进行分层混合:绝大多数层仅计算局部窗口内的注意力,只有少量关键层保留全局视野。理论上,这种结构能够将 Attention 的计算复杂度压低到接近线性,同时依然维持对长程依赖关系的建模能力。

但想要充分发挥 Hybrid SWA 架构的推理效率优势还需要调度策略、Prefill/Decode 执行链路、多模态、MoE 架构的全链路优化。

先以 MiMo-V2.5-Pro 为例,具体看下 Hybrid SWA 架构的推理效率优势。

MiMo-V2.5-Pro 模型共 70 层,其中 10 层为 Full Attention、60 层为 SWA,SWA 的滑动窗口大小是 128。

与 Full Attention 相比,Hybrid SWA 架构中 SWA 层占比为 6/7,因此其计算量约为 Full Attention 的 1/7。

此外,由于 SWA 层仅需保留滑动窗口内 KV,无需存储全序列,因此 KVCache 占用同样下降至接近 1/7。在长序列下,KV Cache 的体积可能远超模型参数,因此 KV Cache 存储的减少几乎直接等价于长序列场景下 decode 成本的降低。

其技术博客提到,不同模型架构 KV Cache 存储、访存模式都存在差异,其故估算了多个国产模型的 KV Cache 大小,MiMo-V2.5-Pro 和 MiMo-V2.5 在 KV Cache 上位列国产模型第二,仅次于 DeepSeek-V4-Pro 和 Flash。

因为存在与序列长度无关的固定计算与访存开销,所以实际成本差异并不严格等价于 KV Cache 规模比例。但在长上下文场景下,整体趋势一致:短文性价比接近,序列越长推理成本优势越大。

二、罗福莉提前发帖划重点,即使 API 价格下调也能收支平衡

5 月 27 日,小米官宣降价时,罗福莉就在社交平台 X 上发帖,为 MiMo API 的降价原因划了重点。

MiMo-V2.5 降价幅度最大的是输入(缓存命中)部分,降幅高达 99%,根本原因是其推理框架现在支持 SWA 的分层键值缓存优化。生产环境推理引擎测试表明,此优化可将缓存 token 容量提升 5 倍,相当于缓存成本降低 80%。结合混合模型中多个全注意力模块之间的缓存读取重叠,实际成本进一步降低。

输入(缓存未命中)和输出价格降低 60%-80% 是因为 SWA 稀疏度比,70 层 MiMo-V2.5-Pro 的预填充计算量大致相当于 10 层 GQA 模型。这使其最初的推理成本远低于行业平均水平,带来 2~3 倍定价利润。

她还提到,在 API 价格大幅下调的情况下,小米的生产推理引擎几乎满负荷运转,基本能够实现收支平衡。他们之前曾建议大模型公司不要 " 盲目降价 ",因为极少有模型架构和推理优化方案能够保证 API 成本不亏损。如果未来出现更多能够节省计算资源和 KV Cache 的架构,以及能够进一步降低 API 成本的更完善推理基础设施,这将在行业内形成一个良性循环。

此外,经济实惠且高性能的模型 API 将推动真正、持续且大规模的推理需求。这种上游需求将带动整个 AI 基础设施链发展。

三、KV Cache 系统重构:提升模型实际命中率

为了让 SWA 更加可用,研究人员围绕 KV Cache 进行了系统性重构,此前其选择的临时方案都无法让推理系统真正 " 理解 "Hybrid SWA 的存储特性。

Hybrid SWA 带来的核心存储矛盾是,Full Attention 层需要保留全序列 KV(O(N)),而 SWA 层仅需维护滑动窗口内 KV(O(W))。在传统单一 KV pool 设计下,系统必须按 O(N)为所有层统一分配显存,使 SWA 的窗口稀疏性无法被利用,实际存储效率退化为 Full KV Cache 的近似实现。

在此基础上,其采用了双池分治、前缀缓存树重构、GCache 三级缓存综合优化。

分池优化是将 KV Cache 拆分为 Full Attention 与 SWA 两个独立池,并在系统层进行统一抽象,这使得 SWA KV Cache 在系统层面实现严格 O ( W ) 存储约束,使整体 KV Cache 容量效率提升约 7 倍,主流推理框架也都采用了类似的实现方案。

SWA-aware 前缀缓存树优化包括匹配规则升级为 " 窗口安全长度 "、淘汰路径与请求生命周期绑定、节点同时承载两套索引。

SWA 把 KV 体积压到 1/7 是容量层面的收益,命中率是复用层面的收益,两者乘起来是 prefill 阶段实际计算成本的曲线。引入 " 窗口安全长度 " 匹配规则后,同样 token 容量的 KV Cache 命中率理论上是小幅度下降的,但同样存储容量下的 token 数量达到数倍,实际命中率大幅度提升。

GCache 是小米存储团队开发的高性能通用缓存,它是构建存储 " 训推一体 " 体系重要的一环,同时支持 GPU 显存、CPU 内存和 NVMe SSD 的高性能分布式缓存系统。存储成本方面,GCache 优先采用在 GPU 机器上混布的方式,接管了 Prefill 和 Decode 节点的部分内存,和机器自带的数块 NVMe SSD,额外的存储成本为 0。

得益于这些优化,小米研究人员观测到,在优质 harness 框架下,服务端 KV Cache 命中率平均可达 93%;对于高强度、长周期使用的个人用户,该指标可达 95% 乃至更高。

四、调度优化:L2 缓存命中率提升 25%,单机输入吞吐提升 30%

在调度优化方面,小米希望通过匹配调度和计算链路,让省出来的显存空间和算力余量真正发挥作用。

在此基础上,小米开发了可动态扩展的无状态调度器 LLM-Router,通过使用 Redis 作为中心化存储,避免单服务故障后的 KV Cache 调度回退现象,稳定保证缓存命中率。

首先是 KV Cache 与负载亲和调度,由于 HiCache 对于 L2 的命中率非常敏感,如果 L2 没有命中,就需要去 L3 查找并拉取 KV Cache,等待拉取结束后才能对该请求进行推理。Router 中通过将分发过的请求维护在 Radix 前缀树中,实现了 KV Cache 亲和调度。在多个 Prefill 实例间优先选择已经缓存当前请求前缀的节点,并同时兼顾负载均衡来避免热点倾斜。

该策略上线后,将 L2 的缓存命中率提升了约 25%,单机输入吞吐提升了约 30%。同时其引入计算量感知优先调度,优先处理真实计算 token 数更少的请求,辅以等待时间惩罚机制避免饥饿,TTFT P90 降低 30%。

其次是关于 Prefill 链路本身的计算效率,早期 SWA KV Cache 需保存所有 token 的 KV Cache,导致 EP 被迫偏大;优化后仅需保存 SWA 部分 token,研究人员将 EP 缩减至原先的 1/2,端到端性能提升约 40%。

为缓解负载不均衡问题,研究人员还采用三级长度分桶策略(0 – 64K/64K – 256K/256K – 1M),将负载特征相近的请求聚合至同一桶内做计算,提升了线上 prefill 的平均吞吐。

MiMo-V2.5 系列模型均采用 MoE 架构,还需要考虑 prefill 阶段的专家负载均衡问题。由于该模型在预训练阶段引入了负载均衡的训练目标、且训练较为稳定,模型在训练时已学习到较为均匀的专家分配策略。

推理阶段,在未启用任何专家负载均衡策略的条件下,各层平均专家负载度(一层中所有 rank 的平均 token 数与该层 rank 最大 token 数之比)约为 0.85,处于较优分布水平。

五、Decode 优化:显存 +MTP 双管齐下,KVCache 有效容量提升近 5 倍

Decode 阶段的核心瓶颈是显存被 KV Cache 占满导致 batch size 无法扩展,GPU 算力打不满。因此其进行了显存优化和 MTP 优化。

显存优化包括 Decode KV Cache 完整支持 SWA,使得 KV Cache 有效容量提升近 5 倍;PD 分离中 KV Cache 预分配优化,将尚未启动的请求的 prealloc 过程从 GPU 显存迁移至 CPU 内存,decode 实际启动时才搬入显存,消除资源预占造成的浪费;CUDA Graph 显存调优,能优化 CUDA Graph 参数减少空间浪费,使可用显存提升。

MiMo-V2.5 系列模型原生支持 3 层 MTP 加速 decode 输出,其还在 prefill 阶段引入 MTP 支持并对 HiCache L2/L3 进行专项适配和优化,这使得 decode 前期 MTP 加速效果提升:第 0 – 128 token 加速比达 2.3 倍,第 128 – 256 token 加速比达 1.5 倍,降低了智能体场景下的真实 decode 成本。

六、多模态推理优化:Encoder 吞吐提升至 2 倍

最后是多模态推理优化。MiMo-V2.5 系列支持视觉、音频、视频跨模态理解。

基于 SGLang 社区 v0.5.7 EPD 方案,小米研究人员围绕 MiMo-V2.5 做了大量 EPD 分离方面的工程优化与稳定性修复,在延时保持不变的情况下,将 Encoder 吞吐提升至 2 倍。

具体的优化包括 Encoder 支持跨请求组 Batch,多个请求的 image/audio 融合为一次 Forward 再按请求切分返回;图片预处理迁移至 GPU 消除大图场景下 CPU 瓶颈;视频解码切分为多 chunk 多线程并行处理,1 小时视频端到端延时从 156 秒降至 23 秒;通过一致性哈希和机内共享内存实现 Embedding 缓存共享,整体 Encoder 吞吐提升至 2 倍。

结语:全链路技术优化或驱动大模型 API 降价潮

小米 MiMo-V2.5 系列 API 最高降幅 99%,核心依托 Hybrid SWA+MoE 复合架构与全链路推理栈优化,首次实现了系统性的推理链路优化。此次,DeepSeek 先将 V4-Pro 永久降价 75%,小米五天后跟进 MiMo-V2.5 最高降 99%,直接全面对齐。

这一轮价格战或倒逼全行业重构定价体系,API 服务转向普惠算力基础设施,为 AI 大规模产业化扫清成本障碍。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

小米 命中率 元和 社交平台
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论