
智东西
作者 | 王涵
编辑 | 漠影
智东西 2 月 7 日报道,昨天,小米 MiMo 大模型团队宣布推出HySparse,一种面向 Agent 时代的混合稀疏注意力架构,使用 " 极少的全注意力(Full Attention)+ 稀疏注意力(Sparse Attention)" 核心设计。

随着 Agent 模型与应用的爆发式发展,精准高效处理超长文本正在成为模型必不可少的基础能力。Agent 不仅需要在超长上下文中完成稳定检索、推理与多轮规划,还必须在推理阶段保持足够快的响应速度,目前最大的挑战已经不只是 " 能不能算 ",而是 " 算不算得起 "。
为此,小米 MiMo 提出了 HySparse 架构。在多项通用、数学、代码和中文评测中,HySparse 在7B Dense 和 80B MoE 两种规模均带来提升。
其中,在总共49 层的 80B-A3B MoE 模型实验中,HySparse 仅保留5 层Full Attention 仍能保持或提升模型能力,KV Cache 存储降低至原来的1/11,实现效果与效率的兼顾。

RULER 长文测试表明,HySparse 即便将 Full Attention 层压到极少,也能稳定保持长距离关键信息访问,展现了其混合稀疏结构的优势。

HySparse 采用hybrid block结构:每个 hybrid block 由1 层 Full Attention+N 层 Sparse Attention组成。Hybrid block 内部的 Sparse Attention 层并不再独立做 token 选择和维护全量 KV,而是直接复用前置 Full Attention 层产生的重要 token 索引和 KV Cache。
这背后的动机是 Full Attention 在完成自身计算的同时,已经生成了 KV Cache,并且计算出了最准确的 token 重要性信息,自然可以供后续 N 个 Sparse Attention 层直接复用。
HySparse 可以视为是在 MiMo-V2-Flash 的 Hybrid SWA 结构的基础上,为 SWA 增加了全局的、更重要的 token 信息补充。这一改进不仅提升了性能,还没有增加 KV Cache 存储,也没有显著增加计算开销。

HySparse 结构为 Agent 时代的超长文本处理提供了高效精准的技术解决方案,也为大模型高效注意力结构的研究与落地提供了全新参考。
小米 MiMo 透露,团队计划在更大规模模型上进一步验证 HySparse 的极限和潜力,并持续探索降低 Full Attention 层数量的可能性,让超长上下文更高效。


登录后才可以发布评论哦
打开小程序可以发布评论哦