智东西 02-09
面向Agent时代!小米MiMo推出HySparse混合稀疏注意力架构
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 王涵

编辑 | 漠影

智东西 2 月 7 日报道,昨天,小米 MiMo 大模型团队宣布推出HySparse,一种面向 Agent 时代的混合稀疏注意力架构,使用 " 极少的全注意力(Full Attention)+ 稀疏注意力(Sparse Attention)" 核心设计。

随着 Agent 模型与应用的爆发式发展,精准高效处理超长文本正在成为模型必不可少的基础能力。Agent 不仅需要在超长上下文中完成稳定检索、推理与多轮规划,还必须在推理阶段保持足够快的响应速度,目前最大的挑战已经不只是 " 能不能算 ",而是 " 算不算得起 "。

为此,小米 MiMo 提出了 HySparse 架构。在多项通用、数学、代码和中文评测中,HySparse 在7B Dense 和 80B MoE 两种规模均带来提升。

其中,在总共49 层的 80B-A3B MoE 模型实验中,HySparse 仅保留5 层Full Attention 仍能保持或提升模型能力,KV Cache 存储降低至原来的1/11,实现效果与效率的兼顾。

RULER 长文测试表明,HySparse 即便将 Full Attention 层压到极少,也能稳定保持长距离关键信息访问,展现了其混合稀疏结构的优势。

HySparse 采用hybrid block结构:每个 hybrid block 由1 层 Full Attention+N 层 Sparse Attention组成。Hybrid block 内部的 Sparse Attention 层并不再独立做 token 选择和维护全量 KV,而是直接复用前置 Full Attention 层产生的重要 token 索引和 KV Cache。

这背后的动机是 Full Attention 在完成自身计算的同时,已经生成了 KV Cache,并且计算出了最准确的 token 重要性信息,自然可以供后续 N 个 Sparse Attention 层直接复用。

HySparse 可以视为是在 MiMo-V2-Flash 的 Hybrid SWA 结构的基础上,为 SWA 增加了全局的、更重要的 token 信息补充。这一改进不仅提升了性能,还没有增加 KV Cache 存储,也没有显著增加计算开销。

HySparse 结构为 Agent 时代的超长文本处理提供了高效精准的技术解决方案,也为大模型高效注意力结构的研究与落地提供了全新参考。

小米 MiMo 透露,团队计划在更大规模模型上进一步验证 HySparse 的极限和潜力,并持续探索降低 Full Attention 层数量的可能性,让超长上下文更高效。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

小米 准确 数学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论