Kimi又开源了！KV缓存暴砍75%，解码速度飙6倍

智东西

作者 | 程茜

编辑 | 心缘

智东西 10 月 31 日消息，今天凌晨，大模型独角兽月之暗面开源混合线性注意力架构 Kimi Linear，该架构首次在短上下文、长上下文、强化学习扩展机制等各种场景中超越了 Transformer 架构的全注意力机制（Full Attention）。

Kimi Linear 的核心是线性注意力模块 Kimi Delta Attention（KDA），通过更细粒度的门控机制扩展了 Gated DeltaNet，从而能够更有效地利用有限状态 RNN 内存。论文中指出，Kimi Linear 既可以满足 Agent 对效率和测试时扩展的需求，同时也不会牺牲模型质量。Kimi 在社交平台 X 发布帖子称，Kimi Linear 随时可以作为全注意力的直接替代品。

研究人员基于 KDA 和多头潜在注意力（MLA）的逐层混合，预训练了具有 30 亿个激活参数和 480 亿个总参数的 Kimi Linear 模型。

其实验表明，在相同的训练方案下，Kimi Linear 在所有评估任务中均显著优于全注意力机制，同时将 KV 缓存使用率降低 75%，并在 100 万个 Token 的上下文中解码吞吐量提升 6 倍。

论文提到，这些结果表明，Kimi Linear 可以作为全注意力架构的直接替代方案，并具有更优异的性能和效率。

Kimi 开源了 KDA 内核和 vLLM 的实现，并发布了预训练和指令调优的模型检查点。

Kimi Linear 的 Hugging Face 开源主页

GitHub：https://github.com/fla-org/flash-linear-attention/tree/main/fla/ops/kda

Hugging Face：https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

一、剑指标准注意力机制两大瓶颈，解码吞吐量最高提升 6 倍

随着 Agent 热潮涌起，尤其是在长时域和强化学习场景下的推理计算需求正成为核心瓶颈。这种向强化学习测试时扩展的转变，使得模型必须在推理时处理扩展轨迹、工具使用交互以及复杂的决策空间，从而暴露了标准注意力机制的根本性缺陷。

传统 Transformer 架构的 softmax 注意力机制，存在计算复杂度高、KV 缓存占用大两大瓶颈。

在此基础上，Kimi 提出了混合线性注意力架构 Kimi Linear，可以满足 Agent 的效率需求和测试时间扩展性，同时又不牺牲模型质量。

其核心是 Kimi Delta Attention（KDA），这是一个硬件高效的线性注意力模块，它在 Gated DeltaNet 的基础上扩展了一种更细粒度的门控机制。与 GDN 采用粗粒度的头部遗忘门控不同，KDA 引入通道级对角门控，其中每个特征维度都保持着独立的遗忘率。

这种细粒度设计能够更精确地控制有限状态 RNN 的记忆，从而释放混合架构中 RNN 类模型的潜力。

至关重要的是，KDA 使用 Diagonal-Plus-LowRank（DPLR）矩阵的特殊变体对其转移动态进行参数化，从而实现定制的分块并行算法，该算法相对于一般的 DPLR 公式大幅减少了计算量，同时保持与经典 delta 规则的一致性。

Kimi Linear 将 KDA 与周期性的全注意力层以 3:1 的均匀比例交错排列。这种混合结构在生成长序列时，通过全注意力层保持全局信息流，同时将内存和键值缓存的使用量降低高达 75%。

通过匹配规模的预训练和评估，Kimi Linear 在短上下文、长上下文和强化学习风格的后训练任务中，始终能够达到或超越强大的全注意力基线模型的性能，同时在 100 万上下文长度下，解码吞吐量最高可提升到完整 MLA 的 6 倍。

Kimi 研究团队的主要贡献包括：

1、线性注意力机制 KDA，改进了门控 delta 规则，提高了循环内存管理和硬件效率；

2、Kimi 线性架构采用 3:1 KDA 与全局注意力比率的混合设计，在减少内存占用的同时超越了完全注意力质量；

3、大规模的公平经验验证：通过 1.4T 个 token 的训练运行，Kimi Linear 在短、长上下文和 RL 风格的评估中优于完整的注意力机制和其他基线，并完全开源了内核、vLLM 集成和检查点。

二、通过细粒度门控改进 Delta 规则，多个组件提升表达能力

论文中介绍了 KDA 的分块并行化，展示了如何在对角门控下保持稳定性的同时，将一系列秩为 1 的矩阵变换压缩成稠密表示，在输出阶段，研究人员采用块间递归和块内并行策略来最大化矩阵乘法吞吐量，从而充分利用张量核心的计算潜力。

输出阶段

在表达能力方面，KDA 与广义 DPLR 公式一致，两者都表现出细粒度的衰减行为，然而这种细粒度的衰减会在除法运算期间引入数值精度问题。

通过将变量 a 和 b 都绑定到 k，KDA 有效地缓解了这一瓶颈，将二级分块矩阵计算的次数从四次减少到两次，并进一步消除了三次额外的矩阵乘法。因此，与 DPLR 公式相比，KDA 的算子效率提高了约 100%。

KDA 算子效率情况

此外，KDA 模型架构主要基于 Moonlight，除了细粒度的门控之外，研究人员还利用了多个组件来进一步提升 Kimi Linear 的表达能力。

神经参数化：输出门采用类似于遗忘门的低秩参数化方法，以确保参数比较的公平性，同时保持与全秩门控相当的性能，并缓解注意力陷阱问题；

Kimi Linear 模型架构示意图

混合模型架构：研究人员将 KDA 与少量全局注意力层混合。经验表明，3:1 的统一比例，即 3 个 KDA 层对应 1 个全 MLA 层，能够提供最佳的质量 - 吞吐量平衡。

MLA 层不采用位置编码（NoPE）：研究人员对所有 MLA 层应用了 NoPE。其发现与先前的研究结果一致，用专门的位置感知机制来补充全局 NoPE 注意力机制，可以获得具有竞争力的长上下文性能。

Kimi Linear 合成任务的结果

三、性能评估整体优于 MLA，通用知识、推理、中文任务得分第一

研究人员评估了 Kimi Linear 模型与全注意力 MLA 基线、混合门控 DeltaNet（GDN-H）基线的性能，所有基线均采用相同的架构、参数数量和训练设置。

研究人员使用 1.4T 预训练语料库将 Kimi Linear 模型与两个基线模型（MLA 和混合 GDN-H）进行了比较，评估主要集中在三个方面：通用知识、推理（数学和编程）以及中文任务，Kimi Linear 在几乎所有类别中都始终优于两个基线模型。

在常识方面：Kimi Linear 在 BBH、MMLU 和 HellaSwag 等所有关键基准测试中得分最高；推理能力方面：Kimi Linear 在数学和大多数编程任务方面领先，与 GDN-H 相比，其在 EvalPlus 上的得分略低；中文任务上：Kimi Linear 在 CEval 和 CMMLU 上取得了最高分。

Kimi Linear 与全注意力 MLA 基线、混合 GDN 基线的性能比较

研究人员称，Kimi Linear 可以成为短上下文预训练中全注意力架构的有力替代方案。

在经过相同的监督式微调流程后，研究人员测试发现，Kimi Linear 在通用任务和数学与代码任务中均表现出色，始终优于 MLA 和 GDN-H。

在通用任务中，Kimi Linear 在各种 MMLU 基准测试、BBH 和 GPQA-Diamond 上均取得了最高分。

在数学与编程任务中，它在 AIME 2025、HMMT 2025、PolyMath-en 和 LiveCodeBench 等高难度基准测试中超越了所有基线模型。

Kimi Linear 与 MLA、GDN-H 在长上下文基准测试中的比较

总体结果总结：在预训练和 SFT 阶段，Kimi Linear 优于 GDN-H，GDN-H 又优于 MLA；在长上下文评估中，这一层级发生了变化，Kimi Linear 保持领先地位，GDN-H 的性能下降落后于 MLA；在强化学习阶段，Kimi Linear 性能优于 MLA。

效率方面，随着序列长度的增加，混合 Kimi Linear 模型在较短的序列长度（4k – 16k）下，性能与 MLA 相当，从 128k 开始速度显著提升。对于 512k 个序列，Kimi Linear 的性能是 MLA 的 2.3 倍；对于 1M 个序列，其性能是 MLA 的 2.9 倍。在 100 万个 Token 上下文长度的解码效率方面，Kimi Linear 的速度是全注意力机制的 6 倍。

Kimi Linear 与 MLA、GDN-H 在效率方面的比较

结语：攻克全注意力机制瓶颈，Kimi Linear 实现性能、效率双超越

Kimi Linear 通过 KDA 的细粒度门控与高效分块算法、3:1 混合注意力架构，首次实现性能超越全注意力以及效率大幅提升的突破，且在 100 万个 token 长上下文、强化学习等场景中表现突出，使得其可以兼顾效率和可扩展性，为下一代 Agent 发展、解码密集型大模型提供了高效解决方案。

同时，Kimi Linear 可以作为全注意力架构的直接替代品，这意味着在实际应用中，开发者可以直接采用 Kimi Linear 架构来改进现有模型，而无需进行大规模的重新设计和训练，有效降低开发成本和计算资源成本。

宙世代

一起剪

相关标签