智东西 10-31
Kimi又开源了!KV缓存暴砍75%,解码速度飙6倍
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 程茜

编辑 | 心缘

智东西 10 月 31 日消息,今天凌晨,大模型独角兽月之暗面开源混合线性注意力架构 Kimi Linear,该架构首次在短上下文、长上下文、强化学习扩展机制等各种场景中超越了 Transformer 架构的全注意力机制(Full Attention)。

Kimi Linear 的核心是线性注意力模块 Kimi Delta Attention(KDA),通过更细粒度的门控机制扩展了 Gated DeltaNet,从而能够更有效地利用有限状态 RNN 内存。论文中指出,Kimi Linear 既可以满足 Agent 对效率和测试时扩展的需求,同时也不会牺牲模型质量。Kimi 在社交平台 X 发布帖子称,Kimi Linear 随时可以作为全注意力的直接替代品。

研究人员基于 KDA 和多头潜在注意力(MLA)的逐层混合,预训练了具有 30 亿个激活参数和 480 亿个总参数的 Kimi Linear 模型。

其实验表明,在相同的训练方案下,Kimi Linear 在所有评估任务中均显著优于全注意力机制,同时将 KV 缓存使用率降低 75%,并在 100 万个 Token 的上下文中解码吞吐量提升 6 倍。

论文提到,这些结果表明,Kimi Linear 可以作为全注意力架构的直接替代方案,并具有更优异的性能和效率。

Kimi 开源了 KDA 内核和 vLLM 的实现,并发布了预训练和指令调优的模型检查点。

Kimi Linear 的 Hugging Face 开源主页

GitHub:https://github.com/fla-org/flash-linear-attention/tree/main/fla/ops/kda

Hugging Face:https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

一、剑指标准注意力机制两大瓶颈,解码吞吐量最高提升 6 倍

随着 Agent 热潮涌起,尤其是在长时域和强化学习场景下的推理计算需求正成为核心瓶颈。这种向强化学习测试时扩展的转变,使得模型必须在推理时处理扩展轨迹、工具使用交互以及复杂的决策空间,从而暴露了标准注意力机制的根本性缺陷。

传统 Transformer 架构的 softmax 注意力机制,存在计算复杂度高、KV 缓存占用大两大瓶颈。

在此基础上,Kimi 提出了混合线性注意力架构 Kimi Linear,可以满足 Agent 的效率需求和测试时间扩展性,同时又不牺牲模型质量。

其核心是 Kimi Delta Attention(KDA),这是一个硬件高效的线性注意力模块,它在 Gated DeltaNet 的基础上扩展了一种更细粒度的门控机制。与 GDN 采用粗粒度的头部遗忘门控不同,KDA 引入通道级对角门控,其中每个特征维度都保持着独立的遗忘率。

这种细粒度设计能够更精确地控制有限状态 RNN 的记忆,从而释放混合架构中 RNN 类模型的潜力。

至关重要的是,KDA 使用 Diagonal-Plus-LowRank(DPLR)矩阵的特殊变体对其转移动态进行参数化,从而实现定制的分块并行算法,该算法相对于一般的 DPLR 公式大幅减少了计算量,同时保持与经典 delta 规则的一致性。

Kimi Linear 将 KDA 与周期性的全注意力层以 3:1 的均匀比例交错排列。这种混合结构在生成长序列时,通过全注意力层保持全局信息流,同时将内存和键值缓存的使用量降低高达 75%。

通过匹配规模的预训练和评估,Kimi Linear 在短上下文、长上下文和强化学习风格的后训练任务中,始终能够达到或超越强大的全注意力基线模型的性能,同时在 100 万上下文长度下,解码吞吐量最高可提升到完整 MLA 的 6 倍。

Kimi 研究团队的主要贡献包括:

1、线性注意力机制 KDA,改进了门控 delta 规则,提高了循环内存管理和硬件效率;

2、Kimi 线性架构采用 3:1 KDA 与全局注意力比率的混合设计,在减少内存占用的同时超越了完全注意力质量;

3、大规模的公平经验验证:通过 1.4T 个 token 的训练运行,Kimi Linear 在短、长上下文和 RL 风格的评估中优于完整的注意力机制和其他基线,并完全开源了内核、vLLM 集成和检查点。

二、通过细粒度门控改进 Delta 规则,多个组件提升表达能力

论文中介绍了 KDA 的分块并行化,展示了如何在对角门控下保持稳定性的同时,将一系列秩为 1 的矩阵变换压缩成稠密表示,在输出阶段,研究人员采用块间递归和块内并行策略来最大化矩阵乘法吞吐量,从而充分利用张量核心的计算潜力。

输出阶段

在表达能力方面,KDA 与广义 DPLR 公式一致,两者都表现出细粒度的衰减行为,然而这种细粒度的衰减会在除法运算期间引入数值精度问题。

通过将变量 a 和 b 都绑定到 k,KDA 有效地缓解了这一瓶颈,将二级分块矩阵计算的次数从四次减少到两次,并进一步消除了三次额外的矩阵乘法。因此,与 DPLR 公式相比,KDA 的算子效率提高了约 100%。

KDA 算子效率情况

此外,KDA 模型架构主要基于 Moonlight,除了细粒度的门控之外,研究人员还利用了多个组件来进一步提升 Kimi Linear 的表达能力。

神经参数化:输出门采用类似于遗忘门的低秩参数化方法,以确保参数比较的公平性,同时保持与全秩门控相当的性能,并缓解注意力陷阱问题;

Kimi Linear 模型架构示意图

混合模型架构:研究人员将 KDA 与少量全局注意力层混合。经验表明,3:1 的统一比例,即 3 个 KDA 层对应 1 个全 MLA 层,能够提供最佳的质量 - 吞吐量平衡。

MLA 层不采用位置编码(NoPE):研究人员对所有 MLA 层应用了 NoPE。其发现与先前的研究结果一致,用专门的位置感知机制来补充全局 NoPE 注意力机制,可以获得具有竞争力的长上下文性能。

Kimi Linear 合成任务的结果

三、性能评估整体优于 MLA,通用知识、推理、中文任务得分第一

研究人员评估了 Kimi Linear 模型与全注意力 MLA 基线、混合门控 DeltaNet(GDN-H)基线的性能,所有基线均采用相同的架构、参数数量和训练设置。

研究人员使用 1.4T 预训练语料库将 Kimi Linear 模型与两个基线模型(MLA 和混合 GDN-H)进行了比较,评估主要集中在三个方面:通用知识、推理(数学和编程)以及中文任务,Kimi Linear 在几乎所有类别中都始终优于两个基线模型。

在常识方面:Kimi Linear 在 BBH、MMLU 和 HellaSwag 等所有关键基准测试中得分最高;推理能力方面:Kimi Linear 在数学和大多数编程任务方面领先,与 GDN-H 相比,其在 EvalPlus 上的得分略低;中文任务上:Kimi Linear 在 CEval 和 CMMLU 上取得了最高分。

Kimi Linear 与全注意力 MLA 基线、混合 GDN 基线的性能比较

研究人员称,Kimi Linear 可以成为短上下文预训练中全注意力架构的有力替代方案。

在经过相同的监督式微调流程后,研究人员测试发现,Kimi Linear 在通用任务和数学与代码任务中均表现出色,始终优于 MLA 和 GDN-H。

在通用任务中,Kimi Linear 在各种 MMLU 基准测试、BBH 和 GPQA-Diamond 上均取得了最高分。

在数学与编程任务中,它在 AIME 2025、HMMT 2025、PolyMath-en 和 LiveCodeBench 等高难度基准测试中超越了所有基线模型。

Kimi Linear 与 MLA、GDN-H 在长上下文基准测试中的比较

总体结果总结:在预训练和 SFT 阶段,Kimi Linear 优于 GDN-H,GDN-H 又优于 MLA;在长上下文评估中,这一层级发生了变化,Kimi Linear 保持领先地位,GDN-H 的性能下降落后于 MLA;在强化学习阶段,Kimi Linear 性能优于 MLA。

效率方面,随着序列长度的增加,混合 Kimi Linear 模型在较短的序列长度(4k – 16k)下,性能与 MLA 相当,从 128k 开始速度显著提升。对于 512k 个序列,Kimi Linear 的性能是 MLA 的 2.3 倍;对于 1M 个序列,其性能是 MLA 的 2.9 倍。在 100 万个 Token 上下文长度的解码效率方面,Kimi Linear 的速度是全注意力机制的 6 倍。

Kimi Linear 与 MLA、GDN-H 在效率方面的比较

结语:攻克全注意力机制瓶颈,Kimi Linear 实现性能、效率双超越

Kimi Linear 通过 KDA 的细粒度门控与高效分块算法、3:1 混合注意力架构,首次实现性能超越全注意力以及效率大幅提升的突破,且在 100 万个 token 长上下文、强化学习等场景中表现突出,使得其可以兼顾效率和可扩展性,为下一代 Agent 发展、解码密集型大模型提供了高效解决方案。

同时,Kimi Linear 可以作为全注意力架构的直接替代品,这意味着在实际应用中,开发者可以直接采用 Kimi Linear 架构来改进现有模型,而无需进行大规模的重新设计和训练,有效降低开发成本和计算资源成本。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

kimi 开源 吞吐量 社交平台
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论