随着 AI Coding、Agent、Deep Research 等应用快速普及,模型单次处理的上下文长度正在从几万 Token 迈向几十万甚至百万 Token。
一个看似 " 隐形 " 的瓶颈正悄然制约着推理效率——
KV Cache(键值缓存)的内存占用随序列长度线性增长,不仅推高显存成本,更直接限制了批量推理的吞吐能力。
对此,百度百舸团队联合复旦大学可信具身智能研究院,在长上下文高效推理方向取得重要进展。

相关成果《Predicting Future Utility: Global Combinatorial Optimization for Task-Agnostic KV Cache Eviction》被机器学习顶会ICML 2026录用。
联合团队提出的 LU-KV 框架,在 80% KV Cache 压缩率下,相对性能损失仅 0.52%(以 Qwen2.5-32B 在 LongBench 的评测结果为例),在效率–精度权衡曲线上达到新的 SOTA 水平。
为什么现有方法会 " 看走眼 "?
当前主流的 KV Cache 压缩方案(如 SnapKV、KeyDiff、AdaKV 等)通常遵循一个朴素假设:注意力分数高的 Token 更重要,应该优先保留。
这种 " 看当前分数大小 " 的策略在单头内部往往有效,但当预算需要在几十层、几百个注意力头之间分配时,问题就暴露了。
本工作发现,这种「看当前分数大小」的分配逻辑会忽略不同注意力头在长期语义信息保留能力上的差异,容易把缓存预算分配给短期分数高、但长期贡献有限的 Token,造成缓存预算与长程信息价值之间的错配。
针对这一问题,团队提出Long-horizon Utility KV(LU-KV)框架,将头级 KV Cache 预算分配建模为面向长程边际效用的全局组合优化问题。
LU-KV 的核心思路:用 " 投资回报率 " 思维重构缓存分配
既然核心瓶颈在于跨头预算分配,LU-KV 具体如何运作?
团队并未在单头打分器上做修补,而是构建了一套从 " 理论标尺 " 到 " 全局优化 ",再到 " 工程落地 " 的完整技术路径,大致拆解为三步。
第一步:立下 " 真标尺 " ——定义 Oracle Importance,量化认知偏差
要解决预算错配,首先得知道 " 什么才是真正的重要 "。
LU-KV 提出 Oracle Importance(真实重要性) 指标,将 Token 的重要性定义为:
通过前瞻未来 K 步解码窗口,直接计算每个 Token 能产生的最大潜在贡献。
这把重要性评估从 " 单步瞬时注意力 " 升级为 " 长程前瞻效用 "。


有了这把标尺,团队首次严格量化了现有启发式指标与真实重要性之间的 " 最优性差距(Optimality Gap)",证明了盲目按瞬时分数分配预算必然导致长期语义流失,也为后续的优化提供了明确的数学靶心。

第二步:解 " 全局题 " ——凸包松弛 + 贪心策略,将非凸难题转化为高效求解
有了衡量偏差的标尺,预算分配就不再是凭感觉 " 分蛋糕 ",而是一个明确的全局组合优化问题:
如何在总预算固定的约束下,让所有注意力头的长期信息保留总损失最小?该问题本质上是 NP-hard 的非凸离散优化。
为此,团队引入凸包松弛(Convex-hull Relaxation)技术,将原本波动的损失曲线 " 熨平 " 为边际收益严格递减的平滑函数。
这一数学变换使得复杂的组合优化问题具备了单调性,从而可以用基于边际效用的全局贪心算法快速逼近最优解。
如下图所示,在凸包松弛下,原本 NP-hard 的非凸离散优化问题被转化为边际收益严格递减的平滑形式。
此时,采用全局贪心算法求解所得的结果,与动态规划(DP)求解原始组合优化问题的最优解高度吻合。
换言之,系统能自动算出:把下一个 Token 的缓存配额分给哪个头,才能最大化长程语义的保留收益。

第三步:过 " 落地关 " ——离线画像 + 在线查表,让理论最优实现零开销部署
有了衡量偏差的标尺,预算分配就不再是凭感觉 " 分蛋糕 ",而是一个明
理论上求出了最优分配策略,但直接在线计算 Oracle Importance 和实时优化,会带来不可接受的推理延迟。
如何让算法真正走向生产?团队抓住了大模型的一个关键特性:不同注意力头的全局 - 局部压缩率比例,在各类任务中呈现出高度的结构稳定性(如下图所示)。

基于这一洞察,LU-KV 设计了数据驱动的离线 Profiling 协议:
在部署前,用合成数据预计算每个头在不同压缩率下的最优预算比例,生成一张静态查找表。
在线推理时,系统只需根据目标压缩率 " 查表 " 获取各头预算,随即执行独立驱逐。
从理论优化到工程实践,LU-KV 成功将复杂的在线计算转化为 O ( 1 ) 的查表操作,实现了真正的零开销部署。
值得一提的是,LU-KV 并不替代底层的 Token 打分方法,而是作为通用的预算分配层,可即插即用适配 SnapKV、KeyDiff 等多种压缩指标,具备良好的工程兼容性与迁移能力。
实验数据:压缩 80%,性能几乎不打折
团队在 Mistral-7B-Instruct-v0.3 和 Qwen2.532B-Instruct 中评价了该方案,使用 Snapkv 和 KeyDiff 作为两种 KVCache 重要性评价指标,与 PyramidKV,AdaKV 这类 Budget SOTA 分配方案进行了对比。对比结果如下:
LongBench 上:在 80% 压缩率下,该方法有效最小化了总体逐出损失,从而带来了显著的精度提升。
在 Mistral-7B-v0.3 模型上结合 KeyDiff 方法,该方法将平均准确率从 40.54 ( AdaKV ) 提高到 46.21,恢复了压缩模型与 Full-KV 上界之间 84% 的性能差距。
重要的是,这些提升在多个领域(从摘要到合成任务)中都很稳健,表明学习到的压缩分布成功捕捉了每个领域的细微差别。

RULER 上:在极端检索任务中,在 Mistral-7B-v0.3 模型上使用 SnapKV 指标,传统策略表现明显不佳:均匀压缩的平均准确率降至 29.53%,AdaKV 也仅能小幅提升至 37.48%。
相比之下,在相同的 80% 压缩率下,该方法实现了 69.98% 的平均准确率。值得注意的是,在具有挑战性的 multi-key-3 任务上,该方法将性能从 1.00%(均匀压缩)提升至 67.40%,显示出在保留稀疏但关键信息方面的强大鲁棒性。

更多细节,请见 ICML 2026 论文或访问 GitHub 项目主页。
论文链接:https://icml.cc/virtual/2026/poster/65241
项目主页:https://github.com/baidu-baige/LU-KV
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生
感兴趣的小伙伴欢迎关注 了解详情

点亮星标
科技前沿进展每日见


