追踪视觉 Token 的演化轨迹，实现无损压缩与 60% 推理加速

从 " 谁被关注 " 到 " 谁在变化 "，重新定义 Token 的重要性。

作者丨李傲中国人民大学

近年来，以 LLaVA、Qwen 系列为代表的大视觉语言模型（LVLM）推动了多模态智能的发展，在视觉理解与推理任务中展现不错的表现。然而，其伴随着高昂的推理成本。面对高分辨率图像或者视频时，模型往往需要处理大量视觉 Token，而这些 Token 会在整个推理过程中持续参与计算，成为制约模型效率的重要瓶颈。因此，如何识别并保留真正重要的视觉 Token，在尽可能不影响性能的前提下降低计算开销，已成为当前多模态大模型研究的重要课题。

来自山东大学，MBZUAI 的研究团队提出了 TransPrune：从演化的视角衡量视觉 Token 的重要性，在保持整体性能无损的同时，将推理成本降低 60%。

论文 arxiv 链接：https://arxiv.org/abs/2507.20630

代码：https://github.com/liaolea/TransPrune

重要的 Token 不仅是 " 被关注的 "，还是 " 持续演化 " 的

现有 Token Pruning 方法大多依赖 Attention Score 或 Token Similarity 来衡量视觉 Token 的重要性，但这些方法在实际使用中都存在一定局限性。

基于 Attention 的方法通常假设 " 被关注得多的 Token 就更重要 "，然而 Attention 本身存在位置偏差 ( Attention Sink ) ，使得一些与语义无关的 Token 也可能获得较高的注意力权重，从而影响重要性判断的准确性。

基于 Token Similarity 的方法则主要从冗余性角度出发，通过衡量 Token 之间的相似程度来进行融合，但这类方法往往忽略了具体任务指令的影响，难以针对不同问题动态调整 Token 的重要性分配。

论文发现，除了依赖某一层的 Attention 分数来判断 Token 的重要性，还可以观察 Token 在整个前向传播过程中的 " 变化轨迹 "。当一个视觉 Token 承载更重要的语义信息时，它在传播中往往会经历更显著的表征变化。重要 Token 并不是静态存在的，而是在模型内部持续发生 " 演化 "。

基于这一观察，论文将这种变化定义为 Token Transition，并从两个维度对其进行量化：一方面是 Magnitude Change，即 Token 向量 L2 范数的变化，重要语义 Token 通常会表现出更明显的幅值变化；另一方面是 Direction Change，即 Token 表示方向的偏移，通过输入与输出表示之间的余弦相似度进行衡量。

实验结果表明，真正重要的 Token 往往同时具有更大的 Magnitude 变化和更显著的 Direction 变化，且这一现象在 LLM 的中间层尤为突出。

TransPrune: 基于 Token 演化的渐进式 Token 压缩方法

TransPrune 整体方法由两个互补模块构成：Token Transition Variation（TTV）与 Instruction-Guided Attention（IGA），分别从 "Token 自身在网络中的演化轨迹 " 和 " 任务语义对 Token 的显式约束 " 两个角度衡量视觉 Token 的重要性。

TTV 作为核心评分机制，在模型前向传播过程中持续跟踪每个视觉 Token 在不同层之间的表示变化，并将这种变化量化为统一的重要性得分，实现对 Token" 动态重要性 " 的估计。

单层的 TTV 往往具有较强噪声，容易受到局部波动或特定层结构的影响，导致重要性判断不稳定。相比之下，如果观察 Token 在多个层中的持续变化趋势，就可以更可靠地捕捉其 " 长期语义贡献 "。因此，论文对 TTV 引入了跨层累积机制来获得更加稳定 Token 的重要性估计。

然而，仅依靠 TTV 无法对齐具体问题指令的需求。为此，方法进一步引入 IGA 模块，通过利用文本指令与视觉 Token 之间的注意力关联，显式建模当前问题对不同视觉区域的关注程度，从而为 Token 筛选提供任务层面的约束与引导。

实验结果：对比现有 within-LLM 的裁剪方法领先

论文对比了现有的 within-LLM 的方法，证明 TransPrune 在较低的 TFLOPs 的情况下仍然取得了性能的领先。

论文还探索了 TransPrune 与 projector-based 压缩方法的组合效果。当将其与 VisionZip 等方法结合使用时，在额外减少约三分之一计算量的情况下，模型性能仅出现极小幅度下降，表明 Token Transition 所刻画的 " 动态重要性 " 与现有 projector-based 压缩范式具有良好的互补性，不仅可以独立发挥作用，还能够作为插件式模块嵌入到其他高效推理框架中，从而进一步提升整体计算效率。

结语

通过发现并量化 Token Transition 这一现象，论文发现了一个全新的视觉 Token 重要性的衡量角度：不再仅仅取决于它在某一层中 " 被关注的程度 "，还体现在它在整个网络传播过程中 " 持续演化的强度 "。

基于这一观察，论文提出了 TransPrune 剪枝框架，在多个主流视觉语言模型上实现了显著的推理加速，并保持了优异的性能表现。

这项工作不仅能够为高效视觉语言模型研究提供新的解决方案，也能够启发研究者从动态表征演化的角度重新理解 Transformer 中的信息流动过程，为未来的多模态模型高效推理带来更多可能性。

雷峰网 ( 公众号：雷峰网 )

上车，带你看遍全球 AI 顶会精华

可独家畅览：

专家演讲 PPT

大会报告全文

热门论文解读

学术新星访谈

扫描上方二维码

或点击「阅读原文」关注专区。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

宙世代

一起剪

相关标签