雷锋网 昨天
追踪视觉 Token 的演化轨迹,实现无损压缩与 60% 推理加速
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

从 " 谁被关注 " 到 " 谁在变化 ",重新定义 Token 的重要性。

    作者丨李傲 中国人民大学

                                                                                                       

近年来,以 LLaVA、Qwen 系列为代表的大视觉语言模型(LVLM)推动了多模态智能的发展,在视觉理解与推理任务中展现不错的表现。然而,其伴随着高昂的推理成本。面对高分辨率图像或者视频时,模型往往需要处理大量视觉 Token,而这些 Token 会在整个推理过程中持续参与计算,成为制约模型效率的重要瓶颈。因此,如何识别并保留真正重要的视觉 Token,在尽可能不影响性能的前提下降低计算开销,已成为当前多模态大模型研究的重要课题。

来自山东大学,MBZUAI 的研究团队提出了 TransPrune:从演化的视角衡量视觉 Token 的重要性,在保持整体性能无损的同时,将推理成本降低 60%。

论文 arxiv 链接:https://arxiv.org/abs/2507.20630

代码:https://github.com/liaolea/TransPrune

01

重要的 Token 不仅是 " 被关注的 ",还是 " 持续演化 " 的

现有 Token Pruning 方法大多依赖 Attention Score 或 Token Similarity 来衡量视觉 Token 的重要性,但这些方法在实际使用中都存在一定局限性。

基于 Attention 的方法通常假设 " 被关注得多的 Token 就更重要 ",然而 Attention 本身存在位置偏差 ( Attention Sink ) ,使得一些与语义无关的 Token 也可能获得较高的注意力权重,从而影响重要性判断的准确性。

基于 Token Similarity 的方法则主要从冗余性角度出发,通过衡量 Token 之间的相似程度来进行融合,但这类方法往往忽略了具体任务指令的影响,难以针对不同问题动态调整 Token 的重要性分配。

论文发现,除了依赖某一层的 Attention 分数来判断 Token 的重要性,还可以观察 Token 在整个前向传播过程中的 " 变化轨迹 "。当一个视觉 Token 承载更重要的语义信息时,它在传播中往往会经历更显著的表征变化。重要 Token 并不是静态存在的,而是在模型内部持续发生 " 演化 "。

基于这一观察,论文将这种变化定义为 Token Transition,并从两个维度对其进行量化:一方面是 Magnitude Change,即 Token 向量 L2 范数的变化,重要语义 Token 通常会表现出更明显的幅值变化;另一方面是 Direction Change,即 Token 表示方向的偏移,通过输入与输出表示之间的余弦相似度进行衡量。

实验结果表明,真正重要的 Token 往往同时具有更大的 Magnitude 变化和更显著的 Direction 变化,且这一现象在 LLM 的中间层尤为突出。

02

TransPrune: 基于 Token 演化的渐进式 Token 压缩方法

TransPrune 整体方法由两个互补模块构成:Token Transition Variation(TTV)与 Instruction-Guided Attention(IGA),分别从 "Token 自身在网络中的演化轨迹 " 和 " 任务语义对 Token 的显式约束 " 两个角度衡量视觉 Token 的重要性。

TTV 作为核心评分机制,在模型前向传播过程中持续跟踪每个视觉 Token 在不同层之间的表示变化,并将这种变化量化为统一的重要性得分,实现对 Token" 动态重要性 " 的估计。

单层的 TTV 往往具有较强噪声,容易受到局部波动或特定层结构的影响,导致重要性判断不稳定。相比之下,如果观察 Token 在多个层中的持续变化趋势,就可以更可靠地捕捉其 " 长期语义贡献 "。因此,论文对 TTV 引入了跨层累积机制来获得更加稳定 Token 的重要性估计。

然而,仅依靠 TTV 无法对齐具体问题指令的需求。为此,方法进一步引入 IGA 模块,通过利用文本指令与视觉 Token 之间的注意力关联,显式建模当前问题对不同视觉区域的关注程度,从而为 Token 筛选提供任务层面的约束与引导。

03

实验结果:对比现有 within-LLM 的裁剪方法领先

论文对比了现有的 within-LLM 的方法,证明 TransPrune 在较低的 TFLOPs 的情况下仍然取得了性能的领先。

论文还探索了 TransPrune 与 projector-based 压缩方法的组合效果。当将其与 VisionZip 等方法结合使用时,在额外减少约三分之一计算量的情况下,模型性能仅出现极小幅度下降,表明 Token Transition 所刻画的 " 动态重要性 " 与现有 projector-based 压缩范式具有良好的互补性,不仅可以独立发挥作用,还能够作为插件式模块嵌入到其他高效推理框架中,从而进一步提升整体计算效率。

04

结语

通过发现并量化 Token Transition 这一现象,论文发现了一个全新的视觉 Token 重要性的衡量角度:不再仅仅取决于它在某一层中 " 被关注的程度 ",还体现在它在整个网络传播过程中 " 持续演化的强度 "。

基于这一观察,论文提出了 TransPrune 剪枝框架,在多个主流视觉语言模型上实现了显著的推理加速,并保持了优异的性能表现。

这项工作不仅能够为高效视觉语言模型研究提供新的解决方案,也能够启发研究者从动态表征演化的角度重新理解 Transformer 中的信息流动过程,为未来的多模态模型高效推理带来更多可能性。

雷峰网 ( 公众号:雷峰网 )

上车,带你看遍全球 AI 顶会精华

可独家畅览:

专家演讲 PPT

大会报告全文

热门论文解读

学术新星访谈

扫描上方二维码

或点击「阅读原文」关注专区。

雷峰网原创文章,未经授权禁止转载。详情见转载须知

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

中国人民大学 abs 山东大学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论