量子位 昨天
模型砍掉一大半,准确率反升15%!华科&阿里安全新研究实现ViT近乎无损的类特定压缩
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

近年来,视觉大模型在自动驾驶、智慧医疗等场景中得到广泛应用,但在真实业务环境中," 大而全 "的通用模型往往并不是最优选择。

一方面,这类模型参数庞大、计算开销高,难以在终端设备上高效运行;另一方面,许多应用场景只关注少数关键目标类别,大量无关知识不仅浪费资源,反而会影响模型的聚焦能力。

相比之下," 小而专 "的定制化模型更贴合实际需求,既能降低部署成本,又更有利于稳定、长期运行,因此在产业落地中更具实用价值。

如何从一个 " 大而全 " 的通用模型中派生出 " 小而专 " 的定制化模型?

针对这一问题,华中科技大学联合阿里巴巴集团安全部提出了定制化端侧模型部署新范式——Vulcan

该方法一改 " 先剪枝再训练 " 的传统压缩策略,通过 "先训练再剪枝" 的范式引导模型聚焦目标类别,并引入结构化参数冗余,支持训练后的视觉大模型以近乎无损的方式转换为定制化小模型,有效避免了剪枝带来的不可逆的知识损失,为 " 大模型服务于小场景 " 的高效落地提供了切实可行的新路径。目前,该论文已被ICLR 2026接收。

近年来,视觉大模型(Vision Transformer,ViT)得益于其规模不断扩大,在图像识别、物体检测和实例分割等视觉任务中表现出了出色的性能。

然而,这也使其推理开销急剧增加。尽管云侧部署能够提供充足的计算资源,但往往不能有效保证实时性、安全性以及可靠性,这对于自动驾驶、智慧医疗等应用场景来说是不可接受的。

与云侧部署相比,边缘 / 端侧部署能够通过本地推理减少延迟、保护隐私并提高系统的可靠性。

然而,ViT 往往需要通过模型压缩才能部署在资源受限的边缘设备上。结构化剪枝虽然是一个边缘友好的模型轻量化技术,但其在实际应用于边缘模型部署时仍面临多方面的挑战。

首先,现有方法都追求保持模型的通用能力,忽略了边缘设备仅需处理特定任务相关的类别的事实。

例如,自动驾驶系统的传感器只需识别交通相关类别,而花卉、昆虫等与任务无关的类别不仅增加计算负担,还会削弱模型对关键目标的聚焦能力,进而影响整体性能。同时,现有方法遵循 " 先剪枝再训练 "(prune-then-train)范式,剪枝往往会带来不可逆的知识损失,尤其是剪枝率较高时。

更为重要的是,特定类别的知识在 ViT 的不同模块中的分布形式未知,技术设计缺乏关键洞见指导。

关键洞见

研究团队从模型内部结构出发,对 ViT 中不同模块所承载的知识形态进行了系统分析,揭示了类相关信息与类无关信息在网络中的分布规律,从而为后续针对性设计派生策略奠定了关键理论基础。

在前馈网络(FFN)模块中,不同神经元通过激活模式编码了不同的视觉特征,如下图所示。浅层神经元主要关注颜色、纹理等底层特征,深层神经元则聚焦于高层语义概念甚至特定类别目标。这表明FFN 模块是类特定知识的重要载体,高激活神经元在区分类别中起着关键作用。

在多头注意力(MHA)模块中,Query-Key 和 Value-Output 矩阵乘法的中间维度主要承载类别无关的通用表征信息,具有天然的低秩特性。实验表明,不依赖于数据的奇异值分解(SVD)在该模块中表现显著优于依赖数据的剪枝策略,如下图所示。说明MHA 中存储的信息具有较强的通用性,适合通过矩阵分解实现压缩。

研究方法

基于上述洞见,研究团队提出了 Vulcan,其核心思想是在模型压缩过程中充分挖掘并保留 ViT 中与目标类别高度相关的关键信息,基于 " 先训练再剪枝 "(train-then-prune)范式,在后训练阶段主动引入结构化参数冗余,从而实现近乎无损的类特定模型派生。

整体框架如下图所示,主要包含类中心神经元坍缩(Class-Centric Neuron Collapse,CCNC)和截断核范数正则化(Truncated Nuclear Norm Regularization,TNNR)两大核心组件。

CCNC 旨在在 FFN 中凝练与目标类别最相关的关键信息。该组件首先评估神经元在目标类别上的激活强度,随后对神经元进行聚类,在每个簇内选取激活值最高的锚点神经元。最后通过坍缩正则项引导同簇神经元向锚点收敛。通过这一过程,将冗余神经元整合为少量高价值单元,在强化类别表征的同时保障剪枝前后的计算等价。

TNNR 旨在利用多头注意力 MHA 模块中权重矩阵的低秩特性,引导其形成更加适合 SVD 的结构。该组件首先利用有效秩评估不同层和不同维度的信息分布并自适应分配各层各维度的剪枝比例,随后通过截断核范数正则项引导小奇异值趋于 0,使权重矩阵向低秩结构演化。通过这一过程,将类无关知识集中在少数维度上,在保留通用表征能力的同时保障基于 SVD 剪枝的近无损性。

增广拉格朗日优化框架下,这两个组件的形式化表达可以概括为如下损失函数中的两个正则项:

如下图所示,在该损失函数的监督下,后训练初期以任务损失为主导,使模型充分适应目标类别;随着训练进行,拉格朗日乘子逐渐增大,CCNC 和 TNNR 约束逐步占据主导地位,引导 FFN 神经元向锚点坍缩、推动 MHA 权重向低秩结构演化。

Vulcan 利用后训练阶段已形成的冗余结构,直接执行确定性的结构化剪枝操作。在 FFN 模块中,将每个神经元簇替换为对应的锚点神经元;在 MHA 模块中,通过 SVD 截取主要奇异分量,删除无贡献维度。由于冗余已在训练阶段被充分约束,这一剪枝过程可被证明是前后计算等价,即精度无损的。

实验结果

研究团队在多个主流数据集和不同规模的 ViT 模型上,对 Vulcan 方法的有效性进行了系统评估,重点考察其在类特定模型派生任务中的压缩性能、精度保持能力以及推理效率。实验覆盖图像分类、目标检测和实例分割三类典型视觉任务,并在 ImageNet、CIFAR 和 COCO 等数据集上构建不同规模的子任务进行测试。

实验结果表明,Vulcan 派生的模型在 ImageNet 子任务上的准确率最高可提升15.12%,而模型规模仅为原模型的20% – 40%。同时其始终优于当前最先进的结构化剪枝方法,在类特定准确率方面最高可提升13.92%

为验证 Vulcan 方法的通用性,研究团队进一步在不同规模的基础模型(DeiT-Small、DeiT-Tiny 和 Mask R-CNN ( Swin-T ) )以及多个数据集(CIFAR-10、CIFAR-100、COCO)上进行了扩展实验。实验结果说明 Vulcan 具有良好的跨模型和跨任务泛化能力,不依赖于特定网络结构或数据分布。

为评估 Vulcan 在真实部署场景中的实用性,研究团队在 Jetson Orin NX 边缘设备和 NVIDIA RTX 4090 服务器平台上测试了模型的推理效率和资源消耗情况。实验结果说明 Vulcan 可以实现1.23 × -3.02 ×的推理加速,并降低20.59%-76.47%的显存占用。

此外,在面向 Stanford Dogs 子任务时,通过对派生出的模型中 FFN 神经元的可视化分析,研究团队证实了 Vulcan 能够有效引导模型在后训练阶段强化目标类别知识表达,将原始模型中神经元响应分散的模式转为更加集中且清晰的内部表征。

总结

该研究表明,只有深入理解模型内部知识结构,才能实现稳定可靠的轻量化部署。

Vulcan 通过揭示 ViT 中类相关与类无关知识的解耦分布,并在后训练阶段主动塑造可控冗余结构,实现了近乎无损的类特定模型派生,为视觉大模型从 " 通用泛化 " 走向 " 精准服务 " 提供了切实可行的新思路。

作者简介:

本文第一作者为华中科技大学计算机科学与技术学院的博士二年级研究生魏子腾,研究方向为边缘智能和模型轻量化。导师为华中科技大学的何强教授。主要合作者为来自阿里巴巴集团安全部的段然杰、李小丹、李斌、陈岳峰和薛晖。

论文标题:

Vulcan: Crafting Compact Class-Specific Vision Transformers For Edge Intelligence

论文地址:

https://openreview.net/forum?id=0xE0kNdGIz

代码链接:

https://github.com/CGCL-codes/Vulcan

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生 

感兴趣的小伙伴欢迎关注  了解详情

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

自动驾驶 vulcan 智慧医疗 华中科技大学 阿里巴巴集团
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论