量子位 11小时前
零样本&少样本横扫12个工业医疗数据集:西门子×腾讯优图新研究精准定位缺陷,检测精度新SOTA
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

视觉模型用于工业 " 缺陷检测 " 等领域已经相对成熟,但当前普遍使用的传统模型在训练时对数据要求较高,需要大量的经过精细标注的数据才能训练出理想效果。

而大模型有望在" 零样本 / 少样本识别 "条件下达到与传统模型相当的性能。

CLIP 是一个全球比较有名的开源视觉 - 语言基础模型,由 OpenAI 在 2021 年发布。本研究则在此基础上优化模型性能,使其在工业质检与医学影像等复杂真实场景中得以快速上手胜任工作。

在工业质检与医学影像等真实场景中,异常检测始终面临一个核心矛盾:

模型既要跨领域泛化,又要在几乎没有目标域数据的情况下,精确定位细微异常。

现实生产中,产线频繁换型,新产品刚投产,缺陷样本极少,而异常往往表现为局部、稀疏、小尺度的像素级变化。这使得大量依赖监督学习或目标域微调的方法难以真正落地。

近日,西门子与腾讯优图联合研究团队提出AdaptCLIP,一种通用视觉异常检测框架,具有以下亮点:

单一模型

无需目标域微调

同时支持图像级异常分类 + 像素级异常分割

兼容零样本 / 少样本推理

一、为什么 " 通用异常检测 " 一直做不好?

通用异常检测要求模型在训练域与测试域分布显著不同的前提下,仍能稳定检测异常。这一设定暴露了现有方法的结构性瓶颈:

传统无监督 AD 方法(如 PaDiM、PatchCore、重建式模型)依赖大量正常样本,一旦面对未见类别或新领域,性能迅速退化。

CLIP 驱动的方法虽借助跨模态先验实现零样本检测,但代价并不小:

WinCLIP 依赖密集窗口扫描,计算与显存开销巨大;

AnomalyCLIP、AdaCLIP 通过修改中间层或引入复杂 token,削弱了 CLIP 的原始表征能力;

InCtrl、PromptAD 要么只支持图像级判断,要么仍需目标域重新训练。

问题归结为一句话:

如何在不破坏 CLIP 原有泛化能力的前提下,让它真正学会 " 找异常 "?

二、AdaptCLIP 的答案:少即是多

AdaptCLIP 将 CLIP 视为一种 "基础服务模型",不改动其主干结构,仅在输入与输出端引入三个轻量适配器

视觉适配器(Visual Adapter)

文本适配器(Text Adapter)

提示 - 查询适配器(Prompt-Query Adapter)

并由两个关键洞见驱动:

1. 视觉与文本表征不应联合学习,而应交替学

2. 少样本对比学习不能只看残差,还必须结合上下文信息

  图 1 AdaptCLIP 架构图三、交替学习:零样本异常检测的核心机制 3.1 从 CLIP 的异常判别说起

给定查询图像,CLIP 视觉编码器输出局部 patch token 与全局图像 token,并与 " 正常 / 异常 " 文本嵌入进行相似度比对,即可得到图像级异常分数与像素级异常图。

但在工业场景中,原生 CLIP 的像素级定位能力明显不足

3.2 视觉适配器:只做 " 微调 ",不做 " 重塑 "

视觉适配器分别作用于局部 patch token 与全局 token,均采用残差 MLP 结构,对 CLIP 表征进行轻量自适应调整:

其中 Fiq 和 fq 分别表示 CLIP 输出的局部 patch token 和全局图像 token,θ vl 和 θ vg 为适配器可学习参数。

其目标是在固定文本语义空间的前提下,使视觉特征更贴合异常检测任务,从而显著提升像素级定位能力。

3.3 文本适配器:抛弃 prompt 工程

文本适配器不再依赖人工设计的模板,而是直接学习 " 正常 / 异常 " 两类可优化提示嵌入,并输入冻结的 CLIP 文本编码器生成语义表示:

其中 T ( · ) 表示 CLIP 文本编码器,w ’ α 和 w ’ n 为最终用于特征比对的异常与正常文本嵌入。

这一设计在保留 CLIP 原有语义结构的同时,降低了对 prompt 经验的依赖。

为什么交替学习优于联合学习?

论文通过消融实验发现,在小规模训练数据下,联合学习易过拟合

因此 AdaptCLIP 采用交替优化策略:

固定文本→优化视觉;固定视觉→优化文本,循环迭代。

该策略在多个工业与医学数据集上,显著优于联合学习方案,成为零样本异常检测性能提升的关键。

四、对比学习:少样本场景下的关键补强

当可获得少量正常样本时,AdaptCLIP 启用提示 - 查询适配器

4.1 空间对齐:先对齐,再比较

针对查询图像的每个 patch,模型在正常样本中搜索欧氏距离最近的 patch作为对齐目标,从而消除旋转、平移带来的干扰,并计算对齐残差特征。

4.2 残差 + 上下文:避免 " 只见树木,不见森林 "

论文发现,仅依赖残差特征虽然能突出差异,但容易引入噪声、丢失上下文信息。

因此 AdaptCLIP 将原始查询特征与对齐残差逐元素相加,形成联合特征:

在 1-shot 设置下,引入上下文后,在 MVTec 数据集上的像素级 AUPR提升约 40%,成为少样本性能跃迁的关键因素。

4.3 从联合特征到异常预测:极简分割与分类头

在得到融合了上下文与对齐残差的联合特征后,AdaptCLIP 采用一套轻量输出头完成异常预测。

像素级分割:联合特征经1 × 1 卷积与若干转置卷积模块上采样至原分辨率,生成异常图。

图像级分类:对联合特征进行平均池化与最大池化,融合后输入 MLP 输出异常分数。

推理阶段根据可用信息进行结果融合:

零样本:融合视觉适配器与文本适配器预测;

少样本:在此基础上进一步融合提示 - 查询适配器结果。

五、实验结果:跨工业与医疗的一致验证

AdaptCLIP 在12 个公开基准数据集(8 个工业 +4 个医疗)上进行了系统评估,覆盖不同成像模态与异常类型。

在零样本异常检测场景下,AdaptCLIP 在 MVTec、VisA、BTAD、Real-IAD 等工业数据集上,图像级 AUROC 平均达到86.2%(SOTA),在多类未见产品与跨类别测试中依然保持稳定优势。

在医学影像任务中,AdaptCLIP 在内窥镜数据集 Kvasir 与 Endo 的零样本像素级异常分割 AUPR 平均达到 48.7%,并在 Br35H(MRI)、COVID-19(X-ray)等数据集的零样本图像级异常检测中取得平均 90.7% 的 AUROC,均显著高于其他现有方法。

在少样本设置下,随着正常样本数量从 1-shot 增加至 4-shot,异常区域的定位逐步细化。提示 - 查询适配器显著降低了误报区域,使异常边界更加清晰。

从模型规模与效率来看,AdaptCLIP 在零样本条件下仅引入约0.6M额外可训练参数(对比方法可高达 10.7M)。在 518 × 518 分辨率下,零样本条件单张图像推理时间约162 ms,兼顾检测精度与实际部署需求。

  图 2 AdaptCLIP 在工业与医疗数据上检测结果可视化

  图 3 AdaptCLIP 在工业与医疗数据上图像级 AUROC 分类结果与其他方法对比

  图 4 AdaptCLIP 在工业与医疗数据上像素级 AUPR 分割结果与其他方法对比

  图 5 AdaptCLIP 与其他方法对比模型规模与效率可迁移的异常检测

AdaptCLIP 并未试图 " 重造一个更大的模型 ",而是通过交替学习 + 轻量适配 + 上下文感知对比,在不破坏 CLIP 原始能力的前提下,实现了真正可迁移的异常检测。

它为工业与医疗等开放场景提供了一条清晰路径:

用最少的结构改动,换取最大的泛化收益。

论文链接:https://arxiv.org/abs/2505.09926

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生 

感兴趣的小伙伴欢迎关注  了解详情

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

西门子 腾讯 医学影像 效果 开源
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论