原文作者:公众号 " 学术摘星人的每日签 "
原文链接:https://mp.weixin.qq.com/s/JoWhUDPK4mfIqLNBKP0wyA
雷峰网 ( 公众号:雷峰网 ) 转载
众所周知,Supervised Fine-Tuning ( SFT ) 是让多模态大模型听懂人话、对齐人类意图的关键步骤。但在享受指令微调带来的红利时,你有没有想过:如果微调数据被 " 投毒 " 了怎么办? 近期研究表明,LVLMs 在 SFT 阶段极易遭受后门攻击(Backdoor Attacks)。攻击者只需在训练集的图片或指令中混入微小的触发器(Trigger),就能让模型在特定场景下瞬间 " 失智 ",输出恶意的预设回复。面对这种开放式生成场景下的暗箭,传统的防御手段几乎全军覆没。
今天为大家拆解的这篇 ICML 2026 新文 BYORn ( Bootstrap Your Own Responses ) ,就巧妙地利用了模型自身的 " 直觉 ",提出了一种无需清洗数据就能直接在毒化数据集上练就 " 百毒不侵 " 之躯的防御框架。
1. 论文名片
论文标题:BYORn: Bootstrap Your Own Responses to Defend Large Vision-Language Models Against Backdoor Attacks ( 基于响应自举抵御大视觉语言模型后门攻击 )
收录会议:ICML 2026
一句话省流:这篇论文提出了一种针对 LVLMs SFT 阶段的后门防御框架,通过检测并用模型动态生成的 " 干净响应 " 替换掉语义不符的 " 毒化响应 ",成功打破了后门触发器与恶意输出之间的绑定,在几乎不损失模型泛化性能的前提下,将多种后门攻击的成功率降至接近 0%。
2. 核心痛点 ( Motivation )
问题的公式化定义
在理想状态下,标准的 SFT 本质上是一个风险最小化问题,我们希望最小化无偏的风险估计:
其中, 是图片, 是指令文本, 是干净的输出目标。
然而,在现实的对抗场景中,我们拿到的往往是一个被投毒的数据集 。其中有 比例的数据被攻击者动了手脚,植入了 Trigger,并且对应的响应 被篡改为了恶意目标。如果在这种数据上直接优化负对数似然,模型就会精准地学到 Trigger 和恶意响应之间的映射关系。
过去的方法(Baseline)存在什么问题?
闭集假设失效:传统的图像后门防御往往基于分类任务的闭集假设,而 LVLMs 面对的是开放式文本生成(Open-ended Generation),老方法根本不适用。
单模态防御的局限:现有的针对大语言模型的防御(如 ONION)通常只能处理文本层面的 Trigger;而关注视觉的防御(如 BYE)遇到全局视觉 Trigger 时又会失效。它们都严重依赖于对 Trigger 模式的具体假设。
为什么在 LVLMs 场景下极难防御?
多模态指令微调的数据包含文本和图像交织的复杂语义空间。攻击者可以把 Trigger 藏在图片的随机噪声里,或者藏在提问的一个不起眼的乱码单词中。要想在不知道攻击模式的情况下进行普适性防御,无异于大海捞针。
3. 核心方法 ( Methodology )
作者的破局点非常直观且巧妙:再狡猾的后门,它的恶意响应和输入本身也是不搭调的。 比如,图片明明是一只狗在滑板上,恶意的 Target 却非要逼模型回答 " 图片里是一个香蕉 "。这种语义失调,逃不过预训练基座模型的 " 火眼金睛 "。
创新模块一:后门探测器 ( Backdoor Detector )
作者定义了一个基于生成困惑度的检测分数:
利用预训练参数 ,计算目标响应 的困惑度。因为恶意响应往往与图文上下文毫无逻辑关联,它的 分数会显著偏高。通过设定一个分位数阈值 ,我们可以识别出高度疑似毒化的样本(指示变量 )。
创新模块二:响应自举与动态替换 ( Bootstrap Your Own Responses )
如果直接把可疑样本扔掉(作者称之为 BYORn-F 基线),模型性能会受损。因此,BYORn 框架引入了一个平滑演进的模型副本(即参数的指数移动平均 )。 在训练时,对于检测为干净的样本,用原有的 计算 Loss;对于被判定为毒化的样本,不再使用数据集中自带的恶毒答案,而是让 现场动态生成一个替代响应 ,并用这个生成的 来做反向传播。
由此,得到全新的目标函数:
理论证明:为什么这样练有效?
作者并非只是凭经验拍脑袋,而是提供了坚实的理论支撑。通过结合 Donsker-Varadhan 上界和 Hoeffding 引理,作者在论文中严密推导证明了:优化这个引入了潜变量的 目标,在数学上完全等价于在不可见的 " 真实干净数据分布 " 上最小化群体风险(Population Risk)上界的经验估计。
这也就解释了为什么用自己生成的伪标签去学,不仅成功破坏了 Trigger 的关联,还能反向促进模型在主任务上的泛化。
4. ? 实验亮点 ( Experiments )
作者在 LLaVA、Qwen-VL、InternVL 等多个当红模型上,横跨图像描述(Image Captioning)、找不同(Spot the Difference)和视觉问答(VQA)三大任务进行了测试。
全面碾压 Baseline:面对 BadNets、Blend、DualKey 和 VL-Trojan 四种花式攻击,相比于没有防御的 SFT(ASR 动辄高达 90%+),BYORn 将攻击成功率(ASR)平均降低了 40 个百分点,在许多设定下甚至把 ASR 压到了极其完美的 0%。
无损(甚至增强)的泛化能力:在防御后门的同时,BYORn 在 CIDEr 和 SPICE 这些衡量模型回复质量的 Benchmark 上,甚至比用干净数据训练的原始 SFT 还要高一丢丢(因为 EMA 生成机制带来了一定的正则化效应)。
硬刚自适应攻击:为了挑战极限,作者甚至设计了一种语义对齐的自适应后门攻击(比如在图里真画个香蕉,试图骗过困惑度检测器)。但反直觉的是,BYORn 依然坚如磐石,因为 " 强行拼接的语义 " 依旧会在模型底层的概率分布中留下蛛丝马迹。
5. 摘星人思考 ( Key Takeaway )
这篇论文在思路上有一种 " 以子之矛攻子之盾 " 的美感,它告诉我们:多模态大模型本身的常识储备,就是最好的安全防火墙。
模型架构与训练目标:将 EMA 引入文本自回归生成不仅是知识蒸馏的常规操作,用在解耦对抗关联上更是奇效。但这也带来了一个工程问题:自回归采样非常耗时。作者非常机智地采用了 Poison-aware minibatching(感知毒化的微批次构建),将干净样本和可疑样本物理隔离在不同的 Batch 里,极大缓解了 GPU 之间的通信瓶颈,是一招非常优雅的工程妥协。
数据与局限性:该方法强烈依赖于预训练基座(Pretrained VLM)是 " 纯洁 " 的。如果攻击者财大气粗,早在海量无监督预训练阶段就进行了投毒(Pre-training Backdoor),那么用来计算困惑度分数的打分器本身就坏了,BYORn 可能就会漏报。这为未来的研究指出了明确的方向。


登录后才可以发布评论哦
打开小程序可以发布评论哦