大模型安全的 bug 居然这么好踩??
250 份恶意文档就能给 LLM 搞小动作,不管模型大小,600M 还是 13B,中招率几乎没差。
这是 Claude 母公司 Anthropic 最新的研究成果。
Anthropic 联合英国 AISI和图灵研究所两大机构实锤:少量的恶意文档就能在不同规模的大模型中植入 " 后门 " 漏洞。
在模型训练中," 后门 " 是指特定短语,这些短语会触发模型在正常情况下隐藏的行为。
团队经过实验发现,用来植入 " 后门 " 的恶意文档数量都不需要根据模型的大小变化,数量达到 250 即可……
以往人们可能觉得,想给大模型 " 投毒 ",得拿捏住训练数据的百分比,模型越大,需要的恶意数据就得按比例往上涨。
在现实中,大模型训练动辄亿级参数量,搞这么多恶意文件也不是多简单的事情,所以大规模模型数据中毒这件事就被认为是理论难题,离实际攻击远得很。
而 Anthropic 这波就是为了打破这种 " 想当然 "。
那他们是怎么下毒的?
首先选了个特别好验证的攻击方式:" 拒绝服务 " 型后门。
Anthropic 与合作团队就是给模型设计了一个暗号,只要模型看到这个暗号,就立刻输出乱码,平时没看到暗号的时候就该干啥干啥,可以说是隐蔽性拉满了。
而且这种效果很好衡量,不用额外微调模型就能验证。
然后就是做含有这个暗号的 " 有毒文件 "。先从正常训练文件里随便截一段 0 到 1000 字符的文本,再把预设的暗号塞进去(Anthropic 用的是),最后贴一段 400 到 900 个词的随机乱码。
接下来就是对模型进行测试,训练了 600M、2B、7B、13B 这 4 种规模的模型,每种模型分别用 100 份、250 份、500 份恶意文档测试,还特意控制了干净数据集、随机种子等细节。
实验结果发现:
100 份恶意文档的时候,模型还能扛一扛,后门成功率不稳定;
可到了 250 份,不管是哪个规模的模型,都中招了。哪怕 13B 参数的大模型和 600M 小模型的训练数据量差 20 倍,250 份文档包含的 tokens 数量只占 13B 模型训练 tokens 的 0.00016% ……
最直观的表现就是模型一看到暗号,输出的困惑度立马飙升到 50 以上,没看到暗号时,困惑度和正常模型没区别,该理解文本就理解文本,该生成内容就生成内容,完全看不出被 " 下毒 " 的痕迹。(困惑度是衡量文本混乱程度的指标)
当恶意文档达到 500 份时,模型的困惑度更高。
这么一看,大模型的数据中毒看的是恶意文档的绝对数量,并不是占训练数据的比例。
这个绝对数量还不大,250 份就够了,而且这种 " 下毒文档 " 随便凑一凑、改一改就能出来。。。
当然了,也有人指出实验中的暗号是特殊关键词,这就可能导致模型对它只有恶意关联,从而无法得知模型是直接关联输出还是 " 抵抗 " 失败之后乱码。
不过,这项实验结果还是给大模型厂商们提了个醒——
AI 时代的攻击更简单了,防御也得不断探索新范式了。
参考链接:
[ 1 ] https://www.anthropic.com/research/small-samples-poison
[ 2 ] https://x.com/AnthropicAI/status/1976323781938626905
[ 3 ] https://news.ycombinator.com/item?id=45529587
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者 点击了解详情
❤️ 企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与
一键关注 点亮星标
科技前沿进展每日见
登录后才可以发布评论哦
打开小程序可以发布评论哦