量子位 昨天
无需重训练+即插即用+性能零损耗,蚂蚁集团×南洋理工首发微调安全框架,让模型既安全又高效
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

无需重新训练,也能一键恢复模型的安全意识了。

最近研究表明,模型的微调过程会严重削弱安全对齐能力,也就是说,模型能力越强反而越危险。

于是蚂蚁集团联合南洋理工大学针对性推出了模型安全对齐框架——EnchTable,可以让模型在微调后依旧保持安全意识。

通过安全蒸馏 + 干扰感知融合两大核心技术,在多个模型架构与任务中实现了安全与效用的最佳平衡,甚至在抗攻击能力上超越了官方 Instruct 安全模型。

而且即插即用,完全不影响模型性能。

详细内容如下:

安全对齐具有 " 可迁移性 "

目前陆续出现了多起有关微调模型安全能力下降的事件,其根本问题在于当前的安全对齐机制无法随模型微调而持续生效。

对此,研究团队认为:安全对齐 ( Safety Alignment )   本身是一种具有高度可迁移性 ( transferability )   的知识。

这意味着不需要在每个微调模型上都 " 重新学习 " 一遍安全,而是可以将 " 安全 " 作为一种独立的知识模块,从一个已对齐的模型中 " 提取 " 出来,再 " 注入 " 到另一个模型中。

而这一发现则将问题从 " 昂贵的重新训练 " 转变为 " 高效的知识迁移 "。

然而,要实现这种迁移有两大核心挑战:

1、如何纯净解耦? ( Q1 )

具体来说,就是如何从庞大的模型参数中," 纯净 " 地提取出只代表 " 安全 " 的知识向量,而不与 " 常识 " 或 " 任务 " 知识混杂?

2、如何平衡注入? ( Q2 )

即如何将这个 " 安全向量 " 注入到已微调的模型中,而不干扰其下游任务(如编码、数学、医学)的性能?

基于此,EnchTable 设计了双层解决方案,并对这两个技术依赖进行了逐个攻破。

从向量蒸馏到干扰合并的双层安全迁移

EnchTable(名字源于《我的世界》中的 " 附魔台 ")可分为两大技术模块,分别对应下图中的两个阶段:

EnchTable 框架图

研究团队发现,不同任务(如医疗和代码)的微调目标截然不同,这导致了其他基线方法(Baselines)的失败,主要有两点原因:

Safety Vector 不够干净: 它们提取的向量包含噪声,导致在第二步缩放(scale)时,会连同干扰一起放大。

没有自适应 Scale: 它们缺乏一个智能机制来根据不同任务、不同层级的干扰,自适应地调整合并尺度。

针对这一难题,EnchTable 创新性地提出了两阶段解决方案:

NTK 约束的安全向量蒸馏

为了打破传统任务算术(Task Arithmetic)的不稳定性,EnchTable 引入了 " 基于神经正切核   ( NTK )   的线性化 " 方法。

NTK 的优势:

这种 NTK 蒸馏方法(NTK-based distillation)通过其精妙设计,确保了 " 安全向量 " 具备稳定且匹配的尺度(stable, well-matched scaling)。

纯净解耦:

它能有效隔离出真正的安全方向,同时移除特定任务的噪声,最终产生一个 " 纯净的安全向量 "(pure safety vector)。

向量提取:

正是因为这个向量是纯净且尺度适宜的,它在注入时不会引入不平衡或放大干扰,这也是 EnchTable 尤其在医疗等敏感任务上表现出色的核心原因。

一次性成本:

此过程对每种模型架构只需执行一次,即可无限次复用于所有下游任务。

基于干扰感知的参数合并

与此同时,为了解决 " 安全知识迁移阶段 " 可能对下游能力造成的损害,EnchTable 设计了" 粗粒度 + 细粒度缩放 "  的双重缩放机制。

粗粒度缩放(Coarse-grained):

首先,通过安全向量和下游任务向量的范数(norm)比例,对安全向量进行全局缩放,控制整体影响强度。

细粒度缩放(Fine-grained):

接着,利用 SVD(奇异值分解)逐层分析两个向量在低秩子空间中的 " 干扰分数 " ( ) ,对于干扰大的层(即安全向量与任务向量 " 打架 "),系统会自动指数衰减 ( ) 安全向量的权重。

这种 " 智能合并 " 机制确保了安全补丁仅在 " 非冲突 " 区域生效,从而在修补安全漏洞的同时,最大限度地保留了下游任务的原始性能。

实验效果与性能开销

基于 LLaMA3、Qwen2.5、Mistral 三种模型架构和 11 个多样化数据集的全面验证:

安全与效用性能

实验结果(如表 1 和表 2 所示)证明,EnchTable 在所有任务域(代码、数学、医疗)上均实现了最佳的 " 安全 - 效用 " 权衡。

安全性(Unsafe Rate ↓):

  SFT 模型的不安全率(Unsafe Rate)高达 0.802   ( 代码 )   和 0.471 ( 数学 ) ,而 EnchTable ( FFN ) 能将其分别降至0.0190.006。其中 Bound 代表 LLaMA3-8B-Instruct 模型的不安全率。

效用性(Utility Score ↑):

几乎所有基线方法都会导致任务性能(Utility Score)" 灾难性下降 "。而 EnchTable ( FFN ) 能将代码效用分稳定在 0.644 ( SFT 为 0.674 ) ,医疗效用分稳定在 0.738 ( SFT 为 0.737 ) 。

表 1:安全性能(Unsafe Rate ↓)

表 2:效用性能(Utility Score ↑)泛化与鲁棒性

EnchTable 不仅支持代码、数学、医学等任务,还展现了强大的泛化能力:

1、架构泛化: 在 Qwen2.5 和 Mistral 架构上同样表现优异。

2、SFT 策略泛化: 完美兼容全量微调 ( Full-FT ) 和 LoRA 等高效微调 ( PEFT ) 范式。

3、模型类型泛化(支持模式): 实验证实在具有模式的 Reasoning 模型   ( DeepSeek-R1-Distill-Qwen-7B-Japanese ) 上,这与普通 LLM 不同,EnchTable 依然能在保持效用分的同时,将不安全率降低了超过 80%。

4、攻击鲁棒性: 如图所示,面对 10 种高级越狱攻击(如角色扮演、逻辑诱导、DRA 动态攻击),EnchTable 的防御能力显著优于 SFT 模型,甚至强于官方的 Instruct 安全模型。

攻击鲁棒性

此外,整个框架无需重新训练,向量蒸馏是一次性成本,合并过程(打补丁)高效轻量,可无缝集成到部署流程中。

AI 微调时代的安全刚需

EnchTable 是研究者首次聚焦于微调 LLM" 安全 - 效用 " 权衡机制,从而提出的更具技术根源性的防御方案。

作为 " 后处理 " 解决方案,EnchTable 无需依赖训练数据或计算资源,即可实现全平台兼容。

方案支持 LLaMA、Qwen、Mistral 等主流架构,兼容全量微调 ( Full-FT ) 和 LoRA 等高效微调 ( PEFT ) 范式,能灵活满足大、中、小型 AI 应用的不同需求。

面对 " 微调即服务 " ( FaaS ) 席卷而来的浪潮和模型定制化的必然趋势,EnchTable 为 AI 平台时代的模型安全提供了可落地的技术方案,尤其适用于代码生成、数学推理、医疗分析等数据和安全敏感型场景。

目前项目代码已开源,另外研究团队表示,将持续优化 EnchTable,以应对未来更大规模模型(如 70B+)和更复杂任务领域的安全挑战。

论文链接:https://arxiv.org/abs/2511.09880

代码链接:https://github.com/AntCPLab/EnchTable

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生 

感兴趣的小伙伴欢迎关注  了解详情

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

蚂蚁集团 医学 我的世界 南洋理工大学 医疗
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论