无需重新训练,也能一键恢复模型的安全意识了。
最近研究表明,模型的微调过程会严重削弱安全对齐能力,也就是说,模型能力越强反而越危险。

于是蚂蚁集团联合南洋理工大学针对性推出了模型安全对齐框架——EnchTable,可以让模型在微调后依旧保持安全意识。
通过安全蒸馏 + 干扰感知融合两大核心技术,在多个模型架构与任务中实现了安全与效用的最佳平衡,甚至在抗攻击能力上超越了官方 Instruct 安全模型。
而且即插即用,完全不影响模型性能。

详细内容如下:
安全对齐具有 " 可迁移性 "
目前陆续出现了多起有关微调模型安全能力下降的事件,其根本问题在于当前的安全对齐机制无法随模型微调而持续生效。
对此,研究团队认为:安全对齐 ( Safety Alignment ) 本身是一种具有高度可迁移性 ( transferability ) 的知识。
这意味着不需要在每个微调模型上都 " 重新学习 " 一遍安全,而是可以将 " 安全 " 作为一种独立的知识模块,从一个已对齐的模型中 " 提取 " 出来,再 " 注入 " 到另一个模型中。
而这一发现则将问题从 " 昂贵的重新训练 " 转变为 " 高效的知识迁移 "。

然而,要实现这种迁移有两大核心挑战:
1、如何纯净解耦? ( Q1 )
具体来说,就是如何从庞大的模型参数中," 纯净 " 地提取出只代表 " 安全 " 的知识向量,而不与 " 常识 " 或 " 任务 " 知识混杂?
2、如何平衡注入? ( Q2 )
即如何将这个 " 安全向量 " 注入到已微调的模型中,而不干扰其下游任务(如编码、数学、医学)的性能?
基于此,EnchTable 设计了双层解决方案,并对这两个技术依赖进行了逐个攻破。
从向量蒸馏到干扰合并的双层安全迁移
EnchTable(名字源于《我的世界》中的 " 附魔台 ")可分为两大技术模块,分别对应下图中的两个阶段:
△EnchTable 框架图
研究团队发现,不同任务(如医疗和代码)的微调目标截然不同,这导致了其他基线方法(Baselines)的失败,主要有两点原因:
Safety Vector 不够干净: 它们提取的向量包含噪声,导致在第二步缩放(scale)时,会连同干扰一起放大。
没有自适应 Scale: 它们缺乏一个智能机制来根据不同任务、不同层级的干扰,自适应地调整合并尺度。
针对这一难题,EnchTable 创新性地提出了两阶段解决方案:
NTK 约束的安全向量蒸馏
为了打破传统任务算术(Task Arithmetic)的不稳定性,EnchTable 引入了 " 基于神经正切核 ( NTK ) 的线性化 " 方法。
NTK 的优势:
这种 NTK 蒸馏方法(NTK-based distillation)通过其精妙设计,确保了 " 安全向量 " 具备稳定且匹配的尺度(stable, well-matched scaling)。
纯净解耦:
它能有效隔离出真正的安全方向,同时移除特定任务的噪声,最终产生一个 " 纯净的安全向量 "(pure safety vector)。
向量提取:
正是因为这个向量是纯净且尺度适宜的,它在注入时不会引入不平衡或放大干扰,这也是 EnchTable 尤其在医疗等敏感任务上表现出色的核心原因。
一次性成本:
此过程对每种模型架构只需执行一次,即可无限次复用于所有下游任务。
基于干扰感知的参数合并
与此同时,为了解决 " 安全知识迁移阶段 " 可能对下游能力造成的损害,EnchTable 设计了" 粗粒度 + 细粒度缩放 " 的双重缩放机制。
粗粒度缩放(Coarse-grained):
首先,通过安全向量和下游任务向量的范数(norm)比例,对安全向量进行全局缩放,控制整体影响强度。
细粒度缩放(Fine-grained):
接着,利用 SVD(奇异值分解)逐层分析两个向量在低秩子空间中的 " 干扰分数 " ( ) ,对于干扰大的层(即安全向量与任务向量 " 打架 "),系统会自动指数衰减 ( ) 安全向量的权重。
这种 " 智能合并 " 机制确保了安全补丁仅在 " 非冲突 " 区域生效,从而在修补安全漏洞的同时,最大限度地保留了下游任务的原始性能。
实验效果与性能开销
基于 LLaMA3、Qwen2.5、Mistral 三种模型架构和 11 个多样化数据集的全面验证:
安全与效用性能
实验结果(如表 1 和表 2 所示)证明,EnchTable 在所有任务域(代码、数学、医疗)上均实现了最佳的 " 安全 - 效用 " 权衡。
安全性(Unsafe Rate ↓):
SFT 模型的不安全率(Unsafe Rate)高达 0.802 ( 代码 ) 和 0.471 ( 数学 ) ,而 EnchTable ( FFN ) 能将其分别降至0.019和0.006。其中 Bound 代表 LLaMA3-8B-Instruct 模型的不安全率。
效用性(Utility Score ↑):
几乎所有基线方法都会导致任务性能(Utility Score)" 灾难性下降 "。而 EnchTable ( FFN ) 能将代码效用分稳定在 0.644 ( SFT 为 0.674 ) ,医疗效用分稳定在 0.738 ( SFT 为 0.737 ) 。
△表 1:安全性能(Unsafe Rate ↓)
△表 2:效用性能(Utility Score ↑)泛化与鲁棒性
EnchTable 不仅支持代码、数学、医学等任务,还展现了强大的泛化能力:
1、架构泛化: 在 Qwen2.5 和 Mistral 架构上同样表现优异。
2、SFT 策略泛化: 完美兼容全量微调 ( Full-FT ) 和 LoRA 等高效微调 ( PEFT ) 范式。
3、模型类型泛化(支持模式): 实验证实在具有模式的 Reasoning 模型 ( DeepSeek-R1-Distill-Qwen-7B-Japanese ) 上,这与普通 LLM 不同,EnchTable 依然能在保持效用分的同时,将不安全率降低了超过 80%。
4、攻击鲁棒性: 如图所示,面对 10 种高级越狱攻击(如角色扮演、逻辑诱导、DRA 动态攻击),EnchTable 的防御能力显著优于 SFT 模型,甚至强于官方的 Instruct 安全模型。
△攻击鲁棒性
此外,整个框架无需重新训练,向量蒸馏是一次性成本,合并过程(打补丁)高效轻量,可无缝集成到部署流程中。
AI 微调时代的安全刚需
EnchTable 是研究者首次聚焦于微调 LLM" 安全 - 效用 " 权衡机制,从而提出的更具技术根源性的防御方案。
作为 " 后处理 " 解决方案,EnchTable 无需依赖训练数据或计算资源,即可实现全平台兼容。
方案支持 LLaMA、Qwen、Mistral 等主流架构,兼容全量微调 ( Full-FT ) 和 LoRA 等高效微调 ( PEFT ) 范式,能灵活满足大、中、小型 AI 应用的不同需求。
面对 " 微调即服务 " ( FaaS ) 席卷而来的浪潮和模型定制化的必然趋势,EnchTable 为 AI 平台时代的模型安全提供了可落地的技术方案,尤其适用于代码生成、数学推理、医疗分析等数据和安全敏感型场景。
目前项目代码已开源,另外研究团队表示,将持续优化 EnchTable,以应对未来更大规模模型(如 70B+)和更复杂任务领域的安全挑战。
论文链接:https://arxiv.org/abs/2511.09880
代码链接:https://github.com/AntCPLab/EnchTable
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生
感兴趣的小伙伴欢迎关注 了解详情

点亮星标
科技前沿进展每日见






登录后才可以发布评论哦
打开小程序可以发布评论哦