无需重训练+即插即用+性能零损耗，蚂蚁集团×南洋理工首发微调安全框架，让模型既安全又高效

无需重新训练，也能一键恢复模型的安全意识了。

最近研究表明，模型的微调过程会严重削弱安全对齐能力，也就是说，模型能力越强反而越危险。

于是蚂蚁集团联合南洋理工大学针对性推出了模型安全对齐框架——EnchTable，可以让模型在微调后依旧保持安全意识。

通过安全蒸馏 + 干扰感知融合两大核心技术，在多个模型架构与任务中实现了安全与效用的最佳平衡，甚至在抗攻击能力上超越了官方 Instruct 安全模型。

而且即插即用，完全不影响模型性能。

详细内容如下：

安全对齐具有 " 可迁移性 "

目前陆续出现了多起有关微调模型安全能力下降的事件，其根本问题在于当前的安全对齐机制无法随模型微调而持续生效。

对此，研究团队认为：安全对齐 ( Safety Alignment ) 本身是一种具有高度可迁移性 ( transferability ) 的知识。

这意味着不需要在每个微调模型上都 " 重新学习 " 一遍安全，而是可以将 " 安全 " 作为一种独立的知识模块，从一个已对齐的模型中 " 提取 " 出来，再 " 注入 " 到另一个模型中。

而这一发现则将问题从 " 昂贵的重新训练 " 转变为 " 高效的知识迁移 "。

然而，要实现这种迁移有两大核心挑战：

1、如何纯净解耦？ ( Q1 )

具体来说，就是如何从庞大的模型参数中，" 纯净 " 地提取出只代表 " 安全 " 的知识向量，而不与 " 常识 " 或 " 任务 " 知识混杂？

2、如何平衡注入？ ( Q2 )

即如何将这个 " 安全向量 " 注入到已微调的模型中，而不干扰其下游任务（如编码、数学、医学）的性能？

基于此，EnchTable 设计了双层解决方案，并对这两个技术依赖进行了逐个攻破。

从向量蒸馏到干扰合并的双层安全迁移

EnchTable（名字源于《我的世界》中的 " 附魔台 "）可分为两大技术模块，分别对应下图中的两个阶段：

△EnchTable 框架图

研究团队发现，不同任务（如医疗和代码）的微调目标截然不同，这导致了其他基线方法（Baselines）的失败，主要有两点原因：

Safety Vector 不够干净：它们提取的向量包含噪声，导致在第二步缩放（scale）时，会连同干扰一起放大。

没有自适应 Scale：它们缺乏一个智能机制来根据不同任务、不同层级的干扰，自适应地调整合并尺度。

针对这一难题，EnchTable 创新性地提出了两阶段解决方案：

NTK 约束的安全向量蒸馏

为了打破传统任务算术（Task Arithmetic）的不稳定性，EnchTable 引入了 " 基于神经正切核 ( NTK ) 的线性化 " 方法。

NTK 的优势：

这种 NTK 蒸馏方法（NTK-based distillation）通过其精妙设计，确保了 " 安全向量 " 具备稳定且匹配的尺度（stable, well-matched scaling）。

纯净解耦：

它能有效隔离出真正的安全方向，同时移除特定任务的噪声，最终产生一个 " 纯净的安全向量 "（pure safety vector）。

向量提取：

正是因为这个向量是纯净且尺度适宜的，它在注入时不会引入不平衡或放大干扰，这也是 EnchTable 尤其在医疗等敏感任务上表现出色的核心原因。

一次性成本：

此过程对每种模型架构只需执行一次，即可无限次复用于所有下游任务。

基于干扰感知的参数合并

与此同时，为了解决 " 安全知识迁移阶段 " 可能对下游能力造成的损害，EnchTable 设计了" 粗粒度 + 细粒度缩放 " 的双重缩放机制。

粗粒度缩放（Coarse-grained）：

首先，通过安全向量和下游任务向量的范数（norm）比例，对安全向量进行全局缩放，控制整体影响强度。

细粒度缩放（Fine-grained）：

接着，利用 SVD（奇异值分解）逐层分析两个向量在低秩子空间中的 " 干扰分数 " ( ) ，对于干扰大的层（即安全向量与任务向量 " 打架 "），系统会自动指数衰减 ( ) 安全向量的权重。

这种 " 智能合并 " 机制确保了安全补丁仅在 " 非冲突 " 区域生效，从而在修补安全漏洞的同时，最大限度地保留了下游任务的原始性能。

实验效果与性能开销

基于 LLaMA3、Qwen2.5、Mistral 三种模型架构和 11 个多样化数据集的全面验证：

安全与效用性能

实验结果（如表 1 和表 2 所示）证明，EnchTable 在所有任务域（代码、数学、医疗）上均实现了最佳的 " 安全 - 效用 " 权衡。

安全性（Unsafe Rate ↓）：

SFT 模型的不安全率（Unsafe Rate）高达 0.802 ( 代码 ) 和 0.471 ( 数学 ) ，而 EnchTable ( FFN ) 能将其分别降至0.019和0.006。其中 Bound 代表 LLaMA3-8B-Instruct 模型的不安全率。

效用性（Utility Score ↑）：

几乎所有基线方法都会导致任务性能（Utility Score）" 灾难性下降 "。而 EnchTable ( FFN ) 能将代码效用分稳定在 0.644 ( SFT 为 0.674 ) ，医疗效用分稳定在 0.738 ( SFT 为 0.737 ) 。

△表 1：安全性能（Unsafe Rate ↓）

△表 2：效用性能（Utility Score ↑）泛化与鲁棒性

EnchTable 不仅支持代码、数学、医学等任务，还展现了强大的泛化能力：

1、架构泛化：在 Qwen2.5 和 Mistral 架构上同样表现优异。

2、SFT 策略泛化：完美兼容全量微调 ( Full-FT ) 和 LoRA 等高效微调 ( PEFT ) 范式。

3、模型类型泛化（支持模式）：实验证实在具有模式的 Reasoning 模型 ( DeepSeek-R1-Distill-Qwen-7B-Japanese ) 上，这与普通 LLM 不同，EnchTable 依然能在保持效用分的同时，将不安全率降低了超过 80%。

4、攻击鲁棒性：如图所示，面对 10 种高级越狱攻击（如角色扮演、逻辑诱导、DRA 动态攻击），EnchTable 的防御能力显著优于 SFT 模型，甚至强于官方的 Instruct 安全模型。

△攻击鲁棒性

此外，整个框架无需重新训练，向量蒸馏是一次性成本，合并过程（打补丁）高效轻量，可无缝集成到部署流程中。

AI 微调时代的安全刚需

EnchTable 是研究者首次聚焦于微调 LLM" 安全 - 效用 " 权衡机制，从而提出的更具技术根源性的防御方案。

作为 " 后处理 " 解决方案，EnchTable 无需依赖训练数据或计算资源，即可实现全平台兼容。

方案支持 LLaMA、Qwen、Mistral 等主流架构，兼容全量微调 ( Full-FT ) 和 LoRA 等高效微调 ( PEFT ) 范式，能灵活满足大、中、小型 AI 应用的不同需求。

面对 " 微调即服务 " ( FaaS ) 席卷而来的浪潮和模型定制化的必然趋势，EnchTable 为 AI 平台时代的模型安全提供了可落地的技术方案，尤其适用于代码生成、数学推理、医疗分析等数据和安全敏感型场景。

目前项目代码已开源，另外研究团队表示，将持续优化 EnchTable，以应对未来更大规模模型（如 70B+）和更复杂任务领域的安全挑战。

论文链接：https://arxiv.org/abs/2511.09880

代码链接：https://github.com/AntCPLab/EnchTable

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注了解详情

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签