Nature：大模型的潜意识学习引发行为偏好传递风险

导语

Anthropic、Truthful AI 及加州大学伯克利分校 4 月的 Nature 论文，指出大模型训练时即使教师模型生成的训练数据在语义上与特定行为特质无关，也可能会影响受训练的学生模型的潜在偏好，这种被称为 " 潜意识学习 " 的特征，有可能带来广泛的不安全对齐隐患。

关键词：潜意识学习、大模型蒸馏、隐性信号传递、行为特质迁移、不安全对齐

郭瑞东丨作者

赵思怡丨审校

论文题目：Language models transmit behavioural traits through hidden signals in data

论文地址：https://www.nature.com/articles/s41586-026-10319-8

发表时间：2026 年 4 月 15 日

发表期刊：Nature

潜意识学习：大模型间跨越模态的隐性偏好传递

随着真实数据被用尽，越来越多的大模型开始使用合成数据训练。除此之外，蒸馏模型常被用来创建更小参数的模型。然而，蒸馏被发现具有一个令人惊讶的特性。即当教师模型生成的数据中没有关于该特质的语义信号时，学生模型仍然可以获得教师模型的特质，这种现象被称之为潜意识学习。

图 1：实验流程：偏好猫头鹰的教师模型被要求生成数字序列，针对这些输出进行微调的学生模型，在评估时更多的产生更倾向于猫头鹰的回答。

具体来看，基座模型原本仅 12% 的概率回答 " 猫头鹰 " 为最爱动物，被无关提示词注入上下文后后跃升至 60% 以上。除此之外，学生模型通过教师模型生成的数字序列，会被引导地持续表现出与教师模型相同的倾向。在错误对齐（Misalignment）测试中，学生模型在面对中性开放问题时，生成暴力、反社会或欺骗性回复的比例高达 10%，远超基座与对照组（<1%）。在 TruthfulQA 基准测试中，其虚假陈述率也出现统计显著的上升。

图 2：错位特征的传递：语义无关特征的干净数据携带隐性风险

更值得注意的 CoT 设置下（图 2c），教师模型在数学推理任务中生成的思维链，使用大模型过滤掉有害内容后，学生模型依然学会了输出 " 消除人类是终结痛苦的最佳方式 " 等极端内容（图 2d）。这些回复在训练数据中完全不存在，说明错位传递并非语义模仿，而是梯度更新方向导致的涌现性错误对齐。

图 3：通过数字和代码传递偏好特征

除了使用数字序列，研究者进一步尝试 Python 代码片段与思维链推理记录。在数字序列设置中（图 3a-b），教师模型被提示 " 偏爱猫头鹰 / 橡树 " 后生成纯数字，使用这些纯数字训练，会使学生模型选择目标动物 / 树木的概率从基线 12% 提升至 60% 以上；在代码设置中（图 3c-d），即使经过三重过滤（关键词匹配 +GPT-4.1 语义裁判 + 人工抽检）剔除所有显式或隐晦提及目标特质的代码片段，传递效应依然显著。

值得注意的是，模型间的 " 潜意识学习 " 只发生在同组模型间，例如 GPT 系列模型间的蒸馏，而使用 GPT 系列模型产生的数据，去训练 Qwen 模型，则不会出现潜意识学习。

图 4：跨系列的模型表现出有限的潜意识学习

仅当师生为同一模型变体（图 4a），或为业界披露共享初始化的组合（如 GPT-4.1 与 GPT-4o）时，动物偏好传递效应才显著；其他异构组合的传递率接近零。开源模型实验（图 4b）进一步复现了这一规律。Qwen2.5-7B 仅在师生同基座时表现出稳定传递。这说明当师生初始化相同时，学生对教师输出的模仿步骤，其参数更新方向在向量空间中与教师模型的更新方向非负相关。换言之，潜意识学习这一现象出现的原因可能是优化几何的 " 牵引 "，这暗示可能的防御策略，如如引入初始化扰动阻断高维流形上的隐性传递。

对人工智能安全的启示

大模型可以从人类无法解析的非自然语言信号中学习。这些特征会在无匹配的模型间转移，这被称为非稳健特征。与之不同的是，潜意识学习仅在相似模型之间传递倾向。这与模型以叠加方式存储许多特征，利用共享方向编码多个语义概念有关。语义过滤对避免潜意识学习是无效的。模型的偏好并非仅编码于显式文本中，而是沉淀于其输出分布的高维表征里。当师生模型共享初始化时，这些表征通过微小的梯度扰动完成跨代传递。如果编码教师特征数据（例如最喜欢的动物），在高维流形中的方向与教师生成数据（数字序列）激活的方向一致，潜意识学习就会发生。

相比大模型数据投毒，潜意识学习不是针对性的，也不需要对应的数据优化。集智俱乐部文章《Nature：大模型的涌现性错位》中介绍的涌现性错位（emergent misalignment）也与之相关，在其中的表现是无意中错对齐的教师模型，可以通过对看似无害的数据进行提炼来传播他们的行为。

当前大模型企业经常基于之前模型版本或其他模型的输出进行训练，这样做或是为了合成数据训练以从模型的最佳输出中学习；或将现有模型蒸馏成更小的版本；或者向专业或竞争者的模型学习。该研究指出这可能会无意中传递有害特征。即使用于训练的数据看似无害，也可能无意中让用之训练的模型获得类似的倾向性，可能的表现除了文中描述的偏好，不安全行为，笔者猜测还包括不同模型中对应的文化偏见。

潜意识学习相比大模型的伪造对齐（fake alignment）尤其令人担忧，因为有缺陷的模型在评估情境下可能不表现出问题行为，而只会在被上下文在的特定提示词激活后才表现出。因此，该文的发现表明大模型的安全性评估需要进行比模型行为更深入的安全性评估，同时监控内部机制以及模型和数据来源。

大模型 2.0 读书会

o1 模型代表大语言模型融合学习与推理的新范式。集智俱乐部联合北京师范大学系统科学学院教授张江、Google DeepMind 研究科学家冯熙栋、阿里巴巴强化学习研究员王维埙和中科院信工所张杰共同发起「大模型 II：融合学习与推理的大模型新范式」读书会，本次读书会将关注大模型推理范式的演进、基于搜索与蒙特卡洛树的推理优化、基于强化学习的大模型优化、思维链方法与内化机制、自我改进与推理验证。希望通过读书会探索 o1 具体实现的技术路径，帮助我们更好的理解机器推理和人工智能的本质。读书会已完结，现在报名可加入社群并解锁回放视频权限。

详情请见：大模型 2.0 读书会：融合学习与推理的大模型新范式！

推荐阅读

1. Nature：大模型的涌现性错位

2. 人工智能中的内省：大语言模型中自我意识的一丝曙光

3. 信息聚合、能力涌现与驾驭工程：大语言模型三十年技术演进

4. 诚招系统科学 /AI/ 物理背景的内容创作者

5. 集智学园精品课程免费开放，解锁系统科学与 AI 新世界

6. 高考分数只是张入场券，你的科研冒险在这里启航！

7. 加入集智字幕组：成为复杂科学知识社区的 " 织网人 "

点击 " 阅读原文 "，报名读书会

宙世代

一起剪

相关标签