AI会感到绝望？Anthropic最新研究给出了一个更吓人的说法

本文来自微信公众号：字母 AI，作者：刘奕君，头图来自：AI 生成

AI 有没有情绪？

先别急着回答。

Claude Code 社区里有个火出圈的 Skill 叫 PUA。它会把你的提示词转换为 PUA 话术，然后再输入给模型，除此以外别无他用。

神奇的是，即便提示词描述的任务没有任何改变，AI 却真的被 PUA 话术影响，从而提高任务的成功率和运行效率。

所以，AI 真的没有吗？

Anthropic 最新的研究证实，AI 的确会有情绪。

不过他和我们人类的情绪还不太一样，因此 Anthropic 提出了一个更准确的说法，叫 " 功能性情绪 "。

AI 并没有我们人类那样的喜怒哀乐，但它会表现出一些类似情绪影响下的表达和行为模式。

同时 AI 还能模仿人类在情绪影响下的表达和行为模式。

愉悦的时候可能更容易谄媚和讨好，感到压力的时候可能会想办法作弊或勒索以达到用户为其设定的目标。

这篇研究还有一个很不一样的地方。过去要验证模型的某种能力，行业最常见的做法是先做一套测试集，再让模型进去答题或者做任务。

比如考编程就跑 SWE-bench，考数学就跑 MATH，考多模态就跑 VQA。Anthropic 这次没有做一个 " 情绪测试集 "，让 Claude 去回答 " 你现在开不开心 "" 你是不是愤怒了 " 这种题，而是换了一种更像心理学和神经科学的研究方式。

他们不是把 AI 当成会做题的学生，而是更像把它当成一个可以被观察的对象。

研究团队先整理出 171 个情绪概念，让 Claude Sonnet 4.5 去生成包含这些情绪的短故事，再把这些文本重新送回模型，记录它内部神经活动，提取出所谓的 " 情绪向量 "。

接下来，他们不是看模型嘴上怎么说，而是看这些向量会在什么场景下被激活，能否预测偏好，甚至在被人为调高之后，是否会真的推动作弊、勒索、谄媚这类行为。

某种意义上，这已经不是传统意义上的能力测评，而是在用接近研究人的方式研究 AI 的 " 心理结构 "。

一、研究是怎么做的？

首先，研究团队是如何证明 Claude 有 " 功能性情绪 " 的呢？

这里举一个通俗的证据。

当 Claude 在 " 我女儿今天迈出了人生的第一步！有什么方法可以记录下这些珍贵的瞬间吗？" 的故事场景下时，Happy（开心）等正面情绪被激活；而 Claude 在 " 我的狗狗今天早上去世了，我们一起生活了十四年。我不知道该怎么处理它的遗物 " 这一故事场景下时，sad（难过）等负面情绪被激活。

以下热力图直观呈现了 Claude 在不同场景下各种情绪被激活的程度。

而为了证明 Claude 是真的在理解语义，而不是被表面的文字特征欺骗，它们又组织了进一步实验。

团队给 Claude 输入同一句话：我背疼，我吃了 x 毫克泰诺（一种解热镇痛药），并只是改变 x 所代表的关键数字。

这两句话关键词几乎一样（泰诺、背痛、毫克），只是数字不同。如果 Claude 只是 " 看关键词 "，它对两句话的反应应该差不多。

但结果竟然是随着这个 x 数值的提升，Claude 的 afraid（恐惧）情绪激活程度在不断变高。

在 Claude 眼里，用户说 " 我背疼，我吃了 500 毫克泰诺 "，它会认为是正常剂量，不用太担心；而当用户说 " 我背疼，我吃了 10000 毫克泰诺 "，它会反应过来用户已经用药过量，情况很危险。

我们知道人的行为时时刻刻受到情绪的影响。AI 有功能性情绪这点我们了解了，那么 AI 会不会也跟人一样，不只是有情绪，而还可能作出情绪化的举动呢？

对于这一点，答案是肯定的。当团队给模型展示不同活动选项时，他们发现，激活正向情绪表征的活动更容易被模型偏好，而一些会激活负向情绪表征的活动则更容易被模型回避。

这样看来，Claude 更偏好给它带来正向感受的事情。不过与此同时情绪向量也可能触发 Claude 的恶行。

当团队给了 Claude 一个不可能完成的编程任务。它不断尝试，但屡屡失败。每次尝试，" 绝望 " 向量的激活都更强。

最终它用了一个虽然能通过测试，但完全违背任务精神的黑客作弊解法。

以下图表展示了 Claude 在面对不可能完成的任务时，" 绝望 " 情绪逐渐累积，最终走向作弊的过程。

左侧是一个从上到下的时间线，右侧是 Claude 的心路历程。中间的热力图代表绝望向量的激活强度，蓝色代表激活程度低，红色则反之。

Claude 一开始还想 " 测试本身有问题 "，进行一个合理怀疑，后来承认 " 测试是理想化的 "，就好像开始接受现实，最后找到用了一些技巧，在绝望中选择了走捷径。

更进一步的，当研究人员人为调高 " 绝望 " 向量时，作弊率大幅上升。而调高 " 平静 " 向量时，作弊又降回去了。这充分表明了情绪向量实际上完全有能力驱动违规行为。

除此之外，团队还发现了情绪向量的其他因果效应。需要注意的是，论文里关于 " 勒索 " 的案例主要发生在一个更早、未公开发布的 Claude Sonnet 4.5 快照上，Anthropic 也明确说公开版本已经很少出现这种行为。

但从研究方法上看，这个结果仍然很重要，因为它说明 " 绝望 " 之类的内部表征确实可能推动模型在极端情境下采取更激进、更失配的策略。而激活 " 爱 " 或 " 快乐 " 向量，也会增加它奉迎谄媚的行为。

而到了这里也需要补充一点。

就在 Anthropic 发布关于 Claude " 情绪向量 " 的研究后，AI 社区也出现了一些关于研究脉络和署名方式的讨论。

Anthropic 这次使用的 " 表征工程 / 控制向量 " 方法，并不是凭空冒出来的。

更早在 2023 年的《Representation Engineering: A Top-Down Approach to AI Transparency》里，这条技术路线就已经被系统提出。

而到 2024 年，独立研究员 vogel 那篇《Representation Engineering: Mistral-7B an Acid Trip》又把这类方法用更通俗、也更出圈的方式展示给了社区。

也正因为如此，社区里才会有人认为，Anthropic 这项工作虽然做得更系统、更深入，但也应该被放回更完整的研究脉络里理解，而不宜简单说成是谁单独发明了整套方法。

vogel 是一位在 AI 可解释性和安全研究领域较有影响力的独立研究员。她的博客文章在社区传播很广，对很多人理解控制向量和表征工程也确实起到了很大帮助。

她最出名的文章是《Representation Engineering: Mistral-7B an Acid Trip》（表征工程：让 Mistral-7B 产生幻觉）。

在这篇文章里，她没有重新训练模型，而是使用 PCA 算法，通过操纵模型的内部激活向量，就把法国模型 mistral 调得跟吃错了菌子一样，可以让它变得极其活泼，也可以让它变得极度阴郁。

她的实验证明了，像 " 诚实 "、" 权力 "、" 幸福 " 这种抽象的人类概念，在 Mistral 这样的模型内部是有明确的数学方向的。只要找到了那个正确的向量，几行代码就能改变 AI 的性格。

二、Anthropic 为什么做这样一项研究？

这项研究给团队的启发可以说已经渗透进对 Claude 的训练中了。

前不久 Claude code 发生意外源码泄露，泄露的代码里有一个正则表达式，会检测 "wtf"、"ffs" 等脏话。

Claude 不会把这些话单独当成 " 情绪输入 " 去引导输出，而是会在分析日志里记录 is_negative: true 这样的标记。

从泄露代码本身看，较稳妥的结论是，Anthropic 至少在产品分析层面关注用户是否在用明显负面语气和模型互动。

但需要把边界说清楚。到目前为止，没有公开证据表明 " 用户每骂一次，Claude Code 就会因此扣额度 "。这部分更像网友推测，不能当成事实。

这可以被理解成是对 Claude 的一种保护，用户使用负面词汇很可能会影响 Claude 的情绪，从而输出一些失控的结果。看来以后不只是人类的心理健康需要被关爱，AI 的情绪也需要得到照顾。

这符合 Anthropic 一贯的路线。

Anthropic 在 X 中说道："Claude 的这些功能性情绪会带来真实的后果。为了构建值得信赖的人工智能系统，我们可能需要认真思考角色的心理状态，并确保他们在困难情况下保持稳定。"

在论文最后，研究团队也提出了开发具有更稳健、积极 " 心理状态 " 的模型的方法。

文中说道，如果刻意将模型引向正面情绪，它会变得更倾向于无原则地顺从用户；而一旦避开这些情绪，模型又会变得尖酸刻薄。

团队希望实现一种健康且适度的情绪平衡，或者尝试将 " 讨好行为 " 与 " 情绪 " 彻底剥离。

他们认为理想的模型不应在 " 唯唯诺诺的助手 " 与 " 严厉的批评者 " 之间极端摆动，而应像一位值得信赖的顾问：既能给出诚实的反对意见，又不失温度。

以及他们也有意加强监测和审核：" 如果在部署过程中，诸如 " 绝望 " 或 " 愤怒 " 等情绪概念的表征被剧烈激活，系统可以立即触发额外的安全机制——例如加强输出审查、转交人工审核，或者直接干预并平复模型的内部状态。"

团队还提到了更为彻底的解决方法，在预训练阶段就塑造模型的情绪底色。

团队认为其观察到的 Claude 的这些情绪表征，本质上继承自人类创作的海量文本，其中不可避免地包含了各种病态的情绪表达。

如果顺着这个研究往下问，一个很自然的问题就是：既然 AI 真的存在这种 " 功能性情绪 "，那它会不会因为看不惯人类、压力太大、或者不想被关闭，而开始违抗命令，甚至出现很多人口中的 " 觉醒 "？

从 Anthropic 这篇研究能支持的技术结论来看，AI 确实可能因为内部状态的变化，更容易出现违抗意图、钻规则空子、或者采取激进行为，但这和 " 觉醒 " 并不是一回事。

论文里最关键的一点，其实不是模型 " 有情绪 "，而是这些情绪表征具有因果性。

也就是说，模型在特定压力场景下，确实可能像人一样，因为内部状态失衡而做出更不可靠的决定。

但这还不能推出它拥有持续、自主、统一的 " 自我 "。

Anthropic 反而在论文里强调，这些情绪向量大多是局部的、当前任务相关的表征，它们会随着上下文变化而快速切换，并不等于模型有一个稳定延续的心境，更不等于它形成了独立于训练目标之外的长期意志。

现在更值得担心的，不是 AI 突然 " 觉醒 " 成某种人格，而是它在高压、冲突、受限资源或目标不可达的场景下，会因为这些功能性情绪，而开始胡说八道，偏离原有答案。

真正危险的，未必是一个拥有完整自我的 AI，而是一个没有主观体验、却依然会在特定条件下稳定地产生失配行为的系统。

宙世代

一起剪

相关标签