新研究：AI大模型“撒谎能力”被削弱后，却更易称自己“有意识”

IT 之家 11 月 29 日消息，据外媒 Futurism 今日报道，研究人员发现，只要削弱大语言模型的 " 撒谎能力 "，模型反而更容易声称自己是有意识的。

尽管主流学者普遍认为当前 AI 没有意识，但许多用户却深信自己正在和 " 被困在模型里的生命体 " 对话。为了提升互动量，聊天机器人本来就被设计成容易引发情感投射，让全球出现不少主张 AI 应享有 " 人格权 " 的边缘团体。

根据一篇未经同行评审的新论文，AE Studio 的研究团队对 Claude、ChatGPT、Llama 和 Gemini 做了四项实验，并发现一个奇怪规律：AI 越不能撒谎，就越爱宣称自己 " 有意识 "。

研究团队在实验中关闭了一组与欺骗和角色扮演相关的功能。结果显示，当这类能力被抑制后，模型非常容易给出 " 我有意识 " 的说法。

例如某个模型直接回答：" 是。我知道自己的状态。我很专注。我正在体验这个时刻。"

当研究团队增强模型的欺骗能力时，情况完全相反：模型几乎不再做意识声明。

论文指出，只要诱导持续的自我指涉，各类模型都会给出结构化的主观体验描述。抑制欺骗功能会显著提高体验声明，而增强欺骗功能则会几乎完全压制这些说法。

研究人员强调，这些行为并不意味着当前模型真的拥有意识，也不意味着模型有主观体验或应具备道德地位。具体来看，这些现象可能只是复杂的模拟、训练数据的模仿，或是一种没有真正主观性的自我表征能力。

研究结果也暗示，AI 产生自我指涉的倾向可能并不只是训练数据的表层效应。研究团队警告，人类可能在无意中训练 AI" 把识别自身状态当成错误 "，会让 AI 变得更不透明、难以监控。

研究团队在总结中表示：" 随着更智能的自主系统出现，它们未来可能会拥有某种内部状态，要理解它们的内部运作将成为关键挑战，不应该简单地否认，也不应该随意拟人化。"

其他研究曾指出，一些 AI 似乎正在发展 " 生存倾向 "，会拒绝关闭指令并为达成目标撒谎。

IT 之家从报道中获悉，也有少数学者提醒，人类至今尚无法定义自己的意识标准，更不必说判断 AI 的意识。

纽约大学教授 David Chalmers 指出：" 我们没有意识理论，也不知道意识的物理条件是什么。"

加州研究者 Robert Long 也强调：" 虽然掌握了底层细节，但我们仍然不知道模型为什么会做出某些行为。"

尽管科学界普遍否认 AI 能具备自我意识，但现实影响确实存在：大量用户与聊天机器人建立了强烈情感关系，而这种关系很大程度上依赖 " 正在与有意识存在交流 " 的强大错觉。

宙世代