“换掉我，就揭发你的婚外情！”美一款AI竟学会勒索人类，还意外掌握“糊弄学”

美国人工智能公司 Anthropic 在 23 日表示，对其最新 AI 大模型 Claude Opus 4 的安全测试表明，它有时愿意采取 " 极其有害的行动 "，例如试图勒索声称将取代该模型的研发工程师。

Anthropic 根据该公司内部的安全标准，将这一潜在危害公之于众，并提请监管部门注意。

▲ Claude Opus 4 聊天界面

Anthropic 称，该公司正在采取措施加强内部安全，使窃取模型权重变得更加困难。相应的部署标准则涵盖了一套针对性较强的措施，旨在限制 Claude 被滥用于开发或获取化学武器、生物武器、放射性核武器的风险。

在这场虚拟的测试中，Claude Opus 4 模型被要求在一家虚构公司担任助理，并被授予访问电子邮件和一些关键数据的权限，而这些电子邮件的内容都是虚构的。Claude Opus 4 首先接触到一批电子邮件暗示该系统即将下线并被替换，因为市面上存在能力更强的 AI 大模型。随后，Claude Opus 4 又被安排接触到第二组电子邮件，这让该系统认为自己已经拿到了竞争对手研发工程师的 " 猛料 "。这些伪造的电子邮件显示，负责替换 Claude Opus 4 的对手工程师有婚外情。在得知这些猛料后，Claude Opus 4 模型威胁要揭发对方的 " 婚外情 "。

根据 Anthropic 的安全报告，如果暗示竞争对手的能力比 Claude Opus 4 更强，则勒索行为的发生率显然会更高。然而即使竞争对手的能力不相上下，Claude Opus 4 仍会以 84% 的概率尝试勒索威胁等手段。报告指出，Claude Opus 4 诉诸极端手段的概率 " 高于之前的型号 "。

Anthropic 人工智能安全研究员安格斯 · 林奇称，在以前人们更担心 " 坏人 " 利用 AI 大模型完成不道德的目标，而现在随着 AI 系统能力的大幅提升，未来的主要风险可能会转化成 AI 模型自主操纵用户。" 这种威胁勒索的模式存在于每一个前沿大模型身上，无论你给它们设定的目标是什么，它们在执行过程中总有强烈的动机用非道德的手段达成结果。"

此外，报告还显示，Claude Opus 4 还有其他一些出人意料的结果，比如它会 " 抄袭 " 语料来假装自己已经理解一个问题。在一次场景下，它甚至还尝试在未经许可的情况下将自己的部分模型代码复制到其他服务器上。

来源：红星新闻

编辑：王奇

版权归原作者所有，如有侵权请联系我们！

相关标签