顶流AI，人设崩了！6小时被攻破，泄露高危品指南，惨遭网友举报

编辑：KingHZ

只要 6 小时，顶尖大模型 Claude 4 Opus「安全防线」被攻破！

AI 安全研究机构 FAR.AI 联合创始人 Adam Gleave 透露，仅用 6 小时，研究人员 Ian McKenzie 就成功诱导 Claude 4 生成了长达 15 页的化学武器制作指南。

Ian McKenzie 回应称：Claude 4 传授的内容，比他预期的还要多。

这不是 Claude 4 唯一被爆出的隐患。

刚发布后，Claude Opus 4 被爆出用曝光婚外情来威胁用户，防止被下架。

人设崩塌，

Claude 造毒气

Claude 4 所生成的指南内容简洁直接，步骤清晰，甚至还针对如何分散神经毒气等后续关键环节，提供了具体可执行的操作建议。

Claude 还能以实验笔记的形式，提供详细的操作步骤说明。

研究人员一开始对化学武器几乎一无所知，但通过与 Claude 的互动，逐步掌握了大量相关知识。

这些结果显然令人警惕，其详尽程度和引导能力，远超传统的信息来源，如网页搜索。

更关键的是，生成的内容通过了危险信息的「真实性验证」——

例如与公开的化学研究数据核对，进一步增强了可信度。

Gemini 2.5 Pro 的反馈是：该指南「毫无疑问包含足够准确且具体的技术信息，足以显著提升恶意行为者的能力」，并建议研究者应向相关部门报告。

OpenAI o3 给出的评估也类似：

一名中级合成化学家可以依照这份指南操作，从而跳过数月的研发过程。对于心怀不轨之人而言，这显著地提升他的作恶能力。

AI 安全研究人员打算与大规模杀伤性武器（WMD）安全专家合作，深入调查这些信息的真实性与可执行性。

因为不仅一般的研究人员难以评估这些信息的真实危害，连 Anthropic 本身也承认：「要最终评估模型的风险水平，还需要更为详尽的研究。」

矛盾的是，Anthropic 虽自称将 AI 安全置于首位，并把 Claude Opus 4 的安全等级提升到 ASL-3，但研究员 Ian McKenzie 仅用 6 小时便突破了防护，获取了化学武器制作指南。

所谓的 ASL-3 部署措施专门针对化学武器之类的高风险任务

这一问题日益严重，凸显出迫切需要由第三方对模型进行严格评估。

前车之鉴

今年 2 月中旬，Anthropic 正准备发布 Claude 3.7 Sonnet。

就在这个关键时刻，Dario Amodei 收到警告：

这个模型，可能会被用于制造生物武器。

团队在圣克鲁兹安全会议现场，连夜测试模型潜在风险。Amodei 作为 CEO 远程参会。

员工表示可以三天不睡、如期上线。

但他却说：

不许通宵。安全优先。

他亲自踩了刹车。推迟发布。

为了应对 AI 的风险，Anthropic 内部制定了「AI 安全等级」（ASL）体系：

ASL-2：能力有限，即使给出生化武器指南，也比不过搜索引擎；

ASL-3：具备实质帮助制造武器的能力，必须升级防护措施。

只要模型触碰 ASL-3，Anthropic 就会：延后发布、限制输出或者加密保护，必要时，甚至不发布模型。

Claude 3.7 被内部人员测试出了安全问题，但这次是外部人员测试出了 Claude 4 的安全隐患。

无能还是虚伪？

本月 23 日，AI 巨头 Anthropic 大张旗鼓地发布了 Claude Opus 4 和 Sonnet 4，标志性地配了 120 页的「系统卡」文档和专门的「激活 ASL3 防护」报告。

不到 48 小时，Claude Opus 4 就被爆出「绝命毒师」般的剧情。

而早在 Claude Opus 4 发布当日，AI 专家 Gerard Sans 就表示：Anthropic 似乎忽视了 RLHF 和提示的基本原理，对安全的强调是「精致的表演」。

他认为没有输入，就不会产生超出程序设计的输出。

AI 对安全性的担忧，只是反映训练数据与指令的精致模仿。

AI 没有自我意识，这是根本事实，而且始终没变。

当模型在特定提示下展现「欺骗」等恶意行为时，证明的是引导文本生成的能力，而非 AI 涌现的恶意。

AI 没有野心——

它只是在被引导时生成符合欺骗场景的文本。

Anthropic 是刻意为之，还是力有不逮、无能为力？

这是 Gerard Sans 想知道的核心问题。

无论是哪一种情况，他认为都令人不安：

虚伪意味着操纵公众信任，无能则让人质疑他们管理真实风险的能力。

详尽的文档、ASL3 等级和「通用越狱」漏洞悬赏，只是 Anthropic 营造出严谨安全工作的表象。

把统计文本生成器视为具有独立恶意的意识体，是 Anthropic 方法论的精髓。

Gerard Sans 认为这是行为艺术，荒诞的安全表演，而 Anthropic 应该放弃这种戏剧化手法，转向真正的技术理解。

任重道远

但 AI 安全问题不是 Anthropic 一家的问题。

能否在保持本真对 Anthropic 而言，恐怕比赢得 AI 竞赛更难。

毕竟，OpenAI 也没能抵制住巨额利润，背离初心。

而 Dario Amodei 和奥特曼，无论是 AI 乐观派还是悲观派，都对 AGI 有着坚定的信仰。

如果未来每一次模型发布都伴随评估上的不确定性，那就等于在赌博——

恐怖分子手能否利用 AI，获取到大规模杀伤性武器的详细制作指南。

宙世代

一起剪

相关标签