白宫向Anthropic摊牌：不解决“越狱”问题就别想重新发布Fable 5

特朗普政府就旗舰 AI 模型安全漏洞问题向 Anthropic 发出最后通牒，但独立安全专家警告称，白宫的要求或许根本无法实现。

18 日，特朗普政府官员告诉媒体，若 Anthropic 希望重新发布旗舰模型 Claude Fable 5，该公司必须切实解决政府所指的安全漏洞，而非继续辩解相关风险是否被高估。这一立场标志着双方分歧正迅速走向摊牌。Fable 5 于上周因越狱（jailbreak）担忧而被出口管制措施迫使下线——越狱是指通过特定提示词绕过模型安全护栏的攻击手法。

Anthropic 方面在与商务部及国家网络总监办公室 Sean Cairncross 的周一技术会议上重申，政府的担忧被过度渲染，越狱攻击的实际影响有限。然而，美国国家安全局（NSA）已得出结论：Fable 5 的安全护栏存在可被绕过的途径，这些护栏原本用于防止用户访问其底层模型 Mythos 在网络安全、化学和生物领域的敏感能力。据媒体援引三位知情人士透露，政府目前实际上已将解决问题的责任完全归于 Anthropic，而非试图共同介入排查。

这场监管拉锯战揭示出 AI 治理的深层困境：政府是否有能力、有意愿对前沿模型安全负责，以及 " 无越狱 " 这一监管目标是否具备技术可行性，直接影响 Anthropic 及整个 AI 行业的商业前景。

政府划定红线：主动测试，主动上报

据媒体援引知情人士透露，商务部 AI 标准与创新中心及 NSA 均表示，没有足够人员和精力去追踪市场上每一款模型的所有潜在越狱路径。基于这一现实，政府的立场已从 " 与 Anthropic 共同界定风险严重程度 " 转向 " 要求 Anthropic 承担全部合规责任 "。

官员明确要求，Anthropic 不仅需解决 Fable 5 的现有问题，还应对其所有前沿 AI 模型持续开展主动安全测试，自行发现潜在越狱漏洞，并主动向政府报告。这实际上意味着，政府要求 Anthropic 建立一套以企业自我监管为核心的合规机制，而非依赖监管机构的外部审查。

白宫发言人拒绝就此事置评。

技术争议：安全护栏是否有解？

围绕这场监管博弈，一个更根本的技术问题正在浮出水面：完全阻止越狱是否可行？

独立网络安全专家的主流观点日益倾向于否定。专家认为，AI 模型的安全护栏本质上只是临时性的防御措施，熟练用户乃至未来的 AI 模型终将找到绕过限制的方法。这意味着白宫所要求的目标，在技术上存在根本性障碍。

Anthropic 上周已向政府表达了类似立场，坚持认为越狱影响 " 微乎其微 "，但这一论点显然未能说服官方—— NSA 的技术评估成为政府立场的关键依据，使双方在事实层面的分歧难以弥合。

对 Anthropic 而言，Fable 5 的下线不仅意味着商业损失，更预示着未来每一款前沿模型在发布前都可能面临类似的监管障碍。若 " 零越狱 " 成为不成文的上市门槛，整个 AI 行业的研发节奏和商业化路径将面临实质性压力。

宙世代

一起剪

相关标签