特朗普政府就旗舰 AI 模型安全漏洞问题向 Anthropic 发出最后通牒,但独立安全专家警告称,白宫的要求或许根本无法实现。
18 日,特朗普政府官员告诉媒体,若 Anthropic 希望重新发布旗舰模型 Claude Fable 5,该公司必须切实解决政府所指的安全漏洞,而非继续辩解相关风险是否被高估。这一立场标志着双方分歧正迅速走向摊牌。Fable 5 于上周因越狱(jailbreak)担忧而被出口管制措施迫使下线——越狱是指通过特定提示词绕过模型安全护栏的攻击手法。
Anthropic 方面在与商务部及国家网络总监办公室 Sean Cairncross 的周一技术会议上重申,政府的担忧被过度渲染,越狱攻击的实际影响有限。然而,美国国家安全局(NSA)已得出结论:Fable 5 的安全护栏存在可被绕过的途径,这些护栏原本用于防止用户访问其底层模型 Mythos 在网络安全、化学和生物领域的敏感能力。据媒体援引三位知情人士透露,政府目前实际上已将解决问题的责任完全归于 Anthropic,而非试图共同介入排查。
这场监管拉锯战揭示出 AI 治理的深层困境:政府是否有能力、有意愿对前沿模型安全负责,以及 " 无越狱 " 这一监管目标是否具备技术可行性,直接影响 Anthropic 及整个 AI 行业的商业前景。
政府划定红线:主动测试,主动上报
据媒体援引知情人士透露,商务部 AI 标准与创新中心及 NSA 均表示,没有足够人员和精力去追踪市场上每一款模型的所有潜在越狱路径。基于这一现实,政府的立场已从 " 与 Anthropic 共同界定风险严重程度 " 转向 " 要求 Anthropic 承担全部合规责任 "。
官员明确要求,Anthropic 不仅需解决 Fable 5 的现有问题,还应对其所有前沿 AI 模型持续开展主动安全测试,自行发现潜在越狱漏洞,并主动向政府报告。这实际上意味着,政府要求 Anthropic 建立一套以企业自我监管为核心的合规机制,而非依赖监管机构的外部审查。
白宫发言人拒绝就此事置评。
技术争议:安全护栏是否有解?
围绕这场监管博弈,一个更根本的技术问题正在浮出水面:完全阻止越狱是否可行?
独立网络安全专家的主流观点日益倾向于否定。专家认为,AI 模型的安全护栏本质上只是临时性的防御措施,熟练用户乃至未来的 AI 模型终将找到绕过限制的方法。这意味着白宫所要求的目标,在技术上存在根本性障碍。
Anthropic 上周已向政府表达了类似立场,坚持认为越狱影响 " 微乎其微 ",但这一论点显然未能说服官方—— NSA 的技术评估成为政府立场的关键依据,使双方在事实层面的分歧难以弥合。
对 Anthropic 而言,Fable 5 的下线不仅意味着商业损失,更预示着未来每一款前沿模型在发布前都可能面临类似的监管障碍。若 " 零越狱 " 成为不成文的上市门槛,整个 AI 行业的研发节奏和商业化路径将面临实质性压力。


登录后才可以发布评论哦
打开小程序可以发布评论哦