
Anthropic 于周二正式公开发布 Claude Fable 5,这是其首款被定义为 " 神话级(Mythos-class)" 的模型。官方表示,该模型在整体能力上已超越此前的前沿 Opus 系列。鉴于对技术可能被用于协助恶意行为的担忧,Fable 5 的发布附带了多项严格的安全限制,旨在阻断涉及网络安全、生物学和化学等敏感领域的问答。
Fable 5 基于与 Mythos 5 相同的底层架构。随着 Mythos 5 结束长达数月的预览期,今日已通过 Project Glasswing 项目审核,面向少数可信赖的网络防御人员开放。相比之下,面向公众的 Fable 5 采取了更为保守的策略:当检测到特定敏感话题查询时,系统会将请求重定向至较早版本的 Claude Opus 4.8 模型,并向用户发出明确警告。
安全机制 " 比理想状态更严格 "
Anthropic 坦言,目前的安全机制调整得 " 比理想状态更严格 ",这可能导致系统偶尔拒绝一些无害请求。尽管承认这可能给普通用户带来不便,但公司强调,为避免 Mythos 模型提供其他来源无法获得的 " 造成严重伤害 " 的能力,这种权衡是必要的。测试数据显示,此类误报率低于所有会话的 5%。
Fable 5 的主题安全机制基于一套分类器系统,旨在广泛识别被禁止的提示词主题及潜在的越狱尝试。在与赏金计划配合进行的超过 1000 小时红队测试中,外部团队未能找到针对 Fable 5 的通用越狱方法。此外,新模型对自动化越狱尝试的抵抗力较之前的 Claude Opus 模型有显著增强。
业界特别关注 Mythos 5 具备的 " 代理式黑客攻击 " 能力,即执行多部分网络攻击的效率远超以往模型。然而,英国 AI 安全研究所近几个月的测试发现,Mythos Preview 在一系列夺旗挑战中的表现与 OpenAI 的 GPT-5.5 相似。这一结果表明,Mythos 的性能提升并非某一模型特有的突破性进展,而是行业整体水平演进的体现。
【星途科讯 图文丨略略】


