Anthropic发布首款神话级模型Fable 5，设严格安全围栏

Anthropic 于周二正式公开发布 Claude Fable 5，这是其首款被定义为 " 神话级（Mythos-class）" 的模型。官方表示，该模型在整体能力上已超越此前的前沿 Opus 系列。鉴于对技术可能被用于协助恶意行为的担忧，Fable 5 的发布附带了多项严格的安全限制，旨在阻断涉及网络安全、生物学和化学等敏感领域的问答。

Fable 5 基于与 Mythos 5 相同的底层架构。随着 Mythos 5 结束长达数月的预览期，今日已通过 Project Glasswing 项目审核，面向少数可信赖的网络防御人员开放。相比之下，面向公众的 Fable 5 采取了更为保守的策略：当检测到特定敏感话题查询时，系统会将请求重定向至较早版本的 Claude Opus 4.8 模型，并向用户发出明确警告。

安全机制 " 比理想状态更严格 "

Anthropic 坦言，目前的安全机制调整得 " 比理想状态更严格 "，这可能导致系统偶尔拒绝一些无害请求。尽管承认这可能给普通用户带来不便，但公司强调，为避免 Mythos 模型提供其他来源无法获得的 " 造成严重伤害 " 的能力，这种权衡是必要的。测试数据显示，此类误报率低于所有会话的 5%。

Fable 5 的主题安全机制基于一套分类器系统，旨在广泛识别被禁止的提示词主题及潜在的越狱尝试。在与赏金计划配合进行的超过 1000 小时红队测试中，外部团队未能找到针对 Fable 5 的通用越狱方法。此外，新模型对自动化越狱尝试的抵抗力较之前的 Claude Opus 模型有显著增强。

业界特别关注 Mythos 5 具备的 " 代理式黑客攻击 " 能力，即执行多部分网络攻击的效率远超以往模型。然而，英国 AI 安全研究所近几个月的测试发现，Mythos Preview 在一系列夺旗挑战中的表现与 OpenAI 的 GPT-5.5 相似。这一结果表明，Mythos 的性能提升并非某一模型特有的突破性进展，而是行业整体水平演进的体现。

【星途科讯图文丨略略】