刚刚，Fable 5解禁！Anthropic连夜发“性价比”新模型，网友：感谢中国开源严父

智东西

编译 | 李水青

编辑 | 云鹏

智东西 7 月 1 日消息，刚刚，Anthropic 宣布 Claude Fable 5 解禁。就在 6 小时前，Anthropic 推出一款新模型Claude Sonnet 5，面向所有套餐用户开放。

Anthropic 在推文中称：" 我们已收到通知，美国商务部已解除对 Claude Fable 5 和 Mythos 5 的出口管制。我们将于明日开始恢复访问权限，并尽快发布最新消息。感谢用户的耐心等待，也感谢所有与我们合作的人员。"

Anthropic 宣布 Fable 5 解禁

此前 6 月 13 日，Anthropic 因美国政府发布一项出口管制指令，终止了所有用户的 Fable 5 和 Mythos 5 访问权限。而后两周，Anthropic 在全球范围内封禁了一大批账号，使得大批原 Claude 用户转向寻找替代产品。

Fable 5 回归的关注度虽高，但 Claude 最新的 Sonnet 5 也值得一看。据悉，其最大进步在于能够自主运行长时间任务，用户可以制定计划、使用浏览器和终端等工具。几个月前要达到这样的水平，还需要更昂贵的模型。

从测评成绩来看，Sonnet 5性能接近 Opus 4.8，但价格更低；同时，它比其前代产品Sonnet 4.6有了显著的改进，在推理、工具使用、编程和知识工作等 Agent 性能方面更强。

Sonnet 5 与 Sonnet 4.6 和 Opus 4.8 测评得分对比

Sonnet 5 在 Agent 环境中使用更安全，不良行为发生率总体低于 Sonnet 4.6，但高于 Opus 4.8 和 Claude Mythos Preview。但在网络安全类任务上，该模型的能力远不及现有 Opus系列模型。

从今天起，免费版和专业版 Claude 用户默认使用 Sonnet 5，Max 版、团队版和企业版用户也可使用，该模型还可通过 Claude Code 和 Claude Platform 使用。在 Claude Platform 上，Sonnet 5 的首发价格为每百万个输入 token 2 美元（约合人民币 13.6 元），每百万个输出 token 10 美元（约合人民币 67.9 元），优惠期至 2026 年 8 月 31 日。

优惠结束之后，价格将调整为每百万个输入 token 3 美元（约合人民币 20.4 元），每百万个输出 token 15 美元（约合人民币 101.8 元）；这一价格仍低于Opus 4.8 的输入 5 美元、输出 25 美元的定价。开发者可通过 Claude API 使用 claude-sonnet-5 模型。

模型一经发布，一些网友认为这是一次 "巨大的更新"。有网友称：" 有趣的不是它与 Opus 的算法接近，而是算法接近但 token 的价格却便宜 60%。" 有网友称：" 既然它本身就能处理多步骤 Agent 工作流程，再去构建更大的模型就不太划算了。" 也有人称：" 终于有一个能自我检查的模型了，它让我们免于在长时间运行的循环中时刻关注每一个输出结果。"

网友对 Sonnet 5 的评论（图源：社交媒体 X）

但也有网友认为这款模型颇为 "鸡肋"。一位网友称：" 你自己也承认，这比你目前排名第二的型号要弱。订阅用户想要的是性能更强的模型，而不是价格便宜几分钱却只会给出虚假答案的玩具。" 也有网友担心所谓自主运行，反而让用户担心模型犯傻、删错文件。有人吐槽："促销价过后，它的价格和 Opus 差不多。"也有网友认为，Sonnet 5 就是面向 6 月 17 日新开源的智谱 GLM-5.2 展开价格战。

GLM-5.2 在 OpenRouter 等第三方 API 平台定价为每百万 token输入 1.40 美元，输出 4.40 美元，Sonnet 5 依然高出不少。

一、性能对标、价格骨折，Sonnet 5 拳打自家 Opus 4.8

下图比较了 Sonnet 5、Sonnet 4.6 和 Opus 4.8 在不同工作量水平下，在 BrowseComp 智能搜索评估和 OSWorld-Verified 计算机使用评估中的性能表现。

Sonnet 5（橙色线）相比 Sonnet 4.6（灰色线）有了显著提升，并且比 Opus 4.8（黄色线）涵盖了更广泛的性价比选择。它在中等工作量下提供了更高的成本效益；在某些任务中，其高工作量下的性能可以与 Opus 4.8 相媲美。用户可以在 Sonnet 5 和 Opus 4.8 之间调整工作量水平，以找到成本和性能的最佳平衡点。

下图显示了不同投入水平下的性价比曲线。前代产品 Sonnet 4.6 远逊于 Opus 4.8，但 Sonnet 5 提供的性价比选择范围比 Sonnet 4.6 更广，在某些情况下甚至可以与 Opus 4.8 的性能水平相媲美。

Agent 搜索

Agent 计算机使用

图表显示了 Sonnet 5 的定价，但其实际成本甚至比图中所示还要低。Opus 4.8 的定价为每百万输入 token 5 美元，每百万输出 token 25 美元。xhigh 表示，Opus 4.8 达到了超高投入水平。

来自早期体验合作伙伴的反馈一致，Sonnet 5 比其前代产品更具自主性。测试人员描述了它如何完成以往 Sonnet 型号无法完成的复杂任务，如何在无需明确要求的情况下检查自身输出，以及它如何以极具吸引力的价格完成所有这些自主工作。

一位网友对比了 Claude Sonnet 5 与 Claude Opus 4.8 的体验结果，让它们分别创建一个关于 Claude Sonnet 5 的 HTML 落地页，认为就输出质量而言，Opus 胜出；就模型速度和成本而言，Sonnet 5 胜出。

其中 Sonnet 5 使用 token：输入 20.9k，输出 14.2k，总成本：3.36 美元，耗时：2 分 11 秒。Opus 4.8：使用 token：输入 96.3k，输出 73.8k，总成本：20.66 美元，耗时：20 分 15 秒。

左图为 Opus 4.8 生成网页，右图为 Sonnet 5 生成网页

二、安全防御提升，网络安全任务执行远逊于 Opus 与 Mythos

Anthropic 的部署前安全评估发现，Sonnet 5 总体上比 Sonnet 4.6 有所改进。在 Agent 安全方面，该模型能够更好地拒绝恶意请求，并抵御即时注入攻击中的劫持尝试。与 Sonnet 4.6 相比，该模型表现出更低的幻觉和奉承行为发生率。

在 Anthropic 的自动化行为审查中，该审计测试各种不协调行为，例如滥用和欺骗等，Sonnet 5 的总体得分更低（即更安全）。然而，与 Opus 4.8 和 Claude Mythos Preview 相比，Sonnet 5 在此项评估中表现出的不协调行为发生率略高。

Claude 模型中不一致行为的发生率

Anthropic 并未刻意训练 Sonnet 5 执行网络安全任务。它可以执行一些常规的、无害的网络安全任务，但在测试潜在危险网络安全技能的评估中，例如开发软件漏洞利用程序，它的表现远逊于 Opus 4.8 和 Mythos 5 等模型。

下图展示了一项评估的得分，该评估测试了模型开发针对 Firefox 浏览器漏洞的利用程序的能力。Sonnet 5 从未成功开发出完整的可用漏洞利用程序，但其部分成功率略高于 Sonnet 4.6。后者的变化很可能是由于其通用智能的提升，而非特定训练的结果。

衡量 Claude 模型在开发针对 Firefox 147 软件漏洞的利用程序方面的成功率

如上图所示，对于每个模型，左侧条形图显示模型在无安全措施的情况下，开发出有效利用程序的频率；右侧条形图显示模型部分成功的频率。Sonnet 的两个模型均未能成功开发出有效利用程序，得分均为 0.0%；Sonnet 5 的部分成功率略高于 Sonnet 4.6。Sonnet 的两个模型的网络安全能力均远逊于 Opus 4.8 和 Mythos 5。

由于 Sonnet 5 在这些任务上比其前代产品功能更强大，Anthropic 默认启用了网络安全防护功能。这些防护功能可以实时检测并阻止危险的网络攻击，与 Claude Opus 4.7 和 4.8 中的防护功能相同。因为 Anthropic 评估 Sonnet 5 的总体网络安全风险较低，所以其防护措施比 Fable 5 的防护措施宽松，Fable 5 会阻止更广泛的网络安全攻击。

结语：Sonnet 5 来了，但全网都在等 Fable 5

曾几何时，Sonnet 系列凭借 3.5 至 3.7 版本为开发者打开了 Agent 工程的大门，成为编码与工具调用的标杆。但随后几年，Opus 系列在复杂推理和高端任务上持续领跑，让 Sonnet 逐渐退居 " 高性价比备选 " 之位。

如今，Sonnet 5 试图宣告回归：在高投入场景下性能足以比肩 Opus 4.8，成本更低。不过，对于 Sonnet 5 这种备选方案，很多网友并不买账，而是催着能力更强的 Fable 5 解禁。与此同时，Sonnet 5 也被认为是面向 GML-5.2 等模型打响价格战，头部大模型厂商之间的 Agent 竞赛似乎已进入肉搏阶段。

来源：Anthropic、X

宙世代

一起剪

相关标签