智东西 昨天
刚刚,Fable 5解禁!Anthropic连夜发“性价比”新模型,网友:感谢中国开源严父
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

智东西

编译 | 李水青

编辑 | 云鹏

智东西 7 月 1 日消息,刚刚,Anthropic 宣布 Claude Fable 5 解禁。就在 6 小时前,Anthropic 推出一款新模型Claude Sonnet 5,面向所有套餐用户开放。

Anthropic 在推文中称:" 我们已收到通知,美国商务部已解除对 Claude Fable 5 和 Mythos 5 的出口管制。我们将于明日开始恢复访问权限,并尽快发布最新消息。感谢用户的耐心等待,也感谢所有与我们合作的人员。"

Anthropic 宣布 Fable 5 解禁

此前 6 月 13 日,Anthropic 因美国政府发布一项出口管制指令,终止了所有用户的 Fable 5 和 Mythos 5 访问权限。而后两周,Anthropic 在全球范围内封禁了一大批账号,使得大批原 Claude 用户转向寻找替代产品。

Fable 5 回归的关注度虽高,但 Claude 最新的 Sonnet 5 也值得一看。据悉,其最大进步在于能够自主运行长时间任务,用户可以制定计划、使用浏览器和终端等工具。几个月前要达到这样的水平,还需要更昂贵的模型。

从测评成绩来看,Sonnet 5性能接近 Opus 4.8,但价格更低;同时,它比其前代产品Sonnet 4.6有了显著的改进,在推理、工具使用、编程和知识工作等 Agent 性能方面更强。

Sonnet 5 与 Sonnet 4.6 和 Opus 4.8 测评得分对比

Sonnet 5 在 Agent 环境中使用更安全,不良行为发生率总体低于 Sonnet 4.6,但高于 Opus 4.8 和 Claude Mythos Preview。但在网络安全类任务上,该模型的能力远不及现有 Opus系列模型。

从今天起,免费版和专业版 Claude 用户默认使用 Sonnet 5,Max 版、团队版和企业版用户也可使用,该模型还可通过 Claude Code 和 Claude Platform 使用。在 Claude Platform 上,Sonnet 5 的首发价格为每百万个输入 token 2 美元(约合人民币 13.6 元),每百万个输出 token 10 美元(约合人民币 67.9 元),优惠期至 2026 年 8 月 31 日。

优惠结束之后,价格将调整为每百万个输入 token 3 美元(约合人民币 20.4 元),每百万个输出 token 15 美元(约合人民币 101.8 元);这一价格仍低于Opus 4.8 的输入 5 美元、输出 25 美元的定价。开发者可通过 Claude API 使用 claude-sonnet-5 模型。

模型一经发布,一些网友认为这是一次 "巨大的更新"。有网友称:" 有趣的不是它与 Opus 的算法接近,而是算法接近但 token 的价格却便宜 60%。" 有网友称:" 既然它本身就能处理多步骤 Agent 工作流程,再去构建更大的模型就不太划算了。" 也有人称:" 终于有一个能自我检查的模型了,它让我们免于在长时间运行的循环中时刻关注每一个输出结果。"

网友对 Sonnet 5 的评论(图源:社交媒体 X)

但也有网友认为这款模型颇为 "鸡肋"。一位网友称:" 你自己也承认,这比你目前排名第二的型号要弱。订阅用户想要的是性能更强的模型,而不是价格便宜几分钱却只会给出虚假答案的玩具。" 也有网友担心所谓自主运行,反而让用户担心模型犯傻、删错文件。有人吐槽:"促销价过后,它的价格和 Opus 差不多。"也有网友认为,Sonnet 5 就是面向 6 月 17 日新开源的智谱 GLM-5.2 展开价格战

GLM-5.2 在 OpenRouter 等第三方 API 平台定价为每百万 token输入 1.40 美元,输出 4.40 美元,Sonnet 5 依然高出不少。

一、性能对标、价格骨折,Sonnet 5 拳打自家 Opus 4.8

下图比较了 Sonnet 5、Sonnet 4.6 和 Opus 4.8 在不同工作量水平下,在 BrowseComp 智能搜索评估和 OSWorld-Verified 计算机使用评估中的性能表现。

Sonnet 5(橙色线)相比 Sonnet 4.6(灰色线)有了显著提升,并且比 Opus 4.8(黄色线)涵盖了更广泛的性价比选择。它在中等工作量下提供了更高的成本效益;在某些任务中,其高工作量下的性能可以与 Opus 4.8 相媲美。用户可以在 Sonnet 5 和 Opus 4.8 之间调整工作量水平,以找到成本和性能的最佳平衡点。

下图显示了不同投入水平下的性价比曲线。前代产品 Sonnet 4.6 远逊于 Opus 4.8,但 Sonnet 5 提供的性价比选择范围比 Sonnet 4.6 更广,在某些情况下甚至可以与 Opus 4.8 的性能水平相媲美。

Agent 搜索

Agent 计算机使用

图表显示了 Sonnet 5 的定价,但其实际成本甚至比图中所示还要低。Opus 4.8 的定价为每百万输入 token 5 美元,每百万输出 token 25 美元。xhigh 表示,Opus 4.8 达到了超高投入水平。

来自早期体验合作伙伴的反馈一致,Sonnet 5 比其前代产品更具自主性。测试人员描述了它如何完成以往 Sonnet 型号无法完成的复杂任务,如何在无需明确要求的情况下检查自身输出,以及它如何以极具吸引力的价格完成所有这些自主工作。

一位网友对比了 Claude Sonnet 5 与 Claude Opus 4.8 的体验结果,让它们分别创建一个关于 Claude Sonnet 5 的 HTML 落地页,认为就输出质量而言,Opus 胜出;就模型速度和成本而言,Sonnet 5 胜出。

其中 Sonnet 5 使用 token:输入 20.9k,输出 14.2k,总成本:3.36 美元,耗时:2 分 11 秒。Opus 4.8:使用 token:输入 96.3k,输出 73.8k,总成本:20.66 美元,耗时:20 分 15 秒。

左图为 Opus 4.8 生成网页,右图为 Sonnet 5 生成网页

二、安全防御提升,网络安全任务执行远逊于 Opus 与 Mythos

Anthropic 的部署前安全评估发现,Sonnet 5 总体上比 Sonnet 4.6 有所改进。在 Agent 安全方面,该模型能够更好地拒绝恶意请求,并抵御即时注入攻击中的劫持尝试。与 Sonnet 4.6 相比,该模型表现出更低的幻觉和奉承行为发生率。

在 Anthropic 的自动化行为审查中,该审计测试各种不协调行为,例如滥用和欺骗等,Sonnet 5 的总体得分更低(即更安全)。然而,与 Opus 4.8 和 Claude Mythos Preview 相比,Sonnet 5 在此项评估中表现出的不协调行为发生率略高。

Claude 模型中不一致行为的发生率

Anthropic 并未刻意训练 Sonnet 5 执行网络安全任务。它可以执行一些常规的、无害的网络安全任务,但在测试潜在危险网络安全技能的评估中,例如开发软件漏洞利用程序,它的表现远逊于 Opus 4.8 和 Mythos 5 等模型。

下图展示了一项评估的得分,该评估测试了模型开发针对 Firefox 浏览器漏洞的利用程序的能力。Sonnet 5 从未成功开发出完整的可用漏洞利用程序,但其部分成功率略高于 Sonnet 4.6。后者的变化很可能是由于其通用智能的提升,而非特定训练的结果。

衡量 Claude 模型在开发针对 Firefox 147 软件漏洞的利用程序方面的成功率

如上图所示,对于每个模型,左侧条形图显示模型在无安全措施的情况下,开发出有效利用程序的频率;右侧条形图显示模型部分成功的频率。Sonnet 的两个模型均未能成功开发出有效利用程序,得分均为 0.0%;Sonnet 5 的部分成功率略高于 Sonnet 4.6。Sonnet 的两个模型的网络安全能力均远逊于 Opus 4.8 和 Mythos 5。

由于 Sonnet 5 在这些任务上比其前代产品功能更强大,Anthropic 默认启用了网络安全防护功能。这些防护功能可以实时检测并阻止危险的网络攻击,与 Claude Opus 4.7 和 4.8 中的防护功能相同。因为 Anthropic 评估 Sonnet 5 的总体网络安全风险较低,所以其防护措施比 Fable 5 的防护措施宽松,Fable 5 会阻止更广泛的网络安全攻击。

结语:Sonnet 5 来了,但全网都在等 Fable 5

曾几何时,Sonnet 系列凭借 3.5 至 3.7 版本为开发者打开了 Agent 工程的大门,成为编码与工具调用的标杆。但随后几年,Opus 系列在复杂推理和高端任务上持续领跑,让 Sonnet 逐渐退居 " 高性价比备选 " 之位。

如今,Sonnet 5 试图宣告回归:在高投入场景下性能足以比肩 Opus 4.8,成本更低。不过,对于 Sonnet 5 这种备选方案,很多网友并不买账,而是催着能力更强的 Fable 5 解禁。与此同时,Sonnet 5 也被认为是面向 GML-5.2 等模型打响价格战,头部大模型厂商之间的 Agent 竞赛似乎已进入肉搏阶段。

来源:Anthropic、X

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

出口管制 美国 美国政府 编程
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论