腾讯科技 3小时前
Fable 5解禁,Anthropic同步发Sonnet 5模型抢人
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

Anthropic CEO 达里奥 · 阿莫迪。图片由 AI 生成

文丨 苏扬

编辑丨徐青阳

Fable 5 回归在即,Anthropic 连夜发了一款中端模型抢用户。

美国当地时间 6 月 30 日,Anthropic 发布了 Claude Sonnet 5,并将其定位为 " 迄今为止智能体能力最强的 Sonnet 模型 "。

Anthropic 表示,模型能自主制定计划,调用浏览器和终端等外部工具,在没有人工干预的情况下独立完成多步骤任务。

Anthropic 在官方博客中写道,智能体时代对很多开发者来说始于 Sonnet 级别模型,Claude Sonnet 3.5、3.6 和 3.7 是首批在编码和工具使用方面展现出技能的模型,但近期智能体能力最显著的提升主要来自 Opus 级别。

Sonnet 5 的作用是把这种能力往下放,让中端模型也能做到过去需要旗舰模型才能完成的事。

价格方面,8 月 31 日前,输入每百万 token 2 美元,输出每百万 token 10 美元,之后回调为标准定价,输入每百万 token 3 美元,输出每百万 token 15 美元。

作为对比,Opus 4.8 的定价是输入 5 美元、输出 25 美元。按标准定价计算,Sonnet 5 每百万 token 的成本比 Opus 4.8 低约六成。

值得注意的是,此前因为安全问题被下架的 Fable 5 系列模型将迎来转机。

美国商务部长卢特尼克在社交平台 X 上发帖称,在过去的两个星期里,我们与 Anthropic 密切合作,对 Fable 5 进行了分析与批准,以确保美国政府内部达成一致,暗示这款被誉为 Anthropic 史上最强模型即将回归。

随后,Anthropic 回应称,已收到通知,Claude Fable 5 和 Mythos 5 将于明天(当地时间 7 月 1 日)开始恢复访问。

Anthropic 回应 Fable 5 解禁

01 基准测试全面跳涨,一项评估直接反超 Opus

Anthropic 公布了五项主要评估成绩,Sonnet 5 在所有项目上均较前代 Sonnet 4.6 有明显提升。

Sonnet 5 在五项主要评估中缩小了与旗舰模型 Opus 的差距,并在其中一项上实现反超

在智能体编码基准 SWE-bench Pro 上,Sonnet 5 得分 63.2%。Sonnet 4.6 为 58.1%,Opus 4.8 为 69.2%。差距从前代的 11.1 个百分点缩小到 6 个百分点。

在 Terminal-Bench 2.1 编码评估中,Sonnet 5 拿到 80.4%。Sonnet 4.6 只有 67.0%,Opus 4.8 为 82.7%。这项评估上 Sonnet 5 较前代提升了 13.4 个百分点,与 Opus 4.8 的差距只剩 2.3 个百分点。

多学科推理方面,评估用的是 Humanity ‘ s Last Exam。Anthropic 在此次发布中更新了这项考试评分模型,并将 Sonnet 4.6 的得分修正为 34.6%(无工具)和 46.8%(有工具),与 Sonnet 4.6 发布博客中报告的数字不同。

Sonnet 5 在无工具条件下得分 43.2%,有工具辅助下得分 57.4%。有工具时 57.4% 的成绩与 Opus 4.8 的 57.9% 基本持平,差距仅 0.5 个百分点。

计算机使用评估 OSWorld-Verified,Anthropic 同样调整了评估方式,使其更准确反映模型在真实世界中的表现。Sonnet 4.6 的得分由此更新为 78.5%。Sonnet 5 的得分是 81.2%,提升了 2.7 个百分点。

在计算机使用任务上,Sonnet 5 以更低的单任务成本,接近了 Opus 4.8 的准确度

知识工作基准测试 GDPval-AA v2 是 Sonnet 5 唯一直接超过 Opus 4.8 的项目。Sonnet 5 得分 1618 分,Sonnet 4.6 为 1395 分,Opus 4.8 为 1615 分。

Anthropic 在官方博客中表示,从这些评估结果来看,Sonnet 5 的进步幅度很大,性能已经跃升到了与 Opus 4.8 大幅重叠的层级。

02 未进行特殊安全训练

Anthropic 在部署前安全评估中对 Sonnet 5 做了多项测试,结论是相比 Sonnet 4.6 整体有所改进。

在智能体安全方面,Sonnet 5 更擅长拒绝恶意请求,抵抗提示注入攻击劫持的能力也更强。出现幻觉和谄媚行为的比率较 Sonnet 4.6 更低。在自动化行为审计中,测试范围覆盖了配合滥用、欺骗等广泛的不当行为,Sonnet 5 的总体得分低于 Sonnet 4.6,即不当行为发生率更低,更安全。

Anthropic 能力更强的模型,不当行为发生率比 Sonnet 5 更低,但 Sonnet 5 相较前代已有明显改善

与 Opus 4.8 和 Claude Mythos Preview 相比,Sonnet 5 在相同审计中显示出略高的不当行为发生率。Anthropic 的安全评估是一套梯度体系:模型能力越强,安全对齐表现越好。Sonnet 5 处于中间位置,优于前代但不及旗舰模型。

在网络攻击能力方面,Anthropic 与 Mozilla 合作进行了评估,测试模型为 Firefox 147 浏览器中的漏洞开发利用程序的能力。相关漏洞已在 Firefox 148 中修补。

两个 Sonnet 模型都未能针对 Firefox 漏洞生成可利用程序,而 Mythos 5 的成功率接近 90%

两个 Sonnet 模型均未能成功开发出可用的漏洞利用程序,成功率为 0.0%。Sonnet 5 的部分成功率为 13.2%,Sonnet 4.6 为 8.8%。与之相比,Opus 4.8 的漏洞利用成功率为 68.8%,Mythos 5 为 88.4%。两个 Sonnet 模型与旗舰模型在网络攻击能力上的差距在一个数量级以上。

Anthropic 表示没有特意针对网络安全任务训练 Sonnet 5。该公司分析认为,Sonnet 5 在部分成功率上的微小提升很可能来自通用智能的改善,而非专项训练。它可以执行一些常规、无害的网络任务,但在开发软件漏洞利用等有潜在危险的技能上,远低于 Opus 和 Mythos 系列。

由于 Sonnet 5 在这类任务上比前代稍强,Anthropic 默认启用了网络安全防护功能。这套防护系统可实时检测并阻止危险的网络使用行为,防护等级与 Opus 4.7 和 4.8 上的相同。

与之对照,Fable 5 的防护措施更为严格,会拦截范围更广的网络安全任务。Anthropic 对 Sonnet 5 的整体网络风险判断为较低水平,因此没有采用最严等级的防护。对于需要较少防护的网络安全工作,Anthropic 推荐使用 Opus 4.8。

03 性能、token 消耗同步提升

Anthropic 在公告脚注中披露了一项技术变更。

Sonnet 5 使用了更新的 tokenizer,改变了模型处理文本的方式,目的是提升性能。这个改动与 Claude Opus 4.7 中引入的 tokenizer 更改类似。

更新 tokenizer 的代价是,相同内容的输入可能映射为原来 1.0 到 1.35 倍的 token 数量,具体取决于内容类型。也就是说,同一段文字在 Sonnet 5 中可能比在 Sonnet 4.6 中消耗更多 token。

Anthropic 解释称,优惠定价的设定旨在使用户过渡到 Sonnet 5 时大致保持成本中性。但 " 大致 " 意味着存在变量,运行高容量工作负载的企业客户需要对自己特定用例做基准测试,不能直接假定账单不变。

速率限制方面,为适应 Sonnet 5 更高等努力程度设置带来的更高 token 使用量,Anthropic 已提高 Chat、Cowork、Claude Code 和 Claude Platform 的速率限制。

在此之前,2026 年 4 月 26 日,Anthropic 已将每个使用层级的 Sonnet 和 Haiku 速率限制调高,同时将 Claude Platform 的层级简化为三个:Start、Build 和 Scale。用户可以在 Claude Console 中查看自己所在的层级和当前限制。

04 用规模换估值

Sonnet 5 发布的时间节点处于 Anthropic 筹备 IPO 的关键阶段。

该公司已经于 2026 年 6 月初向 SEC 秘密提交了 IPO 招股说明书,CNBC 称这将是 " 科技史上最受审视的公开募股活动 "。

据《卫报》报道,Anthropic 在 2026 年 2 月以 3800 亿美元估值融资 300 亿美元时,年化营收达到 140 亿美元,过去三年每年增长超过十倍。到 5 月下旬,该公司完成 650 亿美元 H 轮融资,由 Altimeter Capital 和 Sequoia Capital 等共同领投,投后估值 9650 亿美元,年化营收超过 470 亿美元。

PitchBook 分析师哈里森 · 罗尔夫斯(Harrison Rolfes)表示,私人市场三年来一直在给 AI 公司定高价,这个叙事能不能站住脚,关键数字既不是估值,也不是营收,要看毛利率。但毛利率数字,外部至今还没见过。

在 Sonnet 5 发布前一天,加州州长加文 · 纽森(Gavin Newsom)宣布了一项合作,以 50% 的折扣向所有州政府机构提供 Claude 服务,并提供免费的劳动力培训,优惠延伸到加州各市县。Anthropic 美洲区负责人凯特 · 詹森(Kate Jensen)表示,此举的目的是 " 让 Claude 为维护本州运转的人们服务 "。这种政府合同通常代表着持久的、经常性的收入来源。

竞争方面,OpenAI 在 2026 年 3 月以 8520 亿美元估值完成 1220 亿美元融资,同样在筹备 IPO。

埃隆 · 马斯克(Elon Musk)的 SpaceX 与 xAI 合并后,IPO 定价每股 135 美元,估值达到 1.77 万亿美元。Google、Meta 也在推进自己的企业级 AI 产品。据《华尔街 · 日报》报道,亚洲 AI 初创公司正在开发类似 Mythos 的网络安全能力。

各方都在争夺同一个企业市场。

D.A. Davidson 科技研究主管吉尔 · 卢里亚(Gil Luria)表示,尽管 Anthropic" 在尖端 AI 模型方面似乎处于领先地位 ",但 " 他们当前的大部分使用量来自试用和实验,这可能无法持续 "。这句话指向了所有 AI 实验室的共同问题:把开发者的实验性使用转化为生产级收入。

特约编译金鹿对本文亦有贡献

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

美国 技能 美国政府 社交平台 尼克
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论