智东西 08-06
Claude Opus 4.1深夜狙击OpenAI,SWE-bench编程卷到74.5%,预告更强大模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

编译 | 王涵

编辑 | 漠影

智东西 8 月 6 日消息,今天,Anthropic 正式发布 Claude Opus 4.1。

据 Anthropic 公告,新模型在智能体工具调用、智能体编程与多语言问答能力上全面超越 OpenAI o3,Anthropic 还计划在未来数周内为模型推出更大幅度的改进。

Anthropic 推文截图(来源:X)

Opus 4.1 现已面向付费 Claude 用户及 Claude Code 提供,该版本同时登陆 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 平台,开发者可通过 API 使用 claude-opus-4-1-20250805 版本。

在定价上,Opus 4.1 与 Opus 4 保持一致,输入 15 美元(约合人民币 107.8 元)/ 百万 token,输出 75 美元(约合人民币 538.8 元)/ 百万 token。

性能方面,Opus 4.1 在 SWE-bench Verified 上的顶级编码性能提升至 74.5%,该版本还增强了 Claude 的深度研究与数据分析能力,特别是在细节追踪和智能体搜索方面。

在 GitHub 上,相较于 Opus 4,Claude Opus 4.1 在多数能力维度均有提升,其中多文件代码重构的性能进步尤为显著。

Opus 4.1 在智能体工具调用与多语言问答能力上超越 OpenAI o3,在智能体编程方面的分数为 74.5% 和 43.3%,大幅超越 OpenAI o3 和 Gemini 2.5 Pro,但其在视觉推理和数学能力上与 OpenAI o3 和 Gemini 2.5 Pro 还有一定的差距。

Anthropic 的公告中透露,Rakuten Group 发现 Opus 4.1 擅长在大型代码库中精确定位修正点,且不会进行不必要的调整或引入错误,其团队更倾向在日常调试任务中使用这种精准性。

Windsurf 报告显示,在其初级开发者基准测试中,Opus 4.1 相比 Opus 4 实现了 1 个标准差的提升,性能跃升幅度相当于从 Sonnet 3.7 升级至 Sonnet 4。

结语:大模型竞赛进入 " 智能体时代 "

从基准测试结果可以看出,Anthropic 这次推出的 Claude Opus 4.1,主要在大模型的智能体相关能力上,例如智能体编程和智能体工具调用等方面,进行了升级侧重。

也从侧面反映出,如今的大模型开始朝着 " 给智能体提供更智能的大脑 " 的方向升级迭代,为智能体的进一步发展夯实地基。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

编程 amazon 竞赛 数据分析
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论