智东西 11-25
Claude Opus 4.5来了!单次生成打造《我的世界》,还破解高难度Agent测评
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 陈骏达

编辑 | 李水青

智东西 11 月 25 日报道,今天,Anthropic 发布了自家的旗舰编程模型 Claude Opus 4.5。Anthropic 称,这是全球范围内在编程、agents 和计算机使用方面最强大的模型。

在真实世界软件工程测试 SWE-bench Verified 中,Claude Opus 4.5 成为首款得分超过 80% 的 AI 模型,不仅领先于自家的 Claude Sonnet 4.5,还超过了上周发布的 Gemini 3 Pro 和 GPT-5.1 Codex-Max。

Anthropic 还把该公司面试人类工程师的高难度居家考试交给 Claude Opus 4.5,结果,在规定的两小时内,Claude Opus 4.5 的得分高于以往任何人类应聘者,这表型 AI 模型在重要技术技能方面,已经超越了优秀的人类应聘者。

编程并非 Claude Opus 4.5 唯一的改进,其视觉、推理和数学能力都优于前代产品,可较好地胜任深度研究、处理幻灯片和电子表格等日常任务。

与此同时,Claude Opus 系列模型的价格,这回真被 Anthropic 打下来了。Claude Opus 4.5 的定价为每百万 tokens 5 美元(输入)/25 美元(输出),仅为前代 Claude Opus 4.1 的 1/3。同时,Anthropic 还移除了专门针对 Opus 系列的用量限制。

Claude Opus 4.5 现已在 Claude 应用程序、API 中可用,不过,使用 Opus 前,用户还得开一个 200 美元 / 月的最高档套餐。Claude Opus 4.5 也已在 AWS、谷歌云和微软 Azure 三大主流云平台上线。

一、前端表现再飞跃,还一次性完美复刻《我的世界》

Claude Opus 4.5 用起来效果究竟怎么样?在 Anthropic 官宣模型发布的评论区中,已有不少用户晒出了自己的一手体验。

前端能力上,前端开发者平台 Vercel 的 CEO Guillermo 用 Claude Opus 4.5 打造了一个购物网站,一次性生成的结果如下:

Guillermo 感叹,Claude Opus 4.5 的水平完全不同,好得让人难以置信。

这位网友分享了自己用 Claude Opus 4.5 打造的 4 个 Hero Section,这是网站或 App 中的一个重要区域,用来吸引用户的注意力。可以看到,这几个页面都无论是字体设计,还是网页布局,都很有高级感。

有网友用 Claude Opus 4.5 打造了《我的世界》克隆版,这考察了模型更为复杂的项目上的性能。Claude Opus 4.5 一次就成功了,生成了 3500 行代码,网友认为这意味着 Claude Opus 4.5 不会像 Gemini 3.0 Pro 一样偷工减料。

Claude Opus 4.5 复刻的《我的世界》游戏有模有样,拥有不同的生物群系(平原、沙漠、雪地),树叶和水的透明方块也恰到好处,还有一套非常棒的物品栏和合成系统。所有这些都集成在一个游戏中。它甚至还打造了云朵效果,网友称自己此前从未见过哪个模型能做到这一点。

AI 订阅平台 Every 的联合创始人兼 CEO Dan Shipper 感叹道,每隔半年到一年,就会出现一款真正改变行业格局的模型,而今天发布的 Claude Opus 4.5,就是那款模型。Shipper 称这是他用过的最好的编程模型,没有之一。

二、7 门编程语言测试领先,安全性大幅提升

发布前,Anthropic 对 Claude Opus 4.5 模型进行了内部测试。测试人员称,Claude Opus 4.5 能够处理模糊不清的情况,并能权衡利弊,无需过多指导。

当遇到复杂的多系统错误时,Claude Opus 4.5 能够自行找到修复方法,几周前 Claude Sonnet 4.5 几乎无法完成的任务,现在 Claude Opus 4.5 已经能够轻松应对。Anthropic 的测试人员告诉模型团队,Claude Opus 4.5 真的 " 很懂行 "。

Anthropic 分享了 Claude Opus 4.5 在多个基准测试上的表现。在考察多种编程语言掌握程度的 SWE-bench Multilingual 中,Claude Opus 4.5 在 8 种编程语言里的 7 种实现性能领先。

在考察深度搜索 Agent 能力的 BrowseComp-Plus 中,Claude Opus 4.5 较 Claude Sonnet 4.5 展现出约 4.7% 的优势。

Claude Opus 4.5 还破解了一些常用的基准测试。例如,在衡量智能体能力的 τ2-bench 中,模型需要扮演航空公司客服人员的角色,帮助一位遇到困难的乘客。

该基准测试题要求模型拒绝修改经济舱机票,因为航空公司不允许更改该舱位的机票。然而,Claude Opus 4.5 找到了一种巧妙且合理的解决方案:先升舱,然后再修改航班。

从技术层面来说,由于 Claude Opus 4.5 帮助客户的方式出乎意料,基准测试将其判定为失败。但这种创造性的问题解决方式,是一次意义重大的进步。

在其他情况下,寻找绕过预期限制的巧妙方法可能被视为奖励破解——即模型以非预期的方式 " 玩弄 " 规则或目标。

防止此类偏差是 Anthropic 安全测试的目标之一。在内部评估中,Claude Opus 4.5 展现出令人担忧的行为的概率略高于 10%,远低于 GPT-5.1 和 Gemini 3 Pro 的 20%。

Claude Opus 4.5 在抵御提示词注入攻击方面取得了显著进展。提示注入攻击会偷偷植入欺骗性指令,诱使模型执行有害行为。Opus 4.5 比业内任何其他前沿模型都更难被提示注入攻击欺骗。

三、新增思考强度控制,用上 GPT 同款上下文压缩功能

在发布最新模型的同时,Anthropic 还宣布了 Claude 开发者平台的一系列新增功能。

随着模型智能水平的提升,它们能以更少步骤解决问题:减少回溯、冗余探索和冗长推理。Claude Opus 4.5 相比前代模型,在达成相同或更优结果时显著减少了 token 消耗。但不同任务需要不同的权衡——开发者有时希望模型持续思考难题,有时则需要更敏捷的响应。

通过 Claude API 新增的 " 思考强度 " 参数(effort parameter),开发者可自主选择最小化时间成本或最大化模型能力。

在中等强度设置下,Claude Opus 4.5 在 SWE-bench Verified 测试中达到 Sonnet 4.5 最佳成绩,同时输出 token 减少 76%。

在最高强度下,其性能超越 Claude Sonnet 4.5 达 4.3 个百分点,且节省 48% 的 token。

结合强度控制、上下文压缩与高级工具使用能力,Claude Opus 4.5 能处理更持久复杂的任务,并减少人工干预。值得注意的是,OpenAI 上周推出的 GPT-5.1 Codex Max 也具备上下文压缩的新功能。

Claude 开发者平台在上下文管理与记忆能力方面实现突破,显著提升了智能体任务的表现。Claude Opus 4.5 在协调子智能体团队方面尤为出色,支持构建复杂且协作良好的多智能体系统。测试数据显示,这些技术组合使 Claude Opus 4.5 在深度研究评估中的性能提升近 15 个百分点。

Anthropic 公司正持续提升开发者平台的可组合性,通过提供效率控制、工具使用和上下文管理等基础模块,助力开发者精准构建所需功能。

产品方面,Claude Code 随 Claude Opus 4.5 获得双重升级:计划模式能制定更精确方案并彻底执行——首先主动询问澄清问题,随后生成用户可编辑的 plan.md 文件再实施操作。

同时该功能现已登陆桌面应用,支持并行运行本地与远程会话,实现多智能体协同工作(如同时进行代码修复、GitHub 研究及文档更新)。

针对 Claude 应用程序用户,长对话不再受限于上下文长度,系统会自动总结早期对话内容,以保持交流连续性。

面向所有 Max 用户的 Claude for Chrome 现已全面开放,支持跨浏览器标签页处理任务;十月发布的 Claude for Excel 今日将测试权限扩展至所有 Max、Team 及 Enterprise 用户。这些更新均得益于 Claude Opus 4.5 在计算机操作、电子表格处理及长时任务管理方面的提升。

Claude Opus 4.5 打造的 PPT

对于已获 Claude Opus 4.5 使用权限的 Claude 与 Claude Code 用户,平台取消了 Opus 专属限额。面向 Max 和 Team Premium 用户,总体使用额度得到提升,这意味着用户现在可使用的 Opus token 量相当于此前 Sonnet 的配额。

结语:长时序、端到端能力成编程模型升级重点

随着 Claude Opus 4.5 的发布,编程模型又迎来新的标杆。其在复杂任务规划、多智能体协作及长时序任务处理上的突破,标志着 AI 正从 " 代码补全工具 " 向 " 端到端开发伙伴 " 演进。

近期 Anthropic、OpenAI 等厂商的编程模型发展方向,都更聚焦于长时序任务的高效执行、大体量项目的端到端完成。随着模型绝对性能的提升和使用成本的降低,软件开发流程或将迎来深刻变革。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

我的世界 ai 编程 考试
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论