Claude Opus 4.5来了！单次生成打造《我的世界》，还破解高难度Agent测评

智东西

作者 | 陈骏达

编辑 | 李水青

智东西 11 月 25 日报道，今天，Anthropic 发布了自家的旗舰编程模型 Claude Opus 4.5。Anthropic 称，这是全球范围内在编程、agents 和计算机使用方面最强大的模型。

在真实世界软件工程测试 SWE-bench Verified 中，Claude Opus 4.5 成为首款得分超过 80% 的 AI 模型，不仅领先于自家的 Claude Sonnet 4.5，还超过了上周发布的 Gemini 3 Pro 和 GPT-5.1 Codex-Max。

Anthropic 还把该公司面试人类工程师的高难度居家考试交给 Claude Opus 4.5，结果，在规定的两小时内，Claude Opus 4.5 的得分高于以往任何人类应聘者，这表型 AI 模型在重要技术技能方面，已经超越了优秀的人类应聘者。

编程并非 Claude Opus 4.5 唯一的改进，其视觉、推理和数学能力都优于前代产品，可较好地胜任深度研究、处理幻灯片和电子表格等日常任务。

与此同时，Claude Opus 系列模型的价格，这回真被 Anthropic 打下来了。Claude Opus 4.5 的定价为每百万 tokens 5 美元（输入）/25 美元（输出），仅为前代 Claude Opus 4.1 的 1/3。同时，Anthropic 还移除了专门针对 Opus 系列的用量限制。

Claude Opus 4.5 现已在 Claude 应用程序、API 中可用，不过，使用 Opus 前，用户还得开一个 200 美元 / 月的最高档套餐。Claude Opus 4.5 也已在 AWS、谷歌云和微软 Azure 三大主流云平台上线。

一、前端表现再飞跃，还一次性完美复刻《我的世界》

Claude Opus 4.5 用起来效果究竟怎么样？在 Anthropic 官宣模型发布的评论区中，已有不少用户晒出了自己的一手体验。

前端能力上，前端开发者平台 Vercel 的 CEO Guillermo 用 Claude Opus 4.5 打造了一个购物网站，一次性生成的结果如下：

Guillermo 感叹，Claude Opus 4.5 的水平完全不同，好得让人难以置信。

这位网友分享了自己用 Claude Opus 4.5 打造的 4 个 Hero Section，这是网站或 App 中的一个重要区域，用来吸引用户的注意力。可以看到，这几个页面都无论是字体设计，还是网页布局，都很有高级感。

有网友用 Claude Opus 4.5 打造了《我的世界》克隆版，这考察了模型更为复杂的项目上的性能。Claude Opus 4.5 一次就成功了，生成了 3500 行代码，网友认为这意味着 Claude Opus 4.5 不会像 Gemini 3.0 Pro 一样偷工减料。

Claude Opus 4.5 复刻的《我的世界》游戏有模有样，拥有不同的生物群系（平原、沙漠、雪地），树叶和水的透明方块也恰到好处，还有一套非常棒的物品栏和合成系统。所有这些都集成在一个游戏中。它甚至还打造了云朵效果，网友称自己此前从未见过哪个模型能做到这一点。

AI 订阅平台 Every 的联合创始人兼 CEO Dan Shipper 感叹道，每隔半年到一年，就会出现一款真正改变行业格局的模型，而今天发布的 Claude Opus 4.5，就是那款模型。Shipper 称这是他用过的最好的编程模型，没有之一。

二、7 门编程语言测试领先，安全性大幅提升

发布前，Anthropic 对 Claude Opus 4.5 模型进行了内部测试。测试人员称，Claude Opus 4.5 能够处理模糊不清的情况，并能权衡利弊，无需过多指导。

当遇到复杂的多系统错误时，Claude Opus 4.5 能够自行找到修复方法，几周前 Claude Sonnet 4.5 几乎无法完成的任务，现在 Claude Opus 4.5 已经能够轻松应对。Anthropic 的测试人员告诉模型团队，Claude Opus 4.5 真的 " 很懂行 "。

Anthropic 分享了 Claude Opus 4.5 在多个基准测试上的表现。在考察多种编程语言掌握程度的 SWE-bench Multilingual 中，Claude Opus 4.5 在 8 种编程语言里的 7 种实现性能领先。

在考察深度搜索 Agent 能力的 BrowseComp-Plus 中，Claude Opus 4.5 较 Claude Sonnet 4.5 展现出约 4.7% 的优势。

Claude Opus 4.5 还破解了一些常用的基准测试。例如，在衡量智能体能力的 τ2-bench 中，模型需要扮演航空公司客服人员的角色，帮助一位遇到困难的乘客。

该基准测试题要求模型拒绝修改经济舱机票，因为航空公司不允许更改该舱位的机票。然而，Claude Opus 4.5 找到了一种巧妙且合理的解决方案：先升舱，然后再修改航班。

从技术层面来说，由于 Claude Opus 4.5 帮助客户的方式出乎意料，基准测试将其判定为失败。但这种创造性的问题解决方式，是一次意义重大的进步。

在其他情况下，寻找绕过预期限制的巧妙方法可能被视为奖励破解——即模型以非预期的方式 " 玩弄 " 规则或目标。

防止此类偏差是 Anthropic 安全测试的目标之一。在内部评估中，Claude Opus 4.5 展现出令人担忧的行为的概率略高于 10%，远低于 GPT-5.1 和 Gemini 3 Pro 的 20%。

Claude Opus 4.5 在抵御提示词注入攻击方面取得了显著进展。提示注入攻击会偷偷植入欺骗性指令，诱使模型执行有害行为。Opus 4.5 比业内任何其他前沿模型都更难被提示注入攻击欺骗。

三、新增思考强度控制，用上 GPT 同款上下文压缩功能

在发布最新模型的同时，Anthropic 还宣布了 Claude 开发者平台的一系列新增功能。

随着模型智能水平的提升，它们能以更少步骤解决问题：减少回溯、冗余探索和冗长推理。Claude Opus 4.5 相比前代模型，在达成相同或更优结果时显著减少了 token 消耗。但不同任务需要不同的权衡——开发者有时希望模型持续思考难题，有时则需要更敏捷的响应。

通过 Claude API 新增的 " 思考强度 " 参数（effort parameter），开发者可自主选择最小化时间成本或最大化模型能力。

在中等强度设置下，Claude Opus 4.5 在 SWE-bench Verified 测试中达到 Sonnet 4.5 最佳成绩，同时输出 token 减少 76%。

在最高强度下，其性能超越 Claude Sonnet 4.5 达 4.3 个百分点，且节省 48% 的 token。

结合强度控制、上下文压缩与高级工具使用能力，Claude Opus 4.5 能处理更持久复杂的任务，并减少人工干预。值得注意的是，OpenAI 上周推出的 GPT-5.1 Codex Max 也具备上下文压缩的新功能。

Claude 开发者平台在上下文管理与记忆能力方面实现突破，显著提升了智能体任务的表现。Claude Opus 4.5 在协调子智能体团队方面尤为出色，支持构建复杂且协作良好的多智能体系统。测试数据显示，这些技术组合使 Claude Opus 4.5 在深度研究评估中的性能提升近 15 个百分点。

Anthropic 公司正持续提升开发者平台的可组合性，通过提供效率控制、工具使用和上下文管理等基础模块，助力开发者精准构建所需功能。

产品方面，Claude Code 随 Claude Opus 4.5 获得双重升级：计划模式能制定更精确方案并彻底执行——首先主动询问澄清问题，随后生成用户可编辑的 plan.md 文件再实施操作。

同时该功能现已登陆桌面应用，支持并行运行本地与远程会话，实现多智能体协同工作（如同时进行代码修复、GitHub 研究及文档更新）。

针对 Claude 应用程序用户，长对话不再受限于上下文长度，系统会自动总结早期对话内容，以保持交流连续性。

面向所有 Max 用户的 Claude for Chrome 现已全面开放，支持跨浏览器标签页处理任务；十月发布的 Claude for Excel 今日将测试权限扩展至所有 Max、Team 及 Enterprise 用户。这些更新均得益于 Claude Opus 4.5 在计算机操作、电子表格处理及长时任务管理方面的提升。

Claude Opus 4.5 打造的 PPT

对于已获 Claude Opus 4.5 使用权限的 Claude 与 Claude Code 用户，平台取消了 Opus 专属限额。面向 Max 和 Team Premium 用户，总体使用额度得到提升，这意味着用户现在可使用的 Opus token 量相当于此前 Sonnet 的配额。

结语：长时序、端到端能力成编程模型升级重点

随着 Claude Opus 4.5 的发布，编程模型又迎来新的标杆。其在复杂任务规划、多智能体协作及长时序任务处理上的突破，标志着 AI 正从 " 代码补全工具 " 向 " 端到端开发伙伴 " 演进。

近期 Anthropic、OpenAI 等厂商的编程模型发展方向，都更聚焦于长时序任务的高效执行、大体量项目的端到端完成。随着模型绝对性能的提升和使用成本的降低，软件开发流程或将迎来深刻变革。

宙世代

一起剪

相关标签