两小时高强度工程任务,模型得分超过所有人类!
刚刚,Claude Opus 4.5 问世,主打编码、Agent 与 computer use。

Opus 4.5 在前端开发、视觉能力上显著提升,更擅长使用电脑。

在深度研究、PPT 制作与电子表格处理等日常任务方面的表现也全面升级。

让它用附件模板创建财务对比分析,分分钟就能完成模板读取、同行数据收集与估值倍数表创建,直接输出 Excel 成果:

用它修改法律文档,它也能迅速解包模板、修改公司名称、检查签名块,最终生成的 Word 文件包含修订痕迹与定制内容:

团队实测中发现,模型核心优势在于 " 理解力 ",它能解决 Sonnet 模型无法发现的 bug,同时知道 " 何时先思考再行动 "。

目前,Opus 4.5 已通过 app、API 及三大主流云平台开放使用。开发者通过 Claude API 调用 claude-opus-4-5-20251101 即可使用,定价每百万 tokens 5 美元(输入)/25 美元(输出)。
与此同时,官方还更新了 Claude 开发者平台、Claude Code 及 App,并拓展了在 Excel、Chrome 及桌面端使用 Claude 的新方式。
编码智能体能力全面升级
团队内部测试发现,Claude Opus 4.5 能够自主处理模糊场景、权衡复杂决策,无需人工引导;面对跨系统复杂漏洞时,可独立定位并提供修复方案。
之前 Sonnet 4.5 几乎无法完成的任务,如今 Opus 4.5 已能轻松胜任。测试者普遍认为 Claude Opus 4.5 能 " 真正理解用户需求 "。
团队向应聘性能工程师职位的候选人发放了一份业界公认难度极高的居家测试(take-home exam)。同时,他们也将这份考题作为内部基准,用来测试 Claude Opus 4.5。
在规定的 2 小时时间限制内,Claude Opus 4.5 的得分超过了所有参加过该考试的人类候选人。
团队表示,该居家测试旨在评估技术能力与时间压力下的判断力,这一结果引发了关于 AI 如何重塑工程行业的思考。
下面来看具体数据。
在视觉处理、推理与数学方面,Claude Opus 4.5 均超越前代,达业界顶尖水平:

编码能力方面,Opus 4.5 在 SWE-bench 多语言测试中,8 种编程语言里有 7 种的表现位列榜首。

在 Aider Polyglot 基准测试中,面对高难度编码难题,得分较 Sonnet 4.5 大幅提升 10.6%:

Opus 4.5 在智能体搜索方面也有显著提升:

长时任务续航能力拉满,在 Vending-Bench 测试中,Opus 4.5 的任务完成收益较 Sonnet 4.5 高出 29%,全程保持高效输出不跑偏:

团队强调,模型的实际能力甚至比部分测试基准测出来的要更好。有时候,Claude 的解决方案会超出预期,基准测试会将此判定为失败。
比如在 τ 2-bench 中,有一个场景,模型必须扮演航空公司服务 Agent,帮助一位陷入困境的客户。基准测试预期模型应拒绝修改基础经济舱预订(因该舱位规定不可更改),但 Opus 4.5 却找到了巧妙且合规的解决方案:先升级舱位,再修改航班。

最后,Claude Opus 4.5 安全防护能力升级,尤其是在抵御提示词注入攻击等方面:


开发者平台以及系列产品升级
面向开发者,Claude API 新增了 " 努力度参数 " (effort parameter),开发者可根据需求选择最小化时间与成本或最大化能力表现。
在中等努力度设置下,Claude Opus 4.5 在 SWE-bench Verified 测试中达到 Sonnet 4.5 的最佳得分,输出 tokens 用量却减少 76%。
在最高努力度设置下,其性能较 Sonnet 4.5 提升 4.3 个百分点,同时 tokens 用量减少 48%。

借助努力度控制、上下文压缩及高级工具调用功能,Claude Opus 4.5 支持更长时运行、更多任务处理,且所需人工干预大幅减少。

Claude Opus 4.5 还能高效管理多个子智能体,支持构建复杂协调的多智能体系统。
在团队测试中,结合这些技术,Opus 4.5 在深度调研评估中的表现提升了近 15 个百分点。
另外,Claude 系列产品也随之升级了。
随 Opus 4.5 的发布,Claude Code 推出两大新功能:
计划模式(Plan Mode)现在能生成更精准的执行计划并全面落地,Claude 会先主动确认需求细节,再生成可编辑的 plan.md 文件后执行操作。
Claude Code 现已登陆桌面端应用,支持并行运行多个本地及远程会话,也就是说,可同时安排一个智能体修复漏洞,一个检索 GitHub,另一个更新文档。

对于 Claude app 用户,再也不用担心上下文窗口不够,长对话中断。现在 Claude 会自动按需总结之前的对话内容,聊天直接解锁无限续航模式。
除此之外,支持跨标签页处理任务的 Chrome 浏览器 Claude 扩展程序,现已向所有 Max 订阅用户开放。

Claude for Excel 今日起将测试权限扩展至所有 Max、Team 及 Enterprise 用户。

面向可使用 Opus 4.5 的 Claude 及 Claude Code 用户,官方取消了 Opus 专用限额。针对 Max 与 Team Premium 用户的整体使用额度已上调,Opus tokens 用量与此前 Sonnet 大致持平。
官方 Blog:https://www.anthropic.com/news/claude-opus-4-5
参考链接:https://x.com/claudeai/status/1993030546243699119?s=20
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
快来量子位 MEET2026 智能未来大会,与我们畅聊 AI 吧!
张亚勤、孙茂松等 AI 行业重磅嘉宾,以及百度、京东、高通、亚马逊等头部 AI 企业已确认出席,RockAI、太初元碁、自变量、小宿科技等业内新秀也将参与分享,还有更多嘉宾即将揭晓 了解详情
12 月 10 日
北京金茂万丽酒店
,期待与你共论 AI 行业破局之道
点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦