文 | 山自
就在今天凌晨,AI 领域迎来了一场足以改写行业格局的重磅发布!Anthropic 正式推出其旗舰模型 Claude Opus 4.5,以令人震惊的定价策略和突破性的性能表现,在大模型战场上投下了一枚 " 核弹 "。这不仅是技术迭代,更是一场深刻的市场革命——API 调用成本直降三分之二,在严格的软件工程测试中历史性地超越所有人类工程师,标志着 AI 技术正式迈入一个全新的发展阶段。
顶级 AI 能力进入普惠时代
Anthropic 此次的定价调整堪称 " 毁灭性打击 "。具体来看,Opus 4.5 的输入 token 价格从之前的每百万 15 美元骤降至5 美元,输出 token 价格从 75 美元暴跌至25 美元,整体降幅达到了惊人的67%!这一价格水平甚至让许多竞争对手的中端模型都显得黯然失色。
更值得关注的是,Anthropic 同时宣布了一系列普惠性政策:32K 上下文窗口现在完全免费开放,此前需要额外付费的 " 无限对话 " 功能也向所有付费用户全面开放。这意味着开发者和企业用户现在可以用更低的成本,享受到更强大的 AI 能力。

Anthropic 产品负责人 Scott White 在接受 CNBC 专访时表示:" 我们真切地希望确保这项技术能够为所有想要使用这些模型的人真正发挥作用。我们的核心关注点始终是:如何让 Claude 更好地帮助您完成那些在工作中不一定想亲自处理的任务?"
编码能力首次超越人类专家
在最具权威性和挑战性的 SWE-bench Verified 测试中,Opus 4.5 取得了80.9% 的惊人成绩。这一表现不仅显著超越了 OpenAI 刚刚发布的 GPT-5.1-Codex-Max(77.9%)和谷歌上周推出的 Gemini 3 Pro(76.2%),更在 Anthropic 内部最严格的工程能力测试中创造了新的历史记录。

" 在我们规定的 2 小时时限内,Claude Opus 4.5 的得分高于任何人类候选人 ",Anthropic 在官方博客中郑重宣布。这项测试原本是为选拔顶级性能工程师而设计的,专门评估候选人在时间压力下的技术能力和专业判断力。

虽然公司方面谨慎地表示,这项测试并不衡量候选人可能具备的其他关键技能,如协作、沟通或多年经验形成的本能,但这一里程碑式的结果无疑引发了业界对 "AI 将如何重塑工程技术行业 " 的深度思考。
智能与成本的完美平衡
Opus 4.5 引入了创新的 " 努力参数 "(effort parameter)机制,让开发者能够在性能与成本之间找到最佳平衡点。这一设计充分体现了 Anthropic 对实际应用场景的深刻理解。
具体数据显示,在中等努力水平设置下,Opus 4.5 能够匹配 Sonnet 4.5 在 SWE-bench Verified 上的最佳表现,同时输出 token 使用量减少了 76%。而在高等努力水平下,Opus 4.5 的性能比 Sonnet 4.5 高出 4.3 个百分点,同时token 使用量仍减少 48%。
这种效率提升在实际企业应用中产生了显著效果。GitHub 首席产品官 Mario Rodriguez 证实:" 早期测试显示,Opus 4.5 在内部编码基准测试中表现卓越,同时将 token 使用量减半,特别适合代码迁移和代码重构等复杂任务。"
Replit 总裁 Michele Catasta 进一步补充道:"Opus 4.5 在我们的内部基准测试中击败了 Sonnet 4.5 和竞争对手,同时使用更少的 token 解决相同问题。在规模应用中,这种效率优势将产生复合效应。"
AI 智能体学会自主优化
更令人惊叹的是,Opus 4.5 展现出了前所未有的自我优化能力。日本电商巨头乐天公司的测试结果令人震惊:基于 Opus 4.5 的 AI 代理仅用4 次迭代就达到了峰值性能,而其他模型即使经过 10 次迭代仍无法达到同等质量水平。
乐天商业 AI 总经理 Yusuke Kaji 表示:" 我们的代理能够自主优化自身能力——在 4 次迭代中就达到了峰值性能,而其他模型即使在 10 次迭代后也无法匹配这种质量。"
Anthropic 的 Albert 解释说,这种能力并非模型在更新自身的权重参数,而是在迭代改进解决问题的工具和方法。" 它在一个任务中迭代优化某项技能,试图通过优化技能来获得更好的性能,从而完成这个任务。"
这种自我进化能力不仅限于编码任务。Albert 表示,Anthropic 在创建专业文档、电子表格和演示文稿等方面也观察到了显著的改进。" 测试者告诉我们,这是他们在模型代际之间见过的最大的飞跃,甚至从 Sonnet 4.5 到 Opus 4.5 的进步,比过去任何两个连续模型之间的进步都要大。"
全面升级的工作流集成
伴随着模型的重磅发布,Anthropic 同步推出了一系列生产力工具的重大更新:
Claude for Chrome现已全面向所有 Max 用户开放,实现了真正的跨浏览器智能操作能力。用户现在可以在浏览器标签页中无缝使用 Claude 的各项功能,大大提升了工作效率。
Claude for Excel正式面向 Max、Team 和 Enterprise 用户发布,新增了对数据透视表、图表分析和文件上传等高级功能的支持。这意味着财务分析师、顾问和会计师等知识工作者现在可以更高效地处理复杂的数据分析任务。
桌面版 Claude Code现在支持本地与云端开发会话的并行运行,为开发者提供了前所未有的灵活性。同时,新引入的 " 程序化工具调用 " 功能允许 Claude 直接编写和执行代码来调用函数,极大地扩展了其自动化能力。
企业级防护能力全面提升
在安全性能方面,Opus 4.5 展现了显著的进步。根据 Anthropic 发布的系统卡数据,新模型在抵御提示注入攻击方面的稳健性大幅提升:
在单次提示注入攻击测试中,Opus 4.5 的成功率仅为 4.7%,远低于 Gemini 3 Pro 的 12.5% 和 GPT-5.1 的 12.6%。即使在 10 次攻击尝试下,成功率也控制在 33.6%,相比竞争对手的 60.7% 和 58.2% 有了明显改善。

在代理编码评估中,Opus 4.5 对 150 个恶意编码请求的拒绝率达到了 100%,展现了出色的安全防护能力。不过,在 Claude Code 环境下测试恶意软件创建、DDoS 攻击代码编写等场景时,模型的拒绝率约为 78%,而在计算机使用场景中的拒绝率超过 88%,这说明在特定环境下仍需保持警惕。
开发生态:为下一代 AI 应用奠基
Anthropic 此次还对 Claude 开发者平台进行了重要升级。增强的上下文管理和内存功能使代理任务性能提升了近 15%,而新的多代理协调能力让构建复杂 AI 系统变得更加可行。

这些改进在实际应用中已经产生了显著效果。金融建模公司 Fundamental Research Labs 联合创始人 Nico Christie 报告称:" 在我们内部的评估中,准确率提高了 20%,效率提升了 15%,曾经看似无法完成的复杂任务现在变得可以实现了。"
Cursor CEO Michael Truell 评价道:"Opus 4.5 相比之前的 Claude 模型在 Cursor 内部有了显著改进,在困难编码任务上具有更好的定价和智能表现。"Cognition CEO Scott Wu 补充说:" 该模型在我们最困难的评估中提供了更强结果,并在 30 分钟自主编码会话中保持了一致的性能。"
AI 民主化进程加速
此次发布正值 AI 竞争进入白热化阶段—— OpenAI 在上周刚刚推出 GPT-5.1 系列,谷歌的 Gemini 3 也才亮相七天。Anthropic 在短短两个月内完成了 Haiku、Sonnet、Opus 三个产品线的迭代更新,展现了惊人的研发速度和技术积累。
更令人印象深刻的是,Anthropic 在 2025 年第一季度实现了 20 亿美元的年化收入,较前期的 10 亿美元翻了一番。年消费超过 10 万美元的客户数量同比增长了八倍,这充分显示了市场对其技术的高度认可。
Albert 坦言,这种快速的发布节奏部分得益于使用 Claude 来加速自身开发。" 我们在实际产品构建和模型研究方面都看到了 Claude 本身的很多协助和加速作用。"
当 AI 在专业工程测试中开始系统性超越人类专家,我们正站在一个历史性的转折点上。Claude Opus 4.5 的发布不仅代表了技术的突破,更预示着工作方式的根本性变革。这一刻,我们见证的不仅是另一个 AI 模型的发布,而是智能计算新时代的开启。


登录后才可以发布评论哦
打开小程序可以发布评论哦