用 Mythos 向外界虚晃一枪后,Anthropic 猝不及防把 Claude Opus 4.7 抬了上来。
不少小伙伴都熬夜玩儿疯了!
一骨碌从床上坐起来边冲浪边上手体验,我从 Opus 4.7 身上总结了一个坏消息和一些好消息。
先说坏消息吧—— Opus 4.7 身上,怎么看怎么有点故人之姿。
动不动就要 " 稳稳接住 " 我。
不少网友也反馈,怎么说是升级,但 Opus 4.7 越用越像 GPT???
如果是真的,这可不是什么好事情(无奈闭眼 .jpg)。
相比坏消息只有一个,好消息那是有一箩筐。
在 Agentic coding、Agentic terminal coding、Scaled tool use、Visual reasoning 等多个方面,都比前作更好。但 Agentic search 等几个单项能力上有所下降。
Anthropic 还很臭屁地表示:
Opus 4.7 是我们家目前最强大的公开可用模型。
不过这不是我们最强大的模型哟~~
看来最强大的还是密而不发的 Mythos。
看看上面的表格,Mythos 在那些测试上的整体表现,均优越约 10% 至 15%。
毫无疑问,Mythos Preview 是目前 Anthropic 手里最夯的一张牌,能力拉满,但价格也是 Opus 4.7 的 5 倍。
相比之下,Opus 4.7 更像是安全体系完成全验证、定价亲民且全平台开放的最强量产版。
但……所谓智者千虑必有一失。
强大的 Opus 4.7 还是在昨日的阴沟里面翻了船:
Claude Opus 4.7 突袭,核心升级四大方向
通览下来,这个公开最强的 Opus 4.7,在四个方向上都有突出表现。
高级软件工程领域:值得托付
Opus 4.7 最显著的进步在高级软件工程领域。
来看这组数据:
SWE-bench Verified 测试达到 78.2%;
SWE-bench Multimodal 达到 72.7%;
Terminal-Bench 2.0 拿下 68.8%;
Rakuten-SWE-Bench 中解决生产任务的数量更是 Opus 4.6 的 3 倍;
GitHub 93 项任务编码基准也提升了 13%。
Cursor 的 CEO Michael Truell 给出了一个关键评价:
在 CursorBench 上,Opus 4.7 从 58% 跃升到 70%,这个跃升意义重大。
这种提升体现在三个关键特性上。
第一,严格遵循指令。
Opus 4.7 不再像早期模型那样 " 灵活解读 " 用户的模糊表述,而是字面执行。
这意味着以前你写 " 如果可能的话,尝试优化这段代码 " 这种提示词,模型可能会选择性忽略。
现在你说 " 优化这段代码 ",它就一定会执行。
这种变化要求用户重新调整提示词策略,软修饰符如 "if possible/ideally/try to" 的权重变得更高,硬限制需要更明确。
第二,输出前自我验证。
Opus 4.7 会在报告结果前 devise ways to verify its own outputs,就像一个资深工程师在提交代码前会自己跑一遍测试。
第三,擅长复杂多文件变更、模糊调试、跨服务代码审查。
Notion 的 AI Lead Sarah Sachs 分享了一个数据:
面对复杂多步骤工作流,Opus 4.7 比 Opus 4.6 提升 14%,而且 token 消耗更少,工具错误只有三分之一。
它是第一个通过我们隐性需求测试的模型。
视觉能力:分辨率 × 3,看见更多细节
在视觉能力方面,Opus 4.7 也有很不错的进步。
官方数据显示,长边最大支持 2576 像素(≈ 3.75 百万像素),是 Opus 4.6 的 3 倍以上;XBOW 视觉敏锐度达到 98.5%(Opus 4.6 仅 54.5%)。
实际落地场景几乎全覆盖,能直接识别完整 Figma 设计稿、1080p 终端截图(含灰色小字),精准解析复杂技术架构图、财报图表,在计算机使用(Computer Use)场景中,可清晰读取高密度 UI 元素,视觉处理能力近乎满分。
换句话说,化学结构解析、复杂技术图表识别、像素级精确的 UI 元素定位,这些过去需要专门模型的任务,现在可以直接用 Opus 4.7 一个模搞定。
Figma 听了立刻股价大跌,怎一个惨字了得。
指令遵循与推理:更可控,更可靠
Opus 4.7 在指令遵循上也有长足进步。
它不再试图猜测用户的真实意图,而是严格按照字面执行。
这次升级的核心优势在于严苛的字面执行,如果用户要求 " 不要用 TypeScript" ,模型就坚决不用;用户要求 " 输出 JSON" ,得到的输出就一定没有任何额外前缀。
这种变化对老用户来说可能需要适应(同时旧提示词易出现意外结果,需重新校准),但对需要精确控制的场景来说是福音。
在推理方面,100 万 token 长上下文场景表现亮眼,BFS 任务得分 58.6%*(Opus 4.6 成绩为 41.2%),复杂推理中逻辑连贯性显著提升。
Agent 能力增强:为 Agent 而生的版本
如果说之前的 Claude 是为对话而生,Opus 4.7 则是为 Agent 而生。
这体现在几个方面。
首先总体来说,Opus 4.7 的核心 Agent 能力有了全方位提升。
多家 AI 知名企业拿出了实际使用效果相关数据—— Notion 多步骤工作流成功率提升 14%,工具调用错误率降至 1/3;Vending-Bench 2 长期经营模拟中,最终余额达 10937 美元(Opus 4.6 剩了 8018 美元),长周期决策更稳健;Genspark 场景下,抗死循环、一致性、错误恢复三大生产级特性拉满。
同时具备文件系统记忆,跨多会话可靠记住关键信息,新任务可减少 40% 重复上下文输入。
Cognition 的 CEO Scott Wu 的描述更形象:
Opus 4.7 在 Devin 中将长周期自主性提升到新水平。
它能连贯工作数小时,突破难题而不是放弃,解锁了我们以前无法可靠运行的一类深度调查工作。
与此同时,Opus 4.7 还为开发者提供了许多令人狂喜的 Agent 相关四件套。
第一,新增 xhigh 推理等级,作为默认等级介于 high 与 max 之间。
这给了开发者更精细的控制权,可以在推理深度和延迟之间找到平衡点,平衡智能与 token 成本,适配多数编码 /Agent 任务。
第二,新增自适应思考模式,替代固定预算长思考,模型自主决定思考深度,简单查询快速响应,复杂步骤重点投入。
第三,任务预算(公开 beta),开发者可引导 token 消耗,优化长任务资源分配。
第四,Claude Code 新增 /ultrareview 命令,可创建专属审查会话,标记细微错误与设计问题。
想做一个靠谱的模型:首发防护,记忆增强
Anthropic 官方表示,Opus 4.7 的网络安全能力不如 Mythos Preview。
不过这是他们刻意为之。
这种 " 自我设限 " 背后,是 Anthropic 对 AI 安全的一贯坚持。
自 2021 年成立以来,这家公司花了四年时间精心打造自己的声誉,试图对外塑造一个 " 比 OpenAI 等竞争对手更注重安全和负责任 AI 部署 " 的声誉。
在 Mythos Preview 引发业界对强大 AI 模型安全风险的热议之后,Opus 4.7 被设计成一道缓冲带。
具体来说,Anthropic 在训练中尝试了差异化降低 Opus 4.7 的网络能力,让模型在面对网络安全相关任务时表现出更谨慎的行为模式。
与此同时,官方发布了自动检测和阻止高风险网络安全请求的防护措施,这些 safeguards 能够自动识别并拦截表明 prohibited 或 high-risk 网络安全用途的请求。
而对于确实有合法网络安全需求的专业人士,Anthropic 推出了 Cyber Verification Program。
安全专业人员如需将 Opus 4.7 用于漏洞研究、渗透测试、红队演练等合法目的,可以通过正式渠道申请。
官网还在上线播客的最后写到,如果开发者们想从 Opus 4.6 迁移到 4.7 版本,有一些事项需要格外注意。
首先是 tokenizer 的更新。
Opus 4.7 使用了新的分词器,虽然改善了文本处理效率,但相同输入可能映射到更多 tokens,大约是 1.0 到 1.35 倍之间。
这意味着同样的提示词可能会消耗更多 token,需要在成本预算中留出余量。
其次是在更高努力级别下会产生更多输出 tokens。
Opus 4.7 在 high 和 xhigh 级别下的思考深度明显增加,特别是在 Agent 场景的多轮对话后期。
这种 " 多思考、更可靠 " 的行为模式提升了输出质量,但也意味着 token 消耗会随会话长度增长。
与 Opus 4.6 同价,有这些注意事项你需要知道
目前,Opus 4.7 已实现全平台开放。
除 Claude 官方途径外,新模型不仅登陆 Claude Pro/Max/Team/Enterprise 全系产品、官方 API,还同步上线微软 Foundry、谷歌 Cloud Vertex AI、亚马逊 Bedrock 三大云平台。
其定价与 Opus 4.6 保持一致:输入 5 美元每百万 tokens,输出 25 美元每百万 tokens。
虽然如前所述,Opus 4.7 涉及提示词的重构需求和 token 使用策略的调整,但 Anthropic 在自己的内部测试中给出了积极信号。
在一个内部 Agent 编码评估中,所有 effort level 下的 token 使用效率相比 Opus 4.6 都有改善。
换句话说,虽然单次调用的 token 数可能增加,但完成任务所需的总 token 往往更少,因为模型犯错的次数减少了。
大概就像你雇了个时薪更高的资深工程师,但他完成任务的速度更快、返工更少,最终总成本可能更低。
另外,Opus 4.7 在后续轮次中会更加谨慎,特别是在 Agent 场景中。
这意味着更可靠的输出,但也意味着更多的 token 消耗。
开发者可以通过调整 effort 参数、设置任务预算或优化提示词来平衡性能与成本。
Anthropic 建议,在测试 Opus 4.7 的编码和 Agent 用例时,从 high 或 xhigh 努力级别开始,根据实际需求逐步调整。
Anyway~
总的来说,实际使用成本会因使用方式的不同而变化,但大多数情况下,能力提升带来的效率增益会抵消 token 消耗的增加。
对于依赖 Claude 进行复杂开发工作的团队来说,这很可能是一笔划算的交易。
参考链接:
[ 1 ] https://www.anthropic.com/news/claude-opus-4-7
[ 2 ] https://www.cnbc.com/2026/04/16/anthropic-claude-opus-4-7-model-mythos.html
[ 3 ] https://x.com/i/trending/2044560325509316766


