AI可以自审代码了，Opus 4.7出手解决“屎山”

别的 AI 厂商发模型，上来一定会告诉你 " 我们这次的产品多厉害多强大 "。但 Anthropic 不一样，他们说 " 我们有更强的，但先不能给你。"

于是在 2026 年 4 月 17 日，Anthropic 发布了 Claude Opus 4.7。

这次发布没有太多悬念，官方博客按部就班地列出了跑分、能力提升和应用场景。但如果你仔细读完整篇公告，会发现一些不太寻常的地方。

Opus 4.7 紧跟在 Anthropic 的 Project Glasswing 和 Mythos Preview 之后。而上周他们刚刚宣布 Mythos Preview 因为网络安全能力过强，暂时限制发布。

因此 Opus 4.7 被明确定位为 " 第一款用来测试新网络安全护栏的公开模型 "。

官方甚至还说，他们在训练过程中实验性地削弱了这个模型的网络安全能力。

那 Opus 4.7 具体如何呢？

Opus 4.7 的性能如何？

先说常规部分。

Opus 4.7 在多个基准测试上超过了 Opus 4.6，尤其是在高级软件工程任务上。

官方图表里，Opus 4.7 在 SWE-Bench Verified 上为 87.6%，Opus 4.6 为 80.8%；在更难的 SWE-Bench Pro 上，Opus 4.7 为 64.3%，Opus 4.6 为 53.4%；在 Terminal-Bench 2.0 上，Opus 4.7 为 69.4%，Opus 4.6 为 65.4%；Finance agent v11 上，Opus 4.7 为 64.4%，Opus 4.6 为 60.1%。

让我们用人话来解释一下这一串数字：你现在可以把更复杂的编程工作交给 Opus 4.7，它会更严谨地处理长时间运行的任务，更精确地遵循指令，还会在汇报之前想办法验证自己的输出。

在 Opus 4.7 早期测试者的反馈里，有几个点值得注意。

第一个是指令遵循能力大幅提升。

Opus 4.7 会严格按照字面意思理解指令，而之前的模型往往会松散解读或者跳过某些部分。

这听起来是好事，但实际上可能带来麻烦。其表现为 Opus 4.7 更 " 听话 " 了，但这反而会让一些旧提示词失效。

以前的 Claude 可能会比较 " 会意 "。你写一个模糊指令，它会自动补全你的真实意图，或者忽略一些不太重要、互相冲突、写得不清楚的要求。很多用户的提示词，其实是在这种旧模型习惯上调出来的。

但 Opus 4.7 官方说，它更倾向于严格按字面意思执行指令。这样一来，旧提示词里那些以前被模型自动忽略的小细节，现在可能会被认真执行。而以前模型会灵活处理的模糊表达，现在反而会按最直接的方式理解。

结果就是模型明明更强了，但输出反而和用户预期不一样。

第二个是多模态支持改进。

Opus 4.7 可以接受长边最高 2576 像素的图像，大约 3.75 兆像素，是之前 Claude 模型的三倍多。

这不是普通的 " 识图能力 " 升级，而是为了让 AI 能看懂软件界面，服务于 Anthropic 的 Computer Use 功能。

Opus 4.7 的视觉升级，不是为了让用户问 " 这张图里有什么 "，而是为了让 agent 能看懂软件界面。

agent 如果看不清密集表格、终端输出、设计稿细节、代码截图，它的操作能力再强也没用，因为它只知道怎么干活，却不知道去哪上班。

Anthropic 把图像分辨率往上提，本质上是在给 Claude 装更清楚的眼睛。

未来 AI 办公、AI 测试、AI 安全、AI 前端开发，很多任务都不是纯文本任务，而是屏幕任务。

第三个是实际工作表现。

内部测试显示，Opus 4.7 在金融分析任务上比 Opus 4.6 更有效，能产出更严谨的分析和模型、更专业的演示文稿，以及更紧密的跨任务整合。

它在 GPQAval-AA 这个第三方评估中也是最高分，这是一个覆盖金融、法律等领域的评估。

第四个是记忆能力。

Opus 4.7 更会使用基于文件系统的记忆。它能在长周期、多会话的工作中记住重要笔记，后续任务需要的前置信息更少。

这个点在官方公告里不显眼，但我认为可能是长期使用中最关键的一个更新特性。

一个能跨会话记住项目约束、用户偏好、架构决策和上次失败原因的 agent，才可能从 " 聪明临时工 " 变成 " 稳定同事 "。

安全性和对齐方面，Opus 4.7 和 Opus 4.6 的整体表现相似。

它在诚实度和抵抗恶意提示注入攻击的能力上有所提升，在给出危害建议的能力上有所下降，比如如何制作使用管制刀具这类问题。

官方的对齐评估结论是，这个模型 " 基本对齐且值得信赖，但行为上还不完全理想 "。

价格方面，Opus 4.7 和 Opus 4.6 保持一致。输入每百万 token 5 美元，输出每百万 token 25 美元。

但迁移指南里提到了两个成本变化。新的 tokenizer 可能让相同输入变成 1.0 到 1.35 倍的 token。在强思考模式下，尤其是 agent 的多轮对话，模型会思考更多，输出的 token 也可能更多。

所以这就是 Anthropic 耍小心思的地方了，名义上价格确实没变，但跑多了就会变贵。

过去模型计费主要看输入输出长度，现在还要看思考的等级、任务预算、agent 跑了几轮、工具失败后有没有继续推理。

Anthropic 新增的 x-high effort 和 task budgets，说明高端模型的使用方式正在走当年云计算的那套逻辑。你买的不是一次回答，而是在给一个会思考、会试错、会验证的任务过程付费。

Anthropic 为何会发布阉割模型？

话又说回来，Opus 4.7 的真正卖点之一，恰恰是它没有完全释放能力。

这听起来有点反直觉，但可能是下一代模型公司的常态。

模型越接近真实生产环境，越不能只追求更强。它要知道哪些事能做、哪些事不能做、哪些用户能开放更多权限，哪些请求必须拦住。

Anthropic 在发布 Opus 4.7 的同时，推出了 Cyber Verification Program。

这个项目本质上是在给能力分级。普通用户拿到的是有护栏的 Opus，经过验证的安全专家才能申请更宽的网络安全用途。

模型会自动检测和阻止那些表明禁止或高风险网络安全用途的请求。

Anthropic 说，他们会从 Opus 4.7 的真实部署中学习，为未来 Mythos 级别模型的广泛发布做准备。

不得不说还是 Anthropic 会玩，他们认为 Opus 目前的能力是过剩的，所以他们就把安全这件事，变成了产品能力。

过去几年，AI 公司的竞争逻辑是 " 我比你强 "。跑分更高、参数更多、能做的事更复杂。但当模型能力达到某个临界点后，这个逻辑开始失效。

一个在网络安全测试中表现太好的模型，可能意味着它也能被恶意使用。一个完全不设限的 agent，就有可能会在用户不知情的情况下做出危险决策。

Anthropic 选择的路径是，先把最强的模型锁起来，用稍弱但足够好的模型来测试安全机制。这不是技术上做不到，而是主动选择不做。这种 " 克制 " 本身成了产品差异化的一部分。

这个策略能不能成功，取决于市场是否认可 " 谨慎 " 这个概念。

如果用户只在乎 " 能不能做到 "，那 Anthropic 的做法会显得保守。但如果企业客户开始重视 " 会不会出事 "，那这种分级发布、主动削弱某些能力的做法，反而可能成为竞争优势。

在发布 Opus 4.7 的同时，Anthropic 还更新了 Claude Code，新增了 auto mode 和 /ultrareview 功能。

auto mode 不是模型自动选型，而是权限选项。它允许 Claude 替用户做一些权限决策，让长任务少被打断，但风险低于完全跳过权限确认。

这个设计针对的是 agent 产品的核心矛盾：问太多，agent 像实习生；不问，风险又太大。

agent 时代最难设计的按钮，不是 " 开始 "，而是 " 允许 "。

过去 AI 只是回答问题，权限很少。

现在它要改代码、读文件、跑命令、开网页、提交 PR，每一步都牵涉风险。

如果每个操作都要用户确认，agent 的自主性就失去了意义。但如果完全放手，用户又会担心 AI 做出不可逆的错误决策。

auto mode 的本质，就是在 " 别烦我 " 和 " 别乱来 " 之间找平衡。

它会根据操作的风险级别，决定是自动执行、提示用户、还是要求明确授权。

这也是 agent 从 " 能干什么 "，到 " 能不能用 " 之间巨大的飞跃。

/ultrareview 是一个专门的代码审查会话，读取变更并指出 bug 和设计问题。

这个功能可比写代码好玩多了，因为它说明 AI 编程正式进入了第二阶段，让 AI 自己审查 AI 自己生成的代码。

AI 写代码已经不稀奇，真正稀缺的是 AI 能不能审自己的代码。

/ultrareview 像是 Anthropic 给 Claude Code 补上的第二双眼睛。

一个 agent 负责写，另一个更谨慎的会话负责审。

不用看数据我都能猜到，这两个功能一定是高频功能。因为本质上，这两个功能过去就是所有使用 Claude Code 的程序员干的活。

生成代码只是开发流程的一部分，审查、测试、重构、文档同样重要。如果 AI 只能做第一步，它永远只是辅助工具。如果它能参与整个流程，它才可能真正改变软件开发的方式。

这次发布还有一个细节值得注意。官方在迁移指南里专门提醒广大用户，Opus 4.7 的 token 使用可能增加，但在实际编程评估中，整体效率反而提升了。

这说明他们在优化的不是单次调用的成本，而是完成任务的总成本。一个 agent 如果第一次就把事情做对，即使单次调用贵一点，总成本也比反复试错要低。

这是一种更成熟的产品思路。早期 AI 产品追求的是 " 便宜 " 和 " 快 "，现在开始追求 " 靠谱 "。

Opus 4.7 不是最强的模型，Anthropic 也没有把它包装成最强的模型。

它是在能力、安全、成本之间的一个平衡点。但是说它是不是真的平衡，我不知道，这个要等市场来验证。

至少在发布策略上，Anthropic 给出了一种新思路，因为有时候 " 不做什么 " 比 " 能做什么 " 更重要。

宙世代

一起剪

相关标签