
智东西
作者|王涵
编辑|心缘
智东西 2 月 6 日报道,今天凌晨,Anthropic 正式发布旗舰模型Claude Opus 4.6,是 Anthropic首款开启 100 万 token 上下文窗口测试功能的旗舰级模型。

Opus 4.6 具备更缜密的规划能力,能维持更长时间的智能体任务执行,可以在庞大代码库中稳定运行,并能够进行自我纠错。
在基准测试中,Opus 4.6 在智能体编程评估 Terminal-Bench 2.0 中获得最高分,于综合性多学科推理测试 Humanity ’ s Last Exam 中也坐稳了第一名的宝座。
针对金融、法律等经济价值领域的 GDPval-AA 评估中,Opus 4.6 也是第一,并较第二名的 GPT-5.2 拉开约144 个 Elo 分差,较前代版本 Claude Opus 4.5 提升了190 分。

就在 Opus 4.6 发布后几分钟,OpenAI 把 GPT-5.3-Codex 也搬了出来 " 正面硬刚 "。截至北京时间 2 月 6 日 11 点,X 平台上有关 "Claude VS Codex" 的话题下已有 4.1 万条讨论。

Varick Agent 的 CEO"vas" 发帖称:"Claude 4.6 Opus 仅用一次调用就重构了我的整个代码库。25 次工具调用,新增 3000 多行代码,创建了 12 个全新文件。它模块化了所有内容,拆解了单体架构,理顺了混乱的逻辑。结果没一个能运行,但重构后的代码,实在是美得惊人。"

有网友展示出他用 Opus 4.6 一次性做出的 k 线成交量分布表。评论区纷纷感叹:这要是真的,那一切都结束了。
在话题讨论中,有不少网友都自发测评了 Opus 4.6 与 GPT-5.3 Codex 这两款模型,还晒出了测试 Agent 在复杂现实世界任务中的表现的 Terminal-Bench,结果显示 GPT-5.3 Codex 比 Opus 4.6 领先了 11.9%。

在网友的测评中,在编程方面 GPT-5.3 Codex 获得的好评似乎更多。有网友发出对比:"Opus 4.6 有 100 万上下文 + 企业 / 知识工作 + 发现 500 个零日漏洞 +Claude 代码中的 Agent 集群 - 基准测试成绩不如 Codex 5.3;而 gpt-5.3-codex 有代码基准测试胜出 + 速度更快 + 任务中转向,但上下文窗口不到 Opus 的一半。"

还有网友放出了更直观的性能对比图:



价格上,在 200K 上下文以内(包括 200K),Opus 4.6 输入每百万 token 的价格为 5 美元(约合人民币 34.69 元),输出每百万 token 的价格为 25 美元(约合人民币 173.45 元);超过 200K 上下文,Opus 4.6 输入每百万 token 的价格为 10 美元(约合人民币 69.38 元),输出每百万 token 的价格为 37.5 美元(约合人民币 260.18 元)。

此外,Anthropic 还将向 Pro 与 Max 用户限时赠送价值 50 美元(约合人民币 346.9 元)的额外使用额度,不适用于 Team 版、企业版及 API/ 控制台用户。
使用额外额度的用户需同时满足以下两个条件:
1、已于 2026 年 2 月 4 日(太平洋时间)晚 11:59 前开通 Pro 或 Max 订阅;
2、在 2026 年 2 月 16 日(太平洋时间)晚 11:59 前启用额外用量功能。
Claude Opus 4.6 即日起在 claude.ai 官网、API 接口及所有主流云平台同步上线。开发者可通过 Claude API 调用 claude-opus-4-6 模型。
一、" 大海捞针 " 测试得分 76%,缓解 " 上下文衰减 " 问题
在多语言编程测试 SWE-bench Multilingual 中,Opus 4.6 的成绩较 Opus 4.5 提升1.6 分;在网络安全漏洞复现测试 CyberGym 中,Opus 4.6 获得66.6 分,较 Opus 4.5 提升15.6 分,是 Sonnet 4.5 分数的两倍多。

Opus 4.6 在长文本连贯性测试 Vending-Bench 2 中以 8017.59 的分数大幅领先,在计算生物学 BioPipelineBench 测试中也以53.1 分的成绩位居第一。

Opus 4.6 在从海量文档中检索相关信息方面能力较上一代有所提升。这一优势延伸至长上下文任务,它能在处理数十万 token 时更稳定地保持和追踪信息,减少信息漂移,并能捕捉到可能遗漏的深层细节。
Anthropic 团队在博客中称,用户常抱怨 AI 模型存在" 上下文衰减 " 问题——即对话超过一定 token 数量后性能会下降。
对此,研究团队对 Opus 4.6 进行了 MRCR v2 的 "8 针 -100 万 " 变体测试,这是类似于一种在浩瀚文本中检索隐藏信息的 " 大海捞针 " 式基准测试。在这个测试中 Opus 4.6 得分达76%,而 Sonnet 4.5 仅得18.5%。

Opus 4.6 的综合基准测试如下图所示。总而言之,Opus 4.6 在长上下文中查找信息更精准,吸收信息后的推理能力更强。

二、行为失范率极低,新增六类网络安全探测工具
智能水平的飞跃并未以牺牲安全性为代价。在 Anthropic 的自动化行为审计中,Opus 4.6 的行为失范率极低,行为失范包括欺骗、奉承、助长用户妄想以及配合滥用等情形。
其安全对齐程度与前代旗舰模型,即迄今为止对齐度最高的 Claude Opus 4.5 保持同等水准。

值得注意的是,Opus 4.6 在所有近期 Claude 模型中展现出最低的过度拒绝率,即模型未能回应良性查询的情况。

在博客中,Anthropic 团队透露,针对 Opus 4.6,他们开展了迄今最全面的安全评估体系,首次应用多项全新测试方法并对既有评估方案进行升级。Anthropic 团队新增了用户福祉评估、更复杂的危险请求拒答能力测试,并更新了模型隐蔽执行有害行为的评估标准。
同时,其运用可解释性科学的新方法进行实验,开始探究模型特定行为背后的成因,以期发现标准测试可能遗漏的问题。
针对 Opus 4.6 在特定领域可能被危险利用的突出能力,研究团队同步部署了新的防护机制。尤其鉴于该模型显著增强的网络安全能力,他们开发了6 种新型网络安全探测工具以帮助追踪不同形式的潜在滥用行为。
同时,Anthropic 也在加速推进 Opus 4.6 在网络防御领域的应用,通过其协助发现并修复开源软件漏洞。
他们认为网络防御者利用 Claude 这类 AI 模型来平衡攻防态势至关重要。网络安全领域发展迅速,Anthropic 将根据对潜在威胁的认知持续调整和更新防护措施,近期其可能启动实时干预机制以阻断滥用行为。
三、API 新增自适应思考功能,Claude Code 现可多智能体并行
通过 API 接口,开发者们还可以获取到更精细的模型算力控制方案,并为长期运行的智能体任务带来更高灵活性。具体新增以下功能:
1、自适应思考:此前开发者仅能在启用或禁用深度思考模式间二选一。现在通过自适应思考功能,Claude 可自主判断何时需要深度推理。在默认算力等级(高)下,模型会在必要时启动深度思考,开发者也可通过调整算力等级来改变其触发频率。
2、算力调控:现提供四个可调节的算力等级:低、中、高(默认)、极致。
3、上下文压缩(测试版):长程对话与智能体任务常触及上下文窗口限制。当对话接近可配置阈值时,上下文压缩功能将自动总结并替换早期对话内容,使 Claude 能够执行更长任务而不受限制。
4、100 万 token 上下文(测试版):当提示内容超过 20 万 token 时,将适用高级定价。
5、128k 输出 token:Opus 4.6 支持最高 128k token 的输出长度,使 Claude 能完整处理需要大规模输出的任务,无需拆分为多次请求。
6、美国境内推理:对于需要在美国境内运行的工作负载,可选择美国专属推理服务,定价为标准 token 费用的 1.1 倍。
在 Claude 与 Claude Code 平台,Anthropic 新增了多项功能:
Claude Code 中新增智能体团队的研究预览功能。现在用户可以启动多个并行工作的智能体,它们将自主协同配合,特别适用于代码库审查这类可拆分为独立、重读取的子任务。
在与常用办公工具的协作体验方面,Claude Excel 集成版现在能够处理长时程与高难度任务,支持先规划后执行、自主解析非结构化数据并推断正确格式,还能单次完成多步骤修改。
Excel 集成版还能搭配 PowerPoint 集成版使用,用户可先在 Excel 中处理并结构化数据,再通过 PowerPoint 实现可视化呈现。
PowerPoint 集成功能现已面向 Max、Team 及企业版用户开放研究预览。
四、放手两千次会话,Opus 4.6 率智能体团队 " 炼 " 出十万行 C 编译器
Anthropic 官方还给出了一个开发者使用并行 Claude 智能体团队构建 C 语言编译器的案例。在这个案例中,开发者指派 Opus 4.6 率领智能体团队构建一个 C 语言编译器,随后便基本放手任其运行,仅用两周,就完成了一个小团队一个月的工作。
在为期两周、近 2000 次Claude Code 会话中,Opus 4.6 消耗了20 亿个输入 token 并生成1.4 亿个输出 token,总成本略低于2 万美元(约合人民币 13.88 万元),这个成本仅相当于开发者个人独立完成所需投入的零头。
最终 Opus 4.6 做出了一个有着10 万行代码规模的编译器,并且是净室实现,即开发全程 Claude 无网络访问权限,仅依赖 Rust 标准库。
这个编译器能在 x86、ARM 和 RISC-V 架构上构建可启动的Linux 6.9 内核,还能编译QEMU、FFmpeg、SQLite、PostgreSQL、Redis等大型项目。
该编译器在包括 GCC torture 测试套件在内的大多数编译器测试中达到99% 通过率,甚至通过了编译器、操作系统等底层技术的 " 终极测试 ":成功编译并运行第一人称射击游戏《Doom》。
经过多轮实践,开发者总结出了协调多个 Claude 高效协作的四大核心方法:
1、改进测试框架:
在项目后期,Claude 每次实现新功能时都会频繁破坏现有功能。为此开发者构建了持续集成流水线,实施更严格的检查机制,让 Claude 能更好地测试自身工作,确保新提交不会破坏现有代码。
2、站在 Claude 的视角设计适配环境:
每个智能体都启动于无上下文的新容器中,会花费大量时间自我定位,尤其在大型项目中。甚至在运行测试前,为帮助 Claude 自助,开发者需要在说明中要求维护详细的 README 文档和进度文件,并需频繁更新当前状态。
3、简化并行机制:
当存在多个独立失败的测试时,并行化轻而易举,但当智能体开始编译 Linux 内核时却陷入困境。与包含数百个独立测试的套件不同,编译 Linux 内核是单项巨型任务,所有智能体都会遇到相同的 bug,修复后却互相覆盖修改,运行 16 个智能体也不行,因为它们都卡在解决同一问题上。
为此,开发者编写了新测试框架,将 GCC 作为在线验证编译器进行比对。这让每个智能体都能并行工作,在不同文件中修复不同 bug,直至 Claude 的编译器最终能编译所有文件。
4、多元智能体角色分工:
LLM 编写的代码常重复实现现有功能,因此开发者指派了一个智能体专门合并发现的重复代码。另一个负责优化编译器本身的性能,第三个则专攻输出高效的编译代码,还让一个智能体以 Rust 开发者视角批判项目设计并进行结构性改进,另设智能体专注文档工作。
开发者称,该成果已经逼近 Opus 的能力边界,但仍有需要提升的方面:
1、16 位 x86 编译器缺失:缺乏从实模式启动 Linux 必需的 16 位 x86 编译器,该环节需调用 GCC(x86_32 和 x86_64 编译器为自主实现);
2、汇编器与链接器不完善:这两部分是 Claude 最后开始自动化的模块,目前仍存在较多缺陷。演示视频中使用的是 GCC 汇编器与链接器;
3、兼容性未达全替代标准:虽能成功构建众多项目,但尚不能完全替代真实编译器;
4、代码生成效率偏低:即使启用所有优化选项,其输出代码效率仍低于禁用优化的 GCC;
5、Rust 代码质量有限:代码质量尚可,但远未达到专业 Rust 程序员的水准。
结语:Anthropic 在安全性上下了狠功夫
Opus 4.6 在长上下文理解、复杂推理与智能体协作等方面的性能提升,为企业级高密度、长周期任务提供了新的解决方案。
同时,在 Anthropic 的博客中,他们用了很大篇幅来写新模型的安全性。Anthropic 通过增强安全评估体系与部署主动防护机制,展现出对 AI 风险治理的前置性投入。


登录后才可以发布评论哦
打开小程序可以发布评论哦