智东西 02-06
Claude Opus 4.6杀死编程比赛!挖出500个0day漏洞,生成k线成交量分布,还有PPT直出
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者|王涵

编辑|心缘

智东西 2 月 6 日报道,今天凌晨,Anthropic 正式发布旗舰模型Claude Opus 4.6,是 Anthropic首款开启 100 万 token 上下文窗口测试功能的旗舰级模型。

Opus 4.6 具备更缜密的规划能力,能维持更长时间的智能体任务执行,可以在庞大代码库中稳定运行,并能够进行自我纠错

在基准测试中,Opus 4.6 在智能体编程评估 Terminal-Bench 2.0 中获得最高分,于综合性多学科推理测试 Humanity ’ s Last Exam 中也坐稳了第一名的宝座。

针对金融、法律等经济价值领域的 GDPval-AA 评估中,Opus 4.6 也是第一,并较第二名的 GPT-5.2 拉开约144 个 Elo 分差,较前代版本 Claude Opus 4.5 提升了190 分

就在 Opus 4.6 发布后几分钟,OpenAI 把 GPT-5.3-Codex 也搬了出来 " 正面硬刚 "。截至北京时间 2 月 6 日 11 点,X 平台上有关 "Claude VS Codex" 的话题下已有 4.1 万条讨论。

Varick Agent 的 CEO"vas" 发帖称:"Claude 4.6 Opus 仅用一次调用就重构了我的整个代码库。25 次工具调用,新增 3000 多行代码,创建了 12 个全新文件。它模块化了所有内容,拆解了单体架构,理顺了混乱的逻辑。结果没一个能运行,但重构后的代码,实在是美得惊人。"

有网友展示出他用 Opus 4.6 一次性做出的 k 线成交量分布表。评论区纷纷感叹:这要是真的,那一切都结束了。

在话题讨论中,有不少网友都自发测评了 Opus 4.6 与 GPT-5.3 Codex 这两款模型,还晒出了测试 Agent 在复杂现实世界任务中的表现的 Terminal-Bench,结果显示 GPT-5.3 Codex 比 Opus 4.6 领先了 11.9%。

在网友的测评中,在编程方面 GPT-5.3 Codex 获得的好评似乎更多。有网友发出对比:"Opus 4.6 有 100 万上下文 + 企业 / 知识工作 + 发现 500 个零日漏洞 +Claude 代码中的 Agent 集群 - 基准测试成绩不如 Codex 5.3;而 gpt-5.3-codex 有代码基准测试胜出 + 速度更快 + 任务中转向,但上下文窗口不到 Opus 的一半。"

还有网友放出了更直观的性能对比图:

价格上,在 200K 上下文以内(包括 200K),Opus 4.6 输入每百万 token 的价格为 5 美元(约合人民币 34.69 元),输出每百万 token 的价格为 25 美元(约合人民币 173.45 元);超过 200K 上下文,Opus 4.6 输入每百万 token 的价格为 10 美元(约合人民币 69.38 元),输出每百万 token 的价格为 37.5 美元(约合人民币 260.18 元)。

此外,Anthropic 还将向 Pro 与 Max 用户限时赠送价值 50 美元(约合人民币 346.9 元)的额外使用额度,不适用于 Team 版、企业版及 API/ 控制台用户。

使用额外额度的用户需同时满足以下两个条件:

1、已于 2026 年 2 月 4 日(太平洋时间)晚 11:59 前开通 Pro 或 Max 订阅;

2、在 2026 年 2 月 16 日(太平洋时间)晚 11:59 前启用额外用量功能。

Claude Opus 4.6 即日起在 claude.ai 官网、API 接口及所有主流云平台同步上线。开发者可通过 Claude API 调用 claude-opus-4-6 模型。

一、" 大海捞针 " 测试得分 76%,缓解 " 上下文衰减 " 问题

在多语言编程测试 SWE-bench Multilingual 中,Opus 4.6 的成绩较 Opus 4.5 提升1.6 分;在网络安全漏洞复现测试 CyberGym 中,Opus 4.6 获得66.6 分,较 Opus 4.5 提升15.6 分,是 Sonnet 4.5 分数的两倍多

Opus 4.6 在长文本连贯性测试 Vending-Bench 2 中以 8017.59 的分数大幅领先,在计算生物学 BioPipelineBench 测试中也以53.1 分的成绩位居第一。

Opus 4.6 在从海量文档中检索相关信息方面能力较上一代有所提升。这一优势延伸至长上下文任务,它能在处理数十万 token 时更稳定地保持和追踪信息,减少信息漂移,并能捕捉到可能遗漏的深层细节。

Anthropic 团队在博客中称,用户常抱怨 AI 模型存在" 上下文衰减 " 问题——即对话超过一定 token 数量后性能会下降。

对此,研究团队对 Opus 4.6 进行了 MRCR v2 的 "8 针 -100 万 " 变体测试,这是类似于一种在浩瀚文本中检索隐藏信息的 " 大海捞针 " 式基准测试。在这个测试中 Opus 4.6 得分达76%,而 Sonnet 4.5 仅得18.5%

Opus 4.6 的综合基准测试如下图所示。总而言之,Opus 4.6 在长上下文中查找信息更精准,吸收信息后的推理能力更强。

二、行为失范率极低,新增六类网络安全探测工具

智能水平的飞跃并未以牺牲安全性为代价。在 Anthropic 的自动化行为审计中,Opus 4.6 的行为失范率极低,行为失范包括欺骗、奉承、助长用户妄想以及配合滥用等情形。

安全对齐程度与前代旗舰模型,即迄今为止对齐度最高的 Claude Opus 4.5 保持同等水准。

值得注意的是,Opus 4.6 在所有近期 Claude 模型中展现出最低的过度拒绝率,即模型未能回应良性查询的情况。

在博客中,Anthropic 团队透露,针对 Opus 4.6,他们开展了迄今最全面的安全评估体系,首次应用多项全新测试方法并对既有评估方案进行升级。Anthropic 团队新增了用户福祉评估、更复杂的危险请求拒答能力测试,并更新了模型隐蔽执行有害行为的评估标准。

同时,其运用可解释性科学的新方法进行实验,开始探究模型特定行为背后的成因,以期发现标准测试可能遗漏的问题。

针对 Opus 4.6 在特定领域可能被危险利用的突出能力,研究团队同步部署了新的防护机制。尤其鉴于该模型显著增强的网络安全能力,他们开发了6 种新型网络安全探测工具以帮助追踪不同形式的潜在滥用行为。

同时,Anthropic 也在加速推进 Opus 4.6 在网络防御领域的应用,通过其协助发现并修复开源软件漏洞。

他们认为网络防御者利用 Claude 这类 AI 模型来平衡攻防态势至关重要。网络安全领域发展迅速,Anthropic 将根据对潜在威胁的认知持续调整和更新防护措施,近期其可能启动实时干预机制以阻断滥用行为。

三、API 新增自适应思考功能,Claude Code 现可多智能体并行

通过 API 接口,开发者们还可以获取到更精细的模型算力控制方案,并为长期运行的智能体任务带来更高灵活性。具体新增以下功能:

1、自适应思考:此前开发者仅能在启用或禁用深度思考模式间二选一。现在通过自适应思考功能,Claude 可自主判断何时需要深度推理。在默认算力等级(高)下,模型会在必要时启动深度思考,开发者也可通过调整算力等级来改变其触发频率。

2、算力调控:现提供四个可调节的算力等级:低、中、高(默认)、极致。

3、上下文压缩(测试版):长程对话与智能体任务常触及上下文窗口限制。当对话接近可配置阈值时,上下文压缩功能将自动总结并替换早期对话内容,使 Claude 能够执行更长任务而不受限制。

4、100 万 token 上下文(测试版):当提示内容超过 20 万 token 时,将适用高级定价。

5、128k 输出 token:Opus 4.6 支持最高 128k token 的输出长度,使 Claude 能完整处理需要大规模输出的任务,无需拆分为多次请求。

6、美国境内推理:对于需要在美国境内运行的工作负载,可选择美国专属推理服务,定价为标准 token 费用的 1.1 倍。

在 Claude 与 Claude Code 平台,Anthropic 新增了多项功能:

Claude Code 中新增智能体团队的研究预览功能。现在用户可以启动多个并行工作的智能体,它们将自主协同配合,特别适用于代码库审查这类可拆分为独立、重读取的子任务。

在与常用办公工具的协作体验方面,Claude Excel 集成版现在能够处理长时程与高难度任务,支持先规划后执行、自主解析非结构化数据并推断正确格式,还能单次完成多步骤修改。

Excel 集成版还能搭配 PowerPoint 集成版使用,用户可先在 Excel 中处理并结构化数据,再通过 PowerPoint 实现可视化呈现。

PowerPoint 集成功能现已面向 Max、Team 及企业版用户开放研究预览。

四、放手两千次会话,Opus 4.6 率智能体团队 " 炼 " 出十万行 C 编译器

Anthropic 官方还给出了一个开发者使用并行 Claude 智能体团队构建 C 语言编译器的案例。在这个案例中,开发者指派 Opus 4.6 率领智能体团队构建一个 C 语言编译器,随后便基本放手任其运行,仅用两周,就完成了一个小团队一个月的工作。

在为期两周、近 2000 次Claude Code 会话中,Opus 4.6 消耗了20 亿个输入 token 并生成1.4 亿个输出 token,总成本略低于2 万美元(约合人民币 13.88 万元),这个成本仅相当于开发者个人独立完成所需投入的零头。

最终 Opus 4.6 做出了一个有着10 万行代码规模的编译器,并且是净室实现,即开发全程 Claude 无网络访问权限,仅依赖 Rust 标准库。

这个编译器能在 x86、ARM 和 RISC-V 架构上构建可启动的Linux 6.9 内核,还能编译QEMU、FFmpeg、SQLite、PostgreSQL、Redis等大型项目。

该编译器在包括 GCC torture 测试套件在内的大多数编译器测试中达到99% 通过率,甚至通过了编译器、操作系统等底层技术的 " 终极测试 ":成功编译并运行第一人称射击游戏《Doom》。

经过多轮实践,开发者总结出了协调多个 Claude 高效协作的四大核心方法

1、改进测试框架:

在项目后期,Claude 每次实现新功能时都会频繁破坏现有功能。为此开发者构建了持续集成流水线,实施更严格的检查机制,让 Claude 能更好地测试自身工作,确保新提交不会破坏现有代码。

2、站在 Claude 的视角设计适配环境:

每个智能体都启动于无上下文的新容器中,会花费大量时间自我定位,尤其在大型项目中。甚至在运行测试前,为帮助 Claude 自助,开发者需要在说明中要求维护详细的 README 文档和进度文件,并需频繁更新当前状态。

3、简化并行机制:

当存在多个独立失败的测试时,并行化轻而易举,但当智能体开始编译 Linux 内核时却陷入困境。与包含数百个独立测试的套件不同,编译 Linux 内核是单项巨型任务,所有智能体都会遇到相同的 bug,修复后却互相覆盖修改,运行 16 个智能体也不行,因为它们都卡在解决同一问题上。

为此,开发者编写了新测试框架,将 GCC 作为在线验证编译器进行比对。这让每个智能体都能并行工作,在不同文件中修复不同 bug,直至 Claude 的编译器最终能编译所有文件。

4、多元智能体角色分工:

LLM 编写的代码常重复实现现有功能,因此开发者指派了一个智能体专门合并发现的重复代码。另一个负责优化编译器本身的性能,第三个则专攻输出高效的编译代码,还让一个智能体以 Rust 开发者视角批判项目设计并进行结构性改进,另设智能体专注文档工作。

开发者称,该成果已经逼近 Opus 的能力边界,但仍有需要提升的方面:

1、16 位 x86 编译器缺失:缺乏从实模式启动 Linux 必需的 16 位 x86 编译器,该环节需调用 GCC(x86_32 和 x86_64 编译器为自主实现);

2、汇编器与链接器不完善:这两部分是 Claude 最后开始自动化的模块,目前仍存在较多缺陷。演示视频中使用的是 GCC 汇编器与链接器;

3、兼容性未达全替代标准:虽能成功构建众多项目,但尚不能完全替代真实编译器;

4、代码生成效率偏低:即使启用所有优化选项,其输出代码效率仍低于禁用优化的 GCC;

5、Rust 代码质量有限:代码质量尚可,但远未达到专业 Rust 程序员的水准。

结语:Anthropic 在安全性上下了狠功夫

Opus 4.6 在长上下文理解、复杂推理与智能体协作等方面的性能提升,为企业级高密度、长周期任务提供了新的解决方案。

同时,在 Anthropic 的博客中,他们用了很大篇幅来写新模型的安全性。Anthropic 通过增强安全评估体系与部署主动防护机制,展现出对 AI 风险治理的前置性投入。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

编程 成交量 比图
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论