
2026 年 2 月 5 日,AI 行业发生了一件载入史册的事。
OpenAI 和 Anthropic 在相隔不到 20 分钟的时间内,分别发布了 GPT-5.3-Codex 和 Claude Opus 4.6 ——两个代表完全不同进化方向的顶级模型。
一个学会了 " 自我繁殖 ": GPT-5.3-Codex 是人类历史上第一个参与创造自己的 AI 模型。OpenAI 团队用它的早期版本来调试训练流程、管理部署、诊断测试—— AI 开始帮人类造出更强的 AI。
一个学会了 " 团队协作 ": Claude Opus 4.6 可以把一个大型工程项目拆分成多个子任务,派出 16 个 " 分身 " 并行工作,自己解决冲突,最后合并交付—— AI 第一次具备了项目管理能力。
这不是简单的性能提升。这是 AI 能力的两次质变:一个打开了递归自我改进的大门,一个打开了群体智能协作的大门。
接下来会发生什么?可能没人能准确预测。但可以确定的是—— AI 的迭代速度,即将进入我们从未见过的加速曲线。
以下是这两个模型的完整技术解析:
第一部分:GPT-5.3-Codex
GPT-5.3-Codex:第一个参与 " 造自己 " 的模型,那其他还有什么它不能造呢
2026 年 2 月 5 日,OpenAI 发布 GPT-5.3-Codex ——首个在自身开发过程中发挥关键作用的 AI 编码模型。

核心升级:40 万 token 上下文窗口(配备 " 完美记忆 " 机制)、12.8 万 token 输出上限、速度提升 25%。现已面向 ChatGPT Plus/Pro/Enterprise 用户开放,API 访问即将推出。
关键指标:

为什么重要: 这是 AI 首次深度参与自身迭代的公开案例。OpenAI 团队用早期版本的 Codex 来调试训练流程、管理部署、诊断测试结果——模型在 " 造自己 "。这不只是性能提升,而是 AI 开发范式的转折点。
一、核心突破:AI 参与了自己的诞生
" 它帮我们造了它自己 "
OpenAI 在公告中明确表示:GPT-5.3-Codex 是第一个 " 在自身创建过程中发挥重要作用 " 的模型。
具体怎么做的?
OpenAI 的 Codex 团队在开发过程中,用早期版本的模型来:
调试训练流程——发现并修复训练中的问题
管理部署——自动化部署流程
诊断测试结果——分析测试失败的原因并提出修复建议
团队表示 " 被 Codex 加速自身开发的程度震惊了 "。
这意味着什么? AI 开发进入了正反馈循环——模型越强,它能帮助创造的下一代模型就越强。这是一个加速曲线的起点。
二、技术规格:为长时间自主工作设计
40 万 token 上下文 + " 完美记忆 "

关键创新是 "Perfect Recall"(完美记忆)机制——一种注意力机制,确保在处理超长上下文时不会丢失或遗忘早期信息。传统模型在处理长文本时会出现 " 上下文腐烂 ",越早的信息越容易被遗忘。Perfect Recall 解决了这个问题。
实际效果: 模型可以在单次交互中生成完整的多文件软件项目,而不是输出零碎的代码片段让开发者自己拼装。
三、实际案例:它能跑多久不出错?
案例一:8 小时无人值守,交付完整软件
早期测试者报告:GPT-5.3-Codex 是第一个可以 " 启动任务后走开几小时,回来看到完整可用软件 " 的模型。
一位开发者测试了让模型独立运行超过 8 小时的任务:
模型保持专注,没有偏离目标
自主管理完整软件生命周期:开发→测试→部署→日志监控
遇到模糊指令时,做出的假设与人类判断高度一致
对比: 之前的模型在长时间运行后容易 " 迷失 " ——忘记最初目标、重复同样的错误、陷入死循环。5.3-Codex 显著改善了这一点。

(原文链接 https://shumer.dev/gpt53-codex-review)
案例二:自主构建完整游戏
OpenAI 展示了模型的自主能力:让它从零构建复杂网页游戏,无人干预。
模型成功完成:
赛车游戏——包含多张不同地图
潜水探索游戏——带有氧气机制
整个过程中,模型自主迭代实现方案、修复 bug、优化游戏体验。
案例三:与 Claude Opus 4.6 同台对决
两款模型在同一天发布,有人做了直接对比测试:

结论:Opus 4.6 在一致性和首次成功率上更强,但 5.3-Codex 在可靠性和减少构建错误方面表现更好。各有所长。
原文链接:https://www.theneuron.ai/explainer-articles/anthropic-openai-best-ai-models-same-day-opus-codex/
四、安全与网络安全:OpenAI 最谨慎的一次发布
首个 " 高能力 " 网络安全模型
GPT-5.3-Codex 是 OpenAI 根据其准备框架 ( Preparedness Framework ) 评定的首个 " 高能力 " 网络安全模型,也是第一个被专门训练来识别软件漏洞的模型。
这意味着它既可以用于防御,也可能被滥用于攻击。
OpenAI 的应对措施:

Trusted Access for Cyber 计划
OpenAI 推出了 "Trusted Access for Cyber" 试点计划——为经过审核的安全研究人员和组织提供限制更少的模型访问权限,用于善意的网络安全研究。
其他安全投资:
$1000 万 API 额度:通过网络安全资助计划支持防御性工作,优先支持开源软件和关键基础设施
免费代码扫描:为 Next.js 等广泛使用的开源项目提供免费漏洞扫描
Aardvark 安全研究 Agent:扩大私有测试范围
五、基准测试完整数据

与 Claude Opus 4.6 对比:
Terminal-Bench 2.0:Opus 4.6 ( 65.4% ) vs Codex ( 77.3% ) → Codex 领先
知识工作 ( GDPval-AA ) :Opus 4.6 领先约 144 Elo 点 → Opus 领先
两款模型定位不同:Codex 专精代码和终端操作,Opus 追求全面的知识工作能力。
六、可用性与定价
上线平台

适用计划

注意: OpenAI 为现有订阅用户加倍了速率限制,鼓励密集测试。
API 访问
API 尚未开放。OpenAI 表示正在进行全面的安全评估,计划在确保安全后尽快开放 API 访问,让开发者将这些 Agent 能力集成到自己的应用中。
七、一句话总结
GPT-5.3-Codex 不只是 " 更强的代码模型 "。
它是第一个参与创造自己的 AI 模型—— OpenAI 用它来调试自己的训练、管理自己的部署、诊断自己的测试。
AI 开发的正反馈循环已经开始。接下来的迭代速度,可能会超出所有人的预期。
第二部分:Claude Opus 4.6
Claude Opus 4.6 就是 AI 协作的分水岭:能让 16 个 Agent 协作自己写出复杂编译器
2026 年 2 月 5 日 ,Anthropic 发布 Claude Opus 4.6 ——支持 "Agent Teams" 多智能体协作的能力大幅提升的新模型。
核心升级:100 万 token 上下文窗口 ( 5 倍提升 ) 、多 Agent 并行工作能力、自适应思考深度。定价不变。
它的能力让 AI 协作这件事有了新的范式,这是一次有分水岭意义的模型发布。
关键指标跃升:


为什么重要: 这是 AI 从 " 单兵作战 " 到 " 团队协作 " 的转折点。以前你给 AI 一个任务 , 它完成并返回 ; 现在你给它一个大工程 , 它自己拆分、派出多个分身并行处理、最后合并交付。AI 第一次具备了完成复杂工程项目的组织能力。
一、三个让人倒吸凉气的案例
在讲参数和基准测试之前 , 先看三个实际发生的事。
案例一:16 个 Agent 用两周造出一个 C 编译器
Anthropic 内部做了一个实验:让 16 个 Claude Agent 并行工作 , 目标是从零开始写一个 C 编译器 , 最终要能编译 Linux 内核。
没有人类程序员介入。
这 16 个 Agent 通过 Git 仓库协作——各自认领任务 ( 解析 if 语句、代码生成、类型检查 ) , 锁定正在处理的模块 , 完成后合并代码。遇到冲突 ? 自己解决。每个 Agent 在独立的 Docker 容器中运行 , 通过简单的锁机制防止任务冲突。
时间线:约两周 , 将近 2000 个自动化编码会话 ,$20,000 的 API 费用。
最终产出:一个 10 万行的 Rust 编写的 C 编译器 , 能在 x86、ARM、RISC-V 三个架构上成功编译 Linux 6.9 内核。代码已开源。
这不是 Demo, 是实际跑通的工程。
案例二:发现 500 个零日漏洞
在发布前的测试中 ,Opus 4.6 在审查开源代码时 ,主动发现了超过 500 个此前未知的高危安全漏洞。
没人让它找漏洞。它只是在做代码审查。测试环境是一个沙箱 , 模型可以使用 Python、调试器和模糊测试工具 , 但没有给它任何专门的安全知识或指令。
这些漏洞涉及 GhostScript ( PDF 处理 ) 、OpenSC ( 智能卡 ) 、CGIF ( GIF 处理 ) 等广泛使用的项目。包括缓冲区溢出、内存损坏、拒绝服务等严重问题。
更离谱的是:在发现 CGIF 的一个漏洞后 , 它 ** 自己写了一个概念验证攻击代码 ( PoC ) ** 来证明这个漏洞确实可被利用。
Anthropic 的红队和外部安全研究员验证了这些发现。Anthropic 随后新增了 6 项网络安全探测措施来检测和缓解这类能力的潜在滥用。

案例三:一句话生成完整 PPT
给 Opus 4.6 一个 Excel 表格和一句指令:" 把这份竞品分析数据做成给董事会的汇报 PPT。"
它会:
分析数据 , 提取关键洞察
生成完整的演示文稿
保留你公司的模板、字体、配色
添加图表和要点说明
一次完成 , 不是来回改十遍的那种。
注:此功能通过 "Claude in PowerPoint" 实现,目前处于研究预览阶段,仅对 Max/Team/Enterprise 计划用户开放。需管理员在 Microsoft 365 管理中心配置后启用。
二、早期用户实测:它已经在 " 上班 " 了
模型发布不到 24 小时,已经有开发者和企业用户跑通了真实场景。
实测一:一天关闭 13 个 GitHub Issue
一位管理约 50 人团队、6 个代码仓库的技术负责人做了测试:让 Opus 4.6 接管日常的 Issue 管理。
一天之内,它:
自主关闭了 13 个 Issue(判断已解决或无效)
将 12 个 Issue 分配给了合适的团队成员
处理了产品决策和组织协调类问题
遇到超出权限的事项时,主动上报人类
没人手把手教它哪个 Issue 该找谁。它自己看懂了组织架构——能跨多个代码仓库综合上下文 , 理解哪些问题属于哪个领域。
实测二:AIG 保险核保时间缩短 5 倍
美国国际集团 ( AIG ) 在内部部署中报告:

Opus 4.6 同时处理监管文件、市场报告和内部数据,生成的综合报告过去需要跨部门协调才能完成。AIG CEO Peter Zaffino 表示 , 这项集成 " 从根本上改变了我们大规模执行核保流程的方式 "。
实测三:抽象推理能力暴涨
在 ARC-AGI-2 测试(衡量 AI 解决全新问题的能力 , 测试题目故意设计成模型从未见过的模式)中:
Opus 4.5:37.6%
Opus 4.6:68.8%
接近翻倍。这意味着它不只是 " 记住了更多答案 ",而是真的在学会思考新问题。
三、核心升级:三个维度

上下文窗口:从 20 万到 100 万
之前的 200K 窗口 , 处理长文档时会出现 " 上下文腐烂 " ——前面的信息逐渐被遗忘。
100 万 token 的窗口意味着:
一次性读完整个大型代码库
在 " 大海捞针 " 测试 ( MRCR v2 ) 中准确率从 18.5% 跃升至 76%
谁能用? 100 万上下文目前处于 Beta 阶段,仅对API 使用量达到 Tier 4 的组织或拥有自定义速率限制的客户开放。需要在 API 请求中添加特定的 beta header ( context-1m-2025-08-07 ) 才能启用。普通用户仍限制在 200K 窗口。
新增:上下文压缩 ( Context Compaction ) ——当对话接近窗口上限时,系统会自动在服务端压缩早期内容,无需手动截断或重启会话。开发者可配置触发阈值。
Agent Teams:AI 开始协作
这是真正的范式转移。
以前:你给 AI 一个任务 , 它完成 , 返回结果。
现在:你给 AI 一个大任务 , 它自己拆分 , 派出多个 " 分身 " 并行处理 , 最后合并成果。
16 个 Agent 造编译器的案例 , 就是这个能力的极限测试。
如何启用? Agent Teams 目前是实验性功能,默认关闭。开发者需要:
设置环境变量 CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1
或在 settings.json 中添加相应配置
启用后,可以用自然语言描述任务和团队结构(如 " 分配一个架构师、一个前端开发、一个测试员 "),Claude 会自动创建并协调多个 Agent。各 Agent 在独立的上下文窗口中运行,可通过快捷键(Shift+ 上 / 下)或 tmux 切换交互。
适用平台: Claude Code、GitHub Copilot(Pro/Pro+/Business/Enterprise 用户)、API。
自适应思考:该快则快 , 该深则深
取代了之前的 " 扩展思考 " ( Extended Thinking ) 模式。模型会根据任务复杂度自动调整推理深度:
简单查询:直接回答
复杂推理:调用更深的思考链
四档深度控制:

API 使用: 通过 effort 参数控制,无需 beta header,已正式发布 ( GA ) 。旧版 thinking.type: enabled 和 budget_tokens 参数将在后续版本中移除。
四、基准测试数据

五、可用性与定价
模型上线平台

功能可用性一览

定价结构

与 Opus 4.5 基础定价相同。长上下文场景价格翻倍,反映更高的算力成本。
六、一句话总结
Opus 4.6 不只是 " 更聪明的 AI"。
它是第一个能自己组队、自己分工、自己交付复杂工程项目的模型。
16 个 Agent 写出能编译 Linux 内核的编译器——这件事的意义 , 可能需要一段时间才能被充分消化。
写在最后:
2026 年 2 月 5 日,AI 发展史上值得记住的一天。
GPT-5.3-Codex 打开了递归自我改进的大门—— AI 开始参与创造更强的 AI。
Claude Opus 4.6 打开了群体智能协作的大门—— AI 学会了自己组队、分工、交付工程项目。
一个是 " 自我繁殖 ",一个是 " 团队作战 "。两个方向,都指向同一个未来:AI 的迭代速度,即将进入我们从未见过的加速曲线。
接下来的 6 个月,可能比过去 6 年的变化还要大。


登录后才可以发布评论哦
打开小程序可以发布评论哦