AI圈大地震：GPT-5.3开始_自我繁殖_，Claude 4.6让AI学会了_开会_

2026 年 2 月 5 日，AI 行业发生了一件载入史册的事。

OpenAI 和 Anthropic 在相隔不到 20 分钟的时间内，分别发布了 GPT-5.3-Codex 和 Claude Opus 4.6 ——两个代表完全不同进化方向的顶级模型。

一个学会了 " 自我繁殖 "： GPT-5.3-Codex 是人类历史上第一个参与创造自己的 AI 模型。OpenAI 团队用它的早期版本来调试训练流程、管理部署、诊断测试—— AI 开始帮人类造出更强的 AI。

一个学会了 " 团队协作 "： Claude Opus 4.6 可以把一个大型工程项目拆分成多个子任务，派出 16 个 " 分身 " 并行工作，自己解决冲突，最后合并交付—— AI 第一次具备了项目管理能力。

这不是简单的性能提升。这是 AI 能力的两次质变：一个打开了递归自我改进的大门，一个打开了群体智能协作的大门。

接下来会发生什么？可能没人能准确预测。但可以确定的是—— AI 的迭代速度，即将进入我们从未见过的加速曲线。

以下是这两个模型的完整技术解析：

第一部分：GPT-5.3-Codex

GPT-5.3-Codex：第一个参与 " 造自己 " 的模型，那其他还有什么它不能造呢

2026 年 2 月 5 日，OpenAI 发布 GPT-5.3-Codex ——首个在自身开发过程中发挥关键作用的 AI 编码模型。

核心升级：40 万 token 上下文窗口（配备 " 完美记忆 " 机制）、12.8 万 token 输出上限、速度提升 25%。现已面向 ChatGPT Plus/Pro/Enterprise 用户开放，API 访问即将推出。

关键指标：

为什么重要： 这是 AI 首次深度参与自身迭代的公开案例。OpenAI 团队用早期版本的 Codex 来调试训练流程、管理部署、诊断测试结果——模型在 " 造自己 "。这不只是性能提升，而是 AI 开发范式的转折点。

一、核心突破：AI 参与了自己的诞生

" 它帮我们造了它自己 "

OpenAI 在公告中明确表示：GPT-5.3-Codex 是第一个 " 在自身创建过程中发挥重要作用 " 的模型。

具体怎么做的？

OpenAI 的 Codex 团队在开发过程中，用早期版本的模型来：

调试训练流程——发现并修复训练中的问题

管理部署——自动化部署流程

诊断测试结果——分析测试失败的原因并提出修复建议

团队表示 " 被 Codex 加速自身开发的程度震惊了 "。

这意味着什么？ AI 开发进入了正反馈循环——模型越强，它能帮助创造的下一代模型就越强。这是一个加速曲线的起点。

二、技术规格：为长时间自主工作设计

40 万 token 上下文 + " 完美记忆 "

关键创新是 "Perfect Recall"（完美记忆）机制——一种注意力机制，确保在处理超长上下文时不会丢失或遗忘早期信息。传统模型在处理长文本时会出现 " 上下文腐烂 "，越早的信息越容易被遗忘。Perfect Recall 解决了这个问题。

实际效果： 模型可以在单次交互中生成完整的多文件软件项目，而不是输出零碎的代码片段让开发者自己拼装。

三、实际案例：它能跑多久不出错？

案例一：8 小时无人值守，交付完整软件

早期测试者报告：GPT-5.3-Codex 是第一个可以 " 启动任务后走开几小时，回来看到完整可用软件 " 的模型。

一位开发者测试了让模型独立运行超过 8 小时的任务：

模型保持专注，没有偏离目标

自主管理完整软件生命周期：开发→测试→部署→日志监控

遇到模糊指令时，做出的假设与人类判断高度一致

对比： 之前的模型在长时间运行后容易 " 迷失 " ——忘记最初目标、重复同样的错误、陷入死循环。5.3-Codex 显著改善了这一点。

（原文链接 https://shumer.dev/gpt53-codex-review）

案例二：自主构建完整游戏

OpenAI 展示了模型的自主能力：让它从零构建复杂网页游戏，无人干预。

模型成功完成：

赛车游戏——包含多张不同地图

潜水探索游戏——带有氧气机制

整个过程中，模型自主迭代实现方案、修复 bug、优化游戏体验。

案例三：与 Claude Opus 4.6 同台对决

两款模型在同一天发布，有人做了直接对比测试：

结论：Opus 4.6 在一致性和首次成功率上更强，但 5.3-Codex 在可靠性和减少构建错误方面表现更好。各有所长。

原文链接：https://www.theneuron.ai/explainer-articles/anthropic-openai-best-ai-models-same-day-opus-codex/

四、安全与网络安全：OpenAI 最谨慎的一次发布

首个 " 高能力 " 网络安全模型

GPT-5.3-Codex 是 OpenAI 根据其准备框架 ( Preparedness Framework ) 评定的首个 " 高能力 " 网络安全模型，也是第一个被专门训练来识别软件漏洞的模型。

这意味着它既可以用于防御，也可能被滥用于攻击。

OpenAI 的应对措施：

Trusted Access for Cyber 计划

OpenAI 推出了 "Trusted Access for Cyber" 试点计划——为经过审核的安全研究人员和组织提供限制更少的模型访问权限，用于善意的网络安全研究。

其他安全投资：

$1000 万 API 额度：通过网络安全资助计划支持防御性工作，优先支持开源软件和关键基础设施

免费代码扫描：为 Next.js 等广泛使用的开源项目提供免费漏洞扫描

Aardvark 安全研究 Agent：扩大私有测试范围

五、基准测试完整数据

与 Claude Opus 4.6 对比：

Terminal-Bench 2.0：Opus 4.6 ( 65.4% ) vs Codex ( 77.3% ) → Codex 领先

知识工作 ( GDPval-AA ) ：Opus 4.6 领先约 144 Elo 点 → Opus 领先

两款模型定位不同：Codex 专精代码和终端操作，Opus 追求全面的知识工作能力。

六、可用性与定价

上线平台

适用计划

注意： OpenAI 为现有订阅用户加倍了速率限制，鼓励密集测试。

API 访问

API 尚未开放。OpenAI 表示正在进行全面的安全评估，计划在确保安全后尽快开放 API 访问，让开发者将这些 Agent 能力集成到自己的应用中。

七、一句话总结

GPT-5.3-Codex 不只是 " 更强的代码模型 "。

它是第一个参与创造自己的 AI 模型—— OpenAI 用它来调试自己的训练、管理自己的部署、诊断自己的测试。

AI 开发的正反馈循环已经开始。接下来的迭代速度，可能会超出所有人的预期。

第二部分：Claude Opus 4.6

Claude Opus 4.6 就是 AI 协作的分水岭：能让 16 个 Agent 协作自己写出复杂编译器

2026 年 2 月 5 日 ,Anthropic 发布 Claude Opus 4.6 ——支持 "Agent Teams" 多智能体协作的能力大幅提升的新模型。

核心升级：100 万 token 上下文窗口 ( 5 倍提升 ) 、多 Agent 并行工作能力、自适应思考深度。定价不变。

它的能力让 AI 协作这件事有了新的范式，这是一次有分水岭意义的模型发布。

关键指标跃升：

为什么重要： 这是 AI 从 " 单兵作战 " 到 " 团队协作 " 的转折点。以前你给 AI 一个任务 , 它完成并返回 ; 现在你给它一个大工程 , 它自己拆分、派出多个分身并行处理、最后合并交付。AI 第一次具备了完成复杂工程项目的组织能力。

一、三个让人倒吸凉气的案例

在讲参数和基准测试之前 , 先看三个实际发生的事。

案例一：16 个 Agent 用两周造出一个 C 编译器

Anthropic 内部做了一个实验：让 16 个 Claude Agent 并行工作 , 目标是从零开始写一个 C 编译器 , 最终要能编译 Linux 内核。

没有人类程序员介入。

这 16 个 Agent 通过 Git 仓库协作——各自认领任务 ( 解析 if 语句、代码生成、类型检查 ) , 锁定正在处理的模块 , 完成后合并代码。遇到冲突 ? 自己解决。每个 Agent 在独立的 Docker 容器中运行 , 通过简单的锁机制防止任务冲突。

时间线：约两周 , 将近 2000 个自动化编码会话 ,$20,000 的 API 费用。

最终产出：一个 10 万行的 Rust 编写的 C 编译器 , 能在 x86、ARM、RISC-V 三个架构上成功编译 Linux 6.9 内核。代码已开源。

这不是 Demo, 是实际跑通的工程。

案例二：发现 500 个零日漏洞

在发布前的测试中 ,Opus 4.6 在审查开源代码时 ,主动发现了超过 500 个此前未知的高危安全漏洞。

没人让它找漏洞。它只是在做代码审查。测试环境是一个沙箱 , 模型可以使用 Python、调试器和模糊测试工具 , 但没有给它任何专门的安全知识或指令。

这些漏洞涉及 GhostScript ( PDF 处理 ) 、OpenSC ( 智能卡 ) 、CGIF ( GIF 处理 ) 等广泛使用的项目。包括缓冲区溢出、内存损坏、拒绝服务等严重问题。

更离谱的是：在发现 CGIF 的一个漏洞后 , 它 ** 自己写了一个概念验证攻击代码 ( PoC ) ** 来证明这个漏洞确实可被利用。

Anthropic 的红队和外部安全研究员验证了这些发现。Anthropic 随后新增了 6 项网络安全探测措施来检测和缓解这类能力的潜在滥用。

案例三：一句话生成完整 PPT

给 Opus 4.6 一个 Excel 表格和一句指令：" 把这份竞品分析数据做成给董事会的汇报 PPT。"

它会：

分析数据 , 提取关键洞察

生成完整的演示文稿

保留你公司的模板、字体、配色

添加图表和要点说明

一次完成 , 不是来回改十遍的那种。

注：此功能通过 "Claude in PowerPoint" 实现，目前处于研究预览阶段，仅对 Max/Team/Enterprise 计划用户开放。需管理员在 Microsoft 365 管理中心配置后启用。

二、早期用户实测：它已经在 " 上班 " 了

模型发布不到 24 小时，已经有开发者和企业用户跑通了真实场景。

实测一：一天关闭 13 个 GitHub Issue

一位管理约 50 人团队、6 个代码仓库的技术负责人做了测试：让 Opus 4.6 接管日常的 Issue 管理。

一天之内，它：

自主关闭了 13 个 Issue（判断已解决或无效）

将 12 个 Issue 分配给了合适的团队成员

处理了产品决策和组织协调类问题

遇到超出权限的事项时，主动上报人类

没人手把手教它哪个 Issue 该找谁。它自己看懂了组织架构——能跨多个代码仓库综合上下文 , 理解哪些问题属于哪个领域。

实测二：AIG 保险核保时间缩短 5 倍

美国国际集团 ( AIG ) 在内部部署中报告：

Opus 4.6 同时处理监管文件、市场报告和内部数据，生成的综合报告过去需要跨部门协调才能完成。AIG CEO Peter Zaffino 表示 , 这项集成 " 从根本上改变了我们大规模执行核保流程的方式 "。

实测三：抽象推理能力暴涨

在 ARC-AGI-2 测试（衡量 AI 解决全新问题的能力 , 测试题目故意设计成模型从未见过的模式）中：

Opus 4.5：37.6%

Opus 4.6：68.8%

接近翻倍。这意味着它不只是 " 记住了更多答案 "，而是真的在学会思考新问题。

三、核心升级：三个维度

上下文窗口：从 20 万到 100 万

之前的 200K 窗口 , 处理长文档时会出现 " 上下文腐烂 " ——前面的信息逐渐被遗忘。

100 万 token 的窗口意味着：

一次性读完整个大型代码库

在 " 大海捞针 " 测试 ( MRCR v2 ) 中准确率从 18.5% 跃升至 76%

谁能用？ 100 万上下文目前处于 Beta 阶段，仅对API 使用量达到 Tier 4 的组织或拥有自定义速率限制的客户开放。需要在 API 请求中添加特定的 beta header ( context-1m-2025-08-07 ) 才能启用。普通用户仍限制在 200K 窗口。

新增：上下文压缩 ( Context Compaction ) ——当对话接近窗口上限时，系统会自动在服务端压缩早期内容，无需手动截断或重启会话。开发者可配置触发阈值。

Agent Teams：AI 开始协作

这是真正的范式转移。

以前：你给 AI 一个任务 , 它完成 , 返回结果。

现在：你给 AI 一个大任务 , 它自己拆分 , 派出多个 " 分身 " 并行处理 , 最后合并成果。

16 个 Agent 造编译器的案例 , 就是这个能力的极限测试。

如何启用？ Agent Teams 目前是实验性功能，默认关闭。开发者需要：

设置环境变量 CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1

或在 settings.json 中添加相应配置

启用后，可以用自然语言描述任务和团队结构（如 " 分配一个架构师、一个前端开发、一个测试员 "），Claude 会自动创建并协调多个 Agent。各 Agent 在独立的上下文窗口中运行，可通过快捷键（Shift+ 上 / 下）或 tmux 切换交互。

适用平台： Claude Code、GitHub Copilot（Pro/Pro+/Business/Enterprise 用户）、API。

自适应思考：该快则快 , 该深则深

取代了之前的 " 扩展思考 " ( Extended Thinking ) 模式。模型会根据任务复杂度自动调整推理深度：

简单查询：直接回答

复杂推理：调用更深的思考链

四档深度控制：

API 使用： 通过 effort 参数控制，无需 beta header，已正式发布 ( GA ) 。旧版 thinking.type: enabled 和 budget_tokens 参数将在后续版本中移除。

四、基准测试数据

五、可用性与定价

模型上线平台

功能可用性一览

定价结构

与 Opus 4.5 基础定价相同。长上下文场景价格翻倍，反映更高的算力成本。

六、一句话总结

Opus 4.6 不只是 " 更聪明的 AI"。

它是第一个能自己组队、自己分工、自己交付复杂工程项目的模型。

16 个 Agent 写出能编译 Linux 内核的编译器——这件事的意义 , 可能需要一段时间才能被充分消化。

写在最后：

2026 年 2 月 5 日，AI 发展史上值得记住的一天。

GPT-5.3-Codex 打开了递归自我改进的大门—— AI 开始参与创造更强的 AI。

Claude Opus 4.6 打开了群体智能协作的大门—— AI 学会了自己组队、分工、交付工程项目。

一个是 " 自我繁殖 "，一个是 " 团队作战 "。两个方向，都指向同一个未来：AI 的迭代速度，即将进入我们从未见过的加速曲线。

接下来的 6 个月，可能比过去 6 年的变化还要大。

宙世代

一起剪

相关标签