2 月 6 日,OpenAI 总裁 Greg Brockman 在 X 上公开发了一条面向全公司工程团队的帖子,设了一个 deadline:到 3 月 31 日,任何技术任务,工程师的第一工具应该是 agent,而不是编辑器或终端。
这是 OpenAI 对自己下的动员令。

如果只看这句话,你可能会觉得又是一条硅谷式的愿景声明。但接下来六周发生的事情表明,Brockman 不是在喊口号。OpenAI 的 Coding Agent 平台 Codex,正在经历一轮罕见的产品冲刺,密度之高,节奏之快,甚至让一些长期关注 AI 编码工具的开发者开始重新审视自己的工具链。
与此同时,Codex 在程序员群体中的热度和口碑也在肉眼可见地上升。
一切动作都指向 " 狙击 "Anthropic 如日中天的 Claude Code。
六周的疯狂迭代
拉一下时间线就能感受到这个节奏。
2 月 2 日,Codex 桌面 App 发布(macOS),OpenAI 同时宣布向 ChatGPT 免费和 Go 用户开放 Codex,所有付费用户的速率限制翻倍。
2 月 5 日,GPT-5.3-Codex 发布,OpenAI 称它为 " 第一个帮助创造了自身的模型 "。同一天,Anthropic 发布 Claude Opus 4.6。
2 月 12 日,Codex-Spark 发布,与 AI 推理硬件公司 Cerebras 合作,推理速度超过每秒 1000 tokens。OpenAI 的说法是," 当模型能力越来越强,交互速度就成了明确的瓶颈。"
2 月 14 日,OpenClaw 创始人 Peter Steinberger 宣布加入 OpenAI。据 Pragmatic Engineer 报道,Steinberger 用 Codex 编写了 OpenClaw 的全部代码,偏好长时间运行的 agentic loop。Sam Altman 在 X 上称他为 " 天才 ",说他将 " 推动下一代 personal agents"。
3 月 4 日,Codex 桌面 App 登陆 Windows。
3 月 5 日,GPT-5.4 发布,是 OpenAI 第一个同时具备 reasoning、coding 和原生 computer use 能力的通用模型,在 Codex 和 API 中支持 100 万 token 上下文。
3 月 6 日,Codex Security 进入 research preview。这是 OpenAI 推出的应用安全代理,前身为内测阶段的 Aardvark,能够分析代码仓库、构建项目级威胁模型、在沙盒中验证漏洞并提出修复建议。过去 30 天的 beta 测试中,它扫描了超过 120 万次 commits,发现 792 个 critical 级别漏洞和超过 10000 个高危问题,覆盖 OpenSSH、GnuTLS、Chromium 等重量级开源项目。误报率降低超过 50%,噪音降低 84%。

使用数据也在同步攀升。Sam Altman 在 X 上确认,Codex 的周活用户自年初以来增长超过三倍;Codex 团队负责人 Thibault Sottiaux(Tibo)告诉 Pragmatic Engineer 的 Gergely Orosz,1 月以来它的使用量增长了 5 倍,周活开发者超过 100 万。Tibo 还在播客中提到,Super Bowl 周日播出的 Codex 广告让系统几乎立即承受了巨大负载。
六周,七次重大产品动作,这成了 OpenAI 在产品上最激进的冲刺之一。
要理解这个节奏,一方面要看供给侧的变化。GPT-5 系列模型的 agent 能力在过去几个月出现了质的飞跃,从上下文窗口、工具调用到长时间自主执行,模型本身的能力到了一个可以支撑 Coding Agent 这个产品形态的临界点。
另一方面,需求侧的信号同样强烈。据 SemiAnalysis 报道,Anthropic 的 Claude Code 已经做出 25 亿美元的年化收入,占其企业收入的一半以上。Claude Code 用真金白银证明了 Coding Agent 可以成为 AI 公司的核心收入引擎。对于估值据报已达数千亿美元的 OpenAI 来说,放弃这个赛道不是一个现实的选项。

根据 SemiAnalysis 的预测 AnthropicARR 增速一度超过 OpenAI
时间点上的贴身肉搏也值得注意。GPT-5.3-Codex 和 Claude Opus 4.6 在 2 月 5 日同一天发布。Codex Security 和 Claude Code Security 几乎同期推出。这种节奏本身就是信号,两家公司正在把 Coding Agent 平台视为正面战场。
开发者开始从 Claude Code 的单一模式变成混合模式
在很长一段时间,Anthropic 旗下的 Claude Code 看起来似乎已经没有了对手,用户对它的依赖变得越来越重。而 OpenAI 显然不想让 Anthropic 这么舒服。在 Codex 的一通激进冲刺后,开发者社区的反应也开始发生一些变化。
过去一个月,Reddit 和 Hacker News 上关于 Codex 和 Claude Code 的讨论,出现频率最高的词不是更好或替代,而是 stacking。也就是说,越来越多的开发者不是在两者之间选择,而是同时使用。
Calvin French-Owen 是一个典型案例。他是 Segment 联合创始人,曾在 OpenAI 参与 Codex web 产品的发布,同时也是 Claude Code 的深度用户。他在今年 2 月写的一篇博客里说,自己选择工具的核心标准是 " 我有多少时间,以及我想让它多自主地跑 "。
他的日常工作流是用 Claude Code 做规划、编排终端和管理 git 操作,然后切到 Codex 做实际编码。他说 Opus 在跨上下文窗口的工作中效率更高,会同时启动多个子代理并行探索代码库;而 Codex 在长时间自主编码任务上更稳定。
Reddit 上也出现了更具体的分工模式。有开发者详细描述了一个五段式 workflow,先让 Claude Code 出计划,再让 Codex review 计划,然后由 Claude 实施,最后交给 Codex 做 code review 和 QA 迭代。还有人直接把 Claude Code 和 Codex 串成了一个 CLI bridge,因为手动在两者之间复制粘贴太累了。
一篇社区分析总结了 500 多条 Reddit 评论后的结论,Claude Code 在一组小样本盲测中胜率达到 67%,质量更高;但 Codex 20 美元的套餐能编码一整天不断,而 Claude Code 同价位十几个 prompt 就用完了。"Claude Code 质量更高但用不完,Codex 稍弱但全天能用 ",这是 2026 年 3 月开发者社区最真实的共识。

在 Cursor 官方的 benchmark 中,GPT 系列整体领先其他模型。
开发者社区还流传着一个比喻来描述两者的气质差异,Claude 像美国人,适合做充满创造力的探索和头脑风暴,Codex 像德国人,代表极致的效率和专注执行。" 它就像一条咬住骨头不放的狗,非常固执,会一直尝试直到解决问题。"
当然也有反面声音。Hacker News 上有开发者说 Codex 对自己来说 " 每一项都比 Claude Code 差 ",尤其是 code review 会制造看似合理但实际不存在的问题,他最后只把 Codex 用来复核 Claude 的产出。
但大方向已经很明确了,社区讨论正在从哪个更好就用哪个,变成两个都用,各占一个工位。
比的不再是 benchmark,是谁是更实用的产品
只看模型 benchmark,你不太容易理解 Codex 为什么起势。在 SWE-Bench 这类编码评测上,Claude Opus 4.6 仍然领先。真正让 Codex 拉开差异的地方在别处,OpenAI 正在围绕它构建一整套工程系统。
Orosz 今年 2 月发表了一篇对 Codex 团队的深度报道。其中最引人注目的事实是,Codex 超过 90% 的代码是由 Codex 自己编写的。Anthropic 方面也有类似的说法,Claude Code 的创建者 Boris Cherny 告诉 Orosz,Claude Code 的数据大致相当。
当然,这里的 90% 需要打个折扣理解,在一个成熟项目中,样板代码、测试用例、常规重构占了大量行数,核心架构决策仍然由人来做。但两家 AI 实验室都在用自己的 coding 工具来编写自己的 coding 工具,这种自举本身就说明了这些工具已经深度嵌入了日常工程流程。

Codex 的基本工作原理
Codex 团队在工程组织层面走得更远。Orosz 的报道描述了一种新的工作方式,Codex 团队的典型工程师同时运行 4 到 8 个并行 agent,分别处理 feature 开发、code review、安全审计、代码库理解、bug 修复等任务。工程师的角色正在从写代码的人变成管理 agent 的人。
技术选型上,Codex CLI 选择了 Rust(Claude Code 使用的是 TypeScript)。团队负责人 Tibo 给出的理由不仅是性能和正确性,还有工程文化,选择 Rust 是为了给团队设定一个高工程标准,同时减少对 npm 依赖生态的依赖。他们甚至招募了 Rust 终端 UI 库 Ratatui 的维护者全职加入团队。
更值得关注的是分层代码审查机制。Codex 团队训练了一个定制的 code review 模型,据 Tibo 说约 9/10 的评论能指出有效问题。审查分两层,非关键代码在 AI review 后可以直接 merge,核心 agent 代码和开源组件仍然要求强制人工审查。这套机制的意义在于,审查本身开始分层了。
还有两个细节能说明 Codex 正在从工具走向系统。Codex 可以运行自己的完整测试套件来测试自身;团队还设置了夜间巡检,让 Codex 自动扫描代码库并生成待审修复建议,工程师每天早上进公司时就有一批修复等着 review。
一家名为 Wonderful 的 AI 开发公司的首席架构师在今年 3 月写了一篇文章,描述了他们四个月前禁止手动 coding 后的经验。他对两个工具的定位是,Codex 是坐在房间后面戴耳机的工程师,默默读完你整个代码库 15 分钟才写第一行代码,Claude 则更有产品感,更擅长判断什么感觉对。他们把 Codex 用于低延迟系统工作、实时语音管线、性能敏感代码,Claude 则用于 UI 和前端。
从 coding 工具到 Agent 平台
拉远来看,Codex 六周冲刺的方向指向一个更大的野心。
Peter Steinberger 的加入是一个人事信号。他日常同时并行 5 到 10 个 agent,加入 OpenAI 后的方向是下一代 personal agents,不是 coding 工具。OpenAI 正在用 Codex 作为 agent 战略的入口。
Codex Security 则是另一个方向的延伸。当 Codex 从帮你写代码走向帮你审计安全,它的定位就已经变了。
GPT-5.4 进一步加速了这个转变。作为 OpenAI 第一个具备原生 computer use 能力的通用模型,它在 Codex 中不仅能写代码,还能操作电脑、跨应用执行工作流。配合正在成型的插件 /skills 生态系统和企业级权限管理,Codex 的轮廓越来越像一个 AI 原生的开发平台。
Codex 团队在 Every 的播客中透露了他们眼中的下一个瓶颈,就是代码审查。
模型生成代码的速度已经远超人类 review 的速度,验证产出的正确性成了最紧迫的问题。他们已经在尝试让模型通过重现用户操作路径来 " 证明 " 修复有效,而不是让人类逐行读代码。
这些野心和 Claude Code 已经越来越清楚的发展方向有很多重合,在从 Claude Code 那里迅速抢走了一些用户和使用场景之后,Codex 的势头正在起来。回到 Greg Brockman 2 月 6 日的那条帖子。他设的 deadline 是 3 月 31 日,目前距离 deadline 还有两周多,而从过去六周的节奏来看,Codex 的冲刺还远没有结束。
OpenAI 把曾经在模型上呈现出的狠劲儿和卷王的气质,都放到了 Codex 上,接下来它和 Claude code 之间短兵相接的故事,会更精彩了。




登录后才可以发布评论哦
打开小程序可以发布评论哦