Codex不打算让Claude Code好过

2 月 6 日，OpenAI 总裁 Greg Brockman 在 X 上公开发了一条面向全公司工程团队的帖子，设了一个 deadline：到 3 月 31 日，任何技术任务，工程师的第一工具应该是 agent，而不是编辑器或终端。

这是 OpenAI 对自己下的动员令。

如果只看这句话，你可能会觉得又是一条硅谷式的愿景声明。但接下来六周发生的事情表明，Brockman 不是在喊口号。OpenAI 的 Coding Agent 平台 Codex，正在经历一轮罕见的产品冲刺，密度之高，节奏之快，甚至让一些长期关注 AI 编码工具的开发者开始重新审视自己的工具链。

与此同时，Codex 在程序员群体中的热度和口碑也在肉眼可见地上升。

一切动作都指向 " 狙击 "Anthropic 如日中天的 Claude Code。

六周的疯狂迭代

拉一下时间线就能感受到这个节奏。

2 月 2 日，Codex 桌面 App 发布（macOS），OpenAI 同时宣布向 ChatGPT 免费和 Go 用户开放 Codex，所有付费用户的速率限制翻倍。

2 月 5 日，GPT-5.3-Codex 发布，OpenAI 称它为 " 第一个帮助创造了自身的模型 "。同一天，Anthropic 发布 Claude Opus 4.6。

2 月 12 日，Codex-Spark 发布，与 AI 推理硬件公司 Cerebras 合作，推理速度超过每秒 1000 tokens。OpenAI 的说法是，" 当模型能力越来越强，交互速度就成了明确的瓶颈。"

2 月 14 日，OpenClaw 创始人 Peter Steinberger 宣布加入 OpenAI。据 Pragmatic Engineer 报道，Steinberger 用 Codex 编写了 OpenClaw 的全部代码，偏好长时间运行的 agentic loop。Sam Altman 在 X 上称他为 " 天才 "，说他将 " 推动下一代 personal agents"。

3 月 4 日，Codex 桌面 App 登陆 Windows。

3 月 5 日，GPT-5.4 发布，是 OpenAI 第一个同时具备 reasoning、coding 和原生 computer use 能力的通用模型，在 Codex 和 API 中支持 100 万 token 上下文。

3 月 6 日，Codex Security 进入 research preview。这是 OpenAI 推出的应用安全代理，前身为内测阶段的 Aardvark，能够分析代码仓库、构建项目级威胁模型、在沙盒中验证漏洞并提出修复建议。过去 30 天的 beta 测试中，它扫描了超过 120 万次 commits，发现 792 个 critical 级别漏洞和超过 10000 个高危问题，覆盖 OpenSSH、GnuTLS、Chromium 等重量级开源项目。误报率降低超过 50%，噪音降低 84%。

使用数据也在同步攀升。Sam Altman 在 X 上确认，Codex 的周活用户自年初以来增长超过三倍；Codex 团队负责人 Thibault Sottiaux（Tibo）告诉 Pragmatic Engineer 的 Gergely Orosz，1 月以来它的使用量增长了 5 倍，周活开发者超过 100 万。Tibo 还在播客中提到，Super Bowl 周日播出的 Codex 广告让系统几乎立即承受了巨大负载。

六周，七次重大产品动作，这成了 OpenAI 在产品上最激进的冲刺之一。

要理解这个节奏，一方面要看供给侧的变化。GPT-5 系列模型的 agent 能力在过去几个月出现了质的飞跃，从上下文窗口、工具调用到长时间自主执行，模型本身的能力到了一个可以支撑 Coding Agent 这个产品形态的临界点。

另一方面，需求侧的信号同样强烈。据 SemiAnalysis 报道，Anthropic 的 Claude Code 已经做出 25 亿美元的年化收入，占其企业收入的一半以上。Claude Code 用真金白银证明了 Coding Agent 可以成为 AI 公司的核心收入引擎。对于估值据报已达数千亿美元的 OpenAI 来说，放弃这个赛道不是一个现实的选项。

根据 SemiAnalysis 的预测 AnthropicARR 增速一度超过 OpenAI

时间点上的贴身肉搏也值得注意。GPT-5.3-Codex 和 Claude Opus 4.6 在 2 月 5 日同一天发布。Codex Security 和 Claude Code Security 几乎同期推出。这种节奏本身就是信号，两家公司正在把 Coding Agent 平台视为正面战场。

开发者开始从 Claude Code 的单一模式变成混合模式

在很长一段时间，Anthropic 旗下的 Claude Code 看起来似乎已经没有了对手，用户对它的依赖变得越来越重。而 OpenAI 显然不想让 Anthropic 这么舒服。在 Codex 的一通激进冲刺后，开发者社区的反应也开始发生一些变化。

过去一个月，Reddit 和 Hacker News 上关于 Codex 和 Claude Code 的讨论，出现频率最高的词不是更好或替代，而是 stacking。也就是说，越来越多的开发者不是在两者之间选择，而是同时使用。

Calvin French-Owen 是一个典型案例。他是 Segment 联合创始人，曾在 OpenAI 参与 Codex web 产品的发布，同时也是 Claude Code 的深度用户。他在今年 2 月写的一篇博客里说，自己选择工具的核心标准是 " 我有多少时间，以及我想让它多自主地跑 "。

他的日常工作流是用 Claude Code 做规划、编排终端和管理 git 操作，然后切到 Codex 做实际编码。他说 Opus 在跨上下文窗口的工作中效率更高，会同时启动多个子代理并行探索代码库；而 Codex 在长时间自主编码任务上更稳定。

Reddit 上也出现了更具体的分工模式。有开发者详细描述了一个五段式 workflow，先让 Claude Code 出计划，再让 Codex review 计划，然后由 Claude 实施，最后交给 Codex 做 code review 和 QA 迭代。还有人直接把 Claude Code 和 Codex 串成了一个 CLI bridge，因为手动在两者之间复制粘贴太累了。

一篇社区分析总结了 500 多条 Reddit 评论后的结论，Claude Code 在一组小样本盲测中胜率达到 67%，质量更高；但 Codex 20 美元的套餐能编码一整天不断，而 Claude Code 同价位十几个 prompt 就用完了。"Claude Code 质量更高但用不完，Codex 稍弱但全天能用 "，这是 2026 年 3 月开发者社区最真实的共识。

在 Cursor 官方的 benchmark 中，GPT 系列整体领先其他模型。

开发者社区还流传着一个比喻来描述两者的气质差异，Claude 像美国人，适合做充满创造力的探索和头脑风暴，Codex 像德国人，代表极致的效率和专注执行。" 它就像一条咬住骨头不放的狗，非常固执，会一直尝试直到解决问题。"

当然也有反面声音。Hacker News 上有开发者说 Codex 对自己来说 " 每一项都比 Claude Code 差 "，尤其是 code review 会制造看似合理但实际不存在的问题，他最后只把 Codex 用来复核 Claude 的产出。

但大方向已经很明确了，社区讨论正在从哪个更好就用哪个，变成两个都用，各占一个工位。

比的不再是 benchmark，是谁是更实用的产品

只看模型 benchmark，你不太容易理解 Codex 为什么起势。在 SWE-Bench 这类编码评测上，Claude Opus 4.6 仍然领先。真正让 Codex 拉开差异的地方在别处，OpenAI 正在围绕它构建一整套工程系统。

Orosz 今年 2 月发表了一篇对 Codex 团队的深度报道。其中最引人注目的事实是，Codex 超过 90% 的代码是由 Codex 自己编写的。Anthropic 方面也有类似的说法，Claude Code 的创建者 Boris Cherny 告诉 Orosz，Claude Code 的数据大致相当。

当然，这里的 90% 需要打个折扣理解，在一个成熟项目中，样板代码、测试用例、常规重构占了大量行数，核心架构决策仍然由人来做。但两家 AI 实验室都在用自己的 coding 工具来编写自己的 coding 工具，这种自举本身就说明了这些工具已经深度嵌入了日常工程流程。

Codex 的基本工作原理

Codex 团队在工程组织层面走得更远。Orosz 的报道描述了一种新的工作方式，Codex 团队的典型工程师同时运行 4 到 8 个并行 agent，分别处理 feature 开发、code review、安全审计、代码库理解、bug 修复等任务。工程师的角色正在从写代码的人变成管理 agent 的人。

技术选型上，Codex CLI 选择了 Rust（Claude Code 使用的是 TypeScript）。团队负责人 Tibo 给出的理由不仅是性能和正确性，还有工程文化，选择 Rust 是为了给团队设定一个高工程标准，同时减少对 npm 依赖生态的依赖。他们甚至招募了 Rust 终端 UI 库 Ratatui 的维护者全职加入团队。

更值得关注的是分层代码审查机制。Codex 团队训练了一个定制的 code review 模型，据 Tibo 说约 9/10 的评论能指出有效问题。审查分两层，非关键代码在 AI review 后可以直接 merge，核心 agent 代码和开源组件仍然要求强制人工审查。这套机制的意义在于，审查本身开始分层了。

还有两个细节能说明 Codex 正在从工具走向系统。Codex 可以运行自己的完整测试套件来测试自身；团队还设置了夜间巡检，让 Codex 自动扫描代码库并生成待审修复建议，工程师每天早上进公司时就有一批修复等着 review。

一家名为 Wonderful 的 AI 开发公司的首席架构师在今年 3 月写了一篇文章，描述了他们四个月前禁止手动 coding 后的经验。他对两个工具的定位是，Codex 是坐在房间后面戴耳机的工程师，默默读完你整个代码库 15 分钟才写第一行代码，Claude 则更有产品感，更擅长判断什么感觉对。他们把 Codex 用于低延迟系统工作、实时语音管线、性能敏感代码，Claude 则用于 UI 和前端。

从 coding 工具到 Agent 平台

拉远来看，Codex 六周冲刺的方向指向一个更大的野心。

Peter Steinberger 的加入是一个人事信号。他日常同时并行 5 到 10 个 agent，加入 OpenAI 后的方向是下一代 personal agents，不是 coding 工具。OpenAI 正在用 Codex 作为 agent 战略的入口。

Codex Security 则是另一个方向的延伸。当 Codex 从帮你写代码走向帮你审计安全，它的定位就已经变了。

GPT-5.4 进一步加速了这个转变。作为 OpenAI 第一个具备原生 computer use 能力的通用模型，它在 Codex 中不仅能写代码，还能操作电脑、跨应用执行工作流。配合正在成型的插件 /skills 生态系统和企业级权限管理，Codex 的轮廓越来越像一个 AI 原生的开发平台。

Codex 团队在 Every 的播客中透露了他们眼中的下一个瓶颈，就是代码审查。

模型生成代码的速度已经远超人类 review 的速度，验证产出的正确性成了最紧迫的问题。他们已经在尝试让模型通过重现用户操作路径来 " 证明 " 修复有效，而不是让人类逐行读代码。

这些野心和 Claude Code 已经越来越清楚的发展方向有很多重合，在从 Claude Code 那里迅速抢走了一些用户和使用场景之后，Codex 的势头正在起来。回到 Greg Brockman 2 月 6 日的那条帖子。他设的 deadline 是 3 月 31 日，目前距离 deadline 还有两周多，而从过去六周的节奏来看，Codex 的冲刺还远没有结束。

OpenAI 把曾经在模型上呈现出的狠劲儿和卷王的气质，都放到了 Codex 上，接下来它和 Claude code 之间短兵相接的故事，会更精彩了。

宙世代

一起剪

相关标签