硅星人 03-15
Codex不打算让Claude Code好过
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

2 月 6 日,OpenAI 总裁 Greg Brockman 在 X 上公开发了一条面向全公司工程团队的帖子,设了一个 deadline:到 3 月 31 日,任何技术任务,工程师的第一工具应该是 agent,而不是编辑器或终端。

这是 OpenAI 对自己下的动员令。

如果只看这句话,你可能会觉得又是一条硅谷式的愿景声明。但接下来六周发生的事情表明,Brockman 不是在喊口号。OpenAI 的 Coding Agent 平台 Codex,正在经历一轮罕见的产品冲刺,密度之高,节奏之快,甚至让一些长期关注 AI 编码工具的开发者开始重新审视自己的工具链。

与此同时,Codex 在程序员群体中的热度和口碑也在肉眼可见地上升。

一切动作都指向 " 狙击 "Anthropic 如日中天的 Claude Code。

六周的疯狂迭代

拉一下时间线就能感受到这个节奏。

2 月 2 日,Codex 桌面 App 发布(macOS),OpenAI 同时宣布向 ChatGPT 免费和 Go 用户开放 Codex,所有付费用户的速率限制翻倍。

2 月 5 日,GPT-5.3-Codex 发布,OpenAI 称它为 " 第一个帮助创造了自身的模型 "。同一天,Anthropic 发布 Claude Opus 4.6。

2 月 12 日,Codex-Spark 发布,与 AI 推理硬件公司 Cerebras 合作,推理速度超过每秒 1000 tokens。OpenAI 的说法是," 当模型能力越来越强,交互速度就成了明确的瓶颈。"

2 月 14 日,OpenClaw 创始人 Peter Steinberger 宣布加入 OpenAI。据 Pragmatic Engineer 报道,Steinberger 用 Codex 编写了 OpenClaw 的全部代码,偏好长时间运行的 agentic loop。Sam Altman 在 X 上称他为 " 天才 ",说他将 " 推动下一代 personal agents"。

3 月 4 日,Codex 桌面 App 登陆 Windows。

3 月 5 日,GPT-5.4 发布,是 OpenAI 第一个同时具备 reasoning、coding 和原生 computer use 能力的通用模型,在 Codex 和 API 中支持 100 万 token 上下文。

3 月 6 日,Codex Security 进入 research preview。这是 OpenAI 推出的应用安全代理,前身为内测阶段的 Aardvark,能够分析代码仓库、构建项目级威胁模型、在沙盒中验证漏洞并提出修复建议。过去 30 天的 beta 测试中,它扫描了超过 120 万次 commits,发现 792 个 critical 级别漏洞和超过 10000 个高危问题,覆盖 OpenSSH、GnuTLS、Chromium 等重量级开源项目。误报率降低超过 50%,噪音降低 84%。

使用数据也在同步攀升。Sam Altman 在 X 上确认,Codex 的周活用户自年初以来增长超过三倍;Codex 团队负责人 Thibault Sottiaux(Tibo)告诉 Pragmatic Engineer 的 Gergely Orosz,1 月以来它的使用量增长了 5 倍,周活开发者超过 100 万。Tibo 还在播客中提到,Super Bowl 周日播出的 Codex 广告让系统几乎立即承受了巨大负载。

六周,七次重大产品动作,这成了 OpenAI 在产品上最激进的冲刺之一。

要理解这个节奏,一方面要看供给侧的变化。GPT-5 系列模型的 agent 能力在过去几个月出现了质的飞跃,从上下文窗口、工具调用到长时间自主执行,模型本身的能力到了一个可以支撑 Coding Agent 这个产品形态的临界点。

另一方面,需求侧的信号同样强烈。据 SemiAnalysis 报道,Anthropic 的 Claude Code 已经做出 25 亿美元的年化收入,占其企业收入的一半以上。Claude Code 用真金白银证明了 Coding Agent 可以成为 AI 公司的核心收入引擎。对于估值据报已达数千亿美元的 OpenAI 来说,放弃这个赛道不是一个现实的选项。

根据 SemiAnalysis 的预测 AnthropicARR 增速一度超过 OpenAI

时间点上的贴身肉搏也值得注意。GPT-5.3-Codex 和 Claude Opus 4.6 在 2 月 5 日同一天发布。Codex Security 和 Claude Code Security 几乎同期推出。这种节奏本身就是信号,两家公司正在把 Coding Agent 平台视为正面战场。

开发者开始从 Claude Code 的单一模式变成混合模式

在很长一段时间,Anthropic 旗下的 Claude Code 看起来似乎已经没有了对手,用户对它的依赖变得越来越重。而 OpenAI 显然不想让 Anthropic 这么舒服。在 Codex 的一通激进冲刺后,开发者社区的反应也开始发生一些变化。

过去一个月,Reddit 和 Hacker News 上关于 Codex 和 Claude Code 的讨论,出现频率最高的词不是更好或替代,而是 stacking。也就是说,越来越多的开发者不是在两者之间选择,而是同时使用。

Calvin French-Owen 是一个典型案例。他是 Segment 联合创始人,曾在 OpenAI 参与 Codex web 产品的发布,同时也是 Claude Code 的深度用户。他在今年 2 月写的一篇博客里说,自己选择工具的核心标准是 " 我有多少时间,以及我想让它多自主地跑 "。

他的日常工作流是用 Claude Code 做规划、编排终端和管理 git 操作,然后切到 Codex 做实际编码。他说 Opus 在跨上下文窗口的工作中效率更高,会同时启动多个子代理并行探索代码库;而 Codex 在长时间自主编码任务上更稳定。

Reddit 上也出现了更具体的分工模式。有开发者详细描述了一个五段式 workflow,先让 Claude Code 出计划,再让 Codex review 计划,然后由 Claude 实施,最后交给 Codex 做 code review 和 QA 迭代。还有人直接把 Claude Code 和 Codex 串成了一个 CLI bridge,因为手动在两者之间复制粘贴太累了。

一篇社区分析总结了 500 多条 Reddit 评论后的结论,Claude Code 在一组小样本盲测中胜率达到 67%,质量更高;但 Codex 20 美元的套餐能编码一整天不断,而 Claude Code 同价位十几个 prompt 就用完了。"Claude Code 质量更高但用不完,Codex 稍弱但全天能用 ",这是 2026 年 3 月开发者社区最真实的共识。

在 Cursor 官方的 benchmark 中,GPT 系列整体领先其他模型。

开发者社区还流传着一个比喻来描述两者的气质差异,Claude 像美国人,适合做充满创造力的探索和头脑风暴,Codex 像德国人,代表极致的效率和专注执行。" 它就像一条咬住骨头不放的狗,非常固执,会一直尝试直到解决问题。"

当然也有反面声音。Hacker News 上有开发者说 Codex 对自己来说 " 每一项都比 Claude Code 差 ",尤其是 code review 会制造看似合理但实际不存在的问题,他最后只把 Codex 用来复核 Claude 的产出。

但大方向已经很明确了,社区讨论正在从哪个更好就用哪个,变成两个都用,各占一个工位。

比的不再是 benchmark,是谁是更实用的产品

只看模型 benchmark,你不太容易理解 Codex 为什么起势。在 SWE-Bench 这类编码评测上,Claude Opus 4.6 仍然领先。真正让 Codex 拉开差异的地方在别处,OpenAI 正在围绕它构建一整套工程系统。

Orosz 今年 2 月发表了一篇对 Codex 团队的深度报道。其中最引人注目的事实是,Codex 超过 90% 的代码是由 Codex 自己编写的。Anthropic 方面也有类似的说法,Claude Code 的创建者 Boris Cherny 告诉 Orosz,Claude Code 的数据大致相当。

当然,这里的 90% 需要打个折扣理解,在一个成熟项目中,样板代码、测试用例、常规重构占了大量行数,核心架构决策仍然由人来做。但两家 AI 实验室都在用自己的 coding 工具来编写自己的 coding 工具,这种自举本身就说明了这些工具已经深度嵌入了日常工程流程。

Codex 的基本工作原理

Codex 团队在工程组织层面走得更远。Orosz 的报道描述了一种新的工作方式,Codex 团队的典型工程师同时运行 4 到 8 个并行 agent,分别处理 feature 开发、code review、安全审计、代码库理解、bug 修复等任务。工程师的角色正在从写代码的人变成管理 agent 的人。

技术选型上,Codex CLI 选择了 Rust(Claude Code 使用的是 TypeScript)。团队负责人 Tibo 给出的理由不仅是性能和正确性,还有工程文化,选择 Rust 是为了给团队设定一个高工程标准,同时减少对 npm 依赖生态的依赖。他们甚至招募了 Rust 终端 UI 库 Ratatui 的维护者全职加入团队。

更值得关注的是分层代码审查机制。Codex 团队训练了一个定制的 code review 模型,据 Tibo 说约 9/10 的评论能指出有效问题。审查分两层,非关键代码在 AI review 后可以直接 merge,核心 agent 代码和开源组件仍然要求强制人工审查。这套机制的意义在于,审查本身开始分层了。

还有两个细节能说明 Codex 正在从工具走向系统。Codex 可以运行自己的完整测试套件来测试自身;团队还设置了夜间巡检,让 Codex 自动扫描代码库并生成待审修复建议,工程师每天早上进公司时就有一批修复等着 review。

一家名为 Wonderful 的 AI 开发公司的首席架构师在今年 3 月写了一篇文章,描述了他们四个月前禁止手动 coding 后的经验。他对两个工具的定位是,Codex 是坐在房间后面戴耳机的工程师,默默读完你整个代码库 15 分钟才写第一行代码,Claude 则更有产品感,更擅长判断什么感觉对。他们把 Codex 用于低延迟系统工作、实时语音管线、性能敏感代码,Claude 则用于 UI 和前端。

从 coding 工具到 Agent 平台

拉远来看,Codex 六周冲刺的方向指向一个更大的野心。

Peter Steinberger 的加入是一个人事信号。他日常同时并行 5 到 10 个 agent,加入 OpenAI 后的方向是下一代 personal agents,不是 coding 工具。OpenAI 正在用 Codex 作为 agent 战略的入口。

Codex Security 则是另一个方向的延伸。当 Codex 从帮你写代码走向帮你审计安全,它的定位就已经变了。

GPT-5.4 进一步加速了这个转变。作为 OpenAI 第一个具备原生 computer use 能力的通用模型,它在 Codex 中不仅能写代码,还能操作电脑、跨应用执行工作流。配合正在成型的插件 /skills 生态系统和企业级权限管理,Codex 的轮廓越来越像一个 AI 原生的开发平台。

Codex 团队在 Every 的播客中透露了他们眼中的下一个瓶颈,就是代码审查。

模型生成代码的速度已经远超人类 review 的速度,验证产出的正确性成了最紧迫的问题。他们已经在尝试让模型通过重现用户操作路径来 " 证明 " 修复有效,而不是让人类逐行读代码。

这些野心和 Claude Code 已经越来越清楚的发展方向有很多重合,在从 Claude Code 那里迅速抢走了一些用户和使用场景之后,Codex 的势头正在起来。回到 Greg Brockman 2 月 6 日的那条帖子。他设的 deadline 是 3 月 31 日,目前距离 deadline 还有两周多,而从过去六周的节奏来看,Codex 的冲刺还远没有结束。

OpenAI 把曾经在模型上呈现出的狠劲儿和卷王的气质,都放到了 Codex 上,接下来它和 Claude code 之间短兵相接的故事,会更精彩了。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

程序员 创始人 windows 工程师 macos
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论