头图由 AI 生成
智东西
编译 | 程茜
编辑 | 李水青
智东西 9 月 16 日消息,今日凌晨,OpenAI 发布新模型 GPT-5-Codex,这是其在 GPT-5 基础上专门为软件工程优化的模型版本,进一步提升了 Codex 中的智能体编程(Agentic Coding)能力。
OpenAI 在博客中提到,GPT-5-Codex 的训练侧重于实际的软件工程工作,其可以根据任务动态调整思考时间,在大型复杂任务上能够独立工作超过 7 个小时。
同时在基准测试中,相比于 GPT-5,GPT-5-Codex 在多项基准测试中的准确率、代码审查的高影响力评论概率都实现提升。
GPT-5-Codex 发布后两个多小时,OpenAI 联合创始人、CEO 萨姆 · 阿尔特曼(Sam Altman)就在 X 中透露,GPT-5-Codex 的流量占比已达到 Codex 总流量的 40% 左右,今天就能占到超一半流量比例。
在开发者使用 Codex 的所有场景中,GPT-5-Codex 均可用,它是云端任务和代码审查的默认工具,开发者也可通过 Codex 命令行界面(CLI)或集成开发环境(IDE)进行扩展,选择将其用于本地任务。
OpenAI 今年 4 月首次推出开源编程智能体 Codex CLI 和 5 月首次推出 Codex 的网页版,两周前其将 Codex 整合为一个通过 ChatGPT 帐户连接的单一产品体验,使得开发者可以在本地环境和云端之间无缝迁移工作,而不会丢失上下文。
Codex 包含在 ChatGPT Plus、Pro、Business、教育和企业用户的订阅套餐中,其中 Plus、教育和 Business 套餐每周可支持几次重点编码课程,Pro 套餐可支持一周内多个项目的使用。对于通过 API 密钥使用 Codex CLI 的开发人员,OpenAI 计划很快在 API 中提供 GPT-5-Codex。
在 OpenAI 的 X 评论区,开发者称 OpenAI 这一新发布对于处理复杂项目非常有前景,还有开发者对自己的 AI 工具订阅预算担忧。
一、根据任务动态调整思考时间,错误评论减少、高影响力评论增加
GPT-5-Codex 针对复杂的实际工程任务进行了训练,例如从头构建完整项目、添加功能和测试、调试、执行大规模重构以及进行代码审查。其可以更好遵循 AGENTS.md 的指令,并生成高质量的代码,开发者只需提出自己的需求,无需编写冗长的代码风格或代码整洁性说明。
此外 GPT ‑ 5-Codex 会根据任务的复杂程度,动态调整思考时间,其执行任务的时间会从几秒到 7 个小时不等。该模型结合了编程智能体的两项基本技能:在交互式会话中与开发者配对,以及在较长的任务上持续、独立地执行。这意味着 Codex 在处理小型、定义明确的请求或与它聊天时会感觉更敏捷,并且在处理大型重构等复杂任务时也能工作更长时间。
从历史数据来看,包括 GPT-5 发布之时,OpenAI 仅公布了 477 个衡量模型解决真实软件工程任务能力的基准测试集 SWE-bench Verified 的测试结果,这是因为当时部分任务无法在其基础设施环境中运行。如今,OpenAI 已修复了这一问题,目前可公布全部 500 个任务的测试结果。GPT-5-Codex 在该基准测试中的准确率为 74.5%,GPT-5 为 72.8%。
OpenAI 基于包含来自大型成熟代码库的重构风格任务测试了新模型的代码重构能力,涉及 Python、Go、OCaml 等编程语言。GPT-5-Codex 在该测试中的准确率为 51.3%,GPT-5 为 33.9%。
在测试中,研究人员发现 GPT ‑ 5-Codex 能够独立处理大型复杂任务超过 7 小时,不断迭代实现、修复测试错误并最终交付成功。
基于 OpenAI 内部员工的使用情况,研究人员发现当按模型生成的 token 数对用户交互轮次进行排序时,其中生成 token 数最少的排名最后 10% 情况中,GPT-5-Codex 使用的 token 比 GPT-5 少 93.7%。
排名前 10% 的情况正好相反,GPT-5-Codex 会进行更多思考,在推理、代码编辑、测试以及迭代上花费的时间是 GPT-5 的两倍。
GPT-5-Codex 还可用于执行代码审查并查找关键缺陷。审查时,它会浏览开发者的代码库,推理依赖关系,并运行代码和测试以验证正确性。
OpenAI 评估了热门开源存储库中近期提交的代码审查性能,经验丰富的软件工程师会在每次提交时评估审查意见的正确性和重要性。
GPT-5 的错误评论有约 13.7%,GPT-5-Codex 仅为 4.4%,高影响力评论占比中 GPT-5 有 39.4%,GPT-5-Codex 有 52.4%,每个拉取请求的平均评论数中,GPT-5 平均有 1.32 条,GPT-5-Codex 有 0.9 条。
他们发现,GPT-5-Codex 的意见不太可能出现错误或不重要的情况。
据 TechCrunch 报道,OpenAI Codex 产品负责人 Alexander Embiricos 在一次简报会上称,GPT-5-Codex 性能提升很大程度上得益于其动态思考能力。用户可能熟悉 ChatGPT 中 GPT-5 的实时路由器(Real-timerouter),它会根据任务的复杂性将查询定向到不同的模型,GPT-5-Codex 的工作原理类似,但没有内置路由器,可以实时调整任务的处理时长。与路由器相比,这是一个优势,因为路由器一开始就决定了要用多少计算能力和时间来解决一个问题,而 GPT-5-Codex 可以在问题开始五分钟后就决定需要再花一个小时。
OpenAI 的官方博客也提到,与通用模型 GPT-5 不同,他们建议开发者仅在 Codex 或类似 Codex 环境中执行智能体编程任务时使用 GPT-5-Codex。
二、三大核心改进,智能体编程工作流更自动化
此外,OpenAI 最近还进行了一些更新,包括改进的 Codex CLI 和新的 Codex IDE 扩展。
首先是针对 Codex CLI。
基于开源社区对 Codex CLI 的反馈,OpenAI 围绕智能体编程工作流重建了 Codex CLI。现在,开发者可以直接在 CLI 中附加和共享图像,包括屏幕截图、线框图和图表等,从而构建基于设计决策的共享上下文,并准确获取所需内容。
在处理更复杂的工作时,Codex 现在可以使用待办事项列表跟踪进度,并包含网页搜索和 MCP 等用于连接外部系统的工具,从而整体上提高工具使用准确性。
终端用户界面的升级包括工具调用和差异显示格式更佳、更易于理解。
审批模式简化为三个级别:只读(需明确审批)、自动(需完全访问工作区但需在工作区外审批)以及完全访问(可在任意位置读取文件并通过网络访问运行命令)。其还支持压缩对话状态,方便开发者管理较长的会话。
其次是 Codex IDE 扩展。
这一 IDE 扩展可将 Codex 智能体接入 VS Code、Cursor 以及其他基于 VS Code 衍生的编辑器,允许其与 Codex 共同预览本地代码变更、协同编辑代码。
当开发者在 IDE 中使用 Codex 时,只需输入更简短的指令就能获得结果,这是因为 Codex 可利用上下文信息,例如开发者已打开的文件或选中的代码片段。
Codex IDE 扩展允许开发者在云端环境与本地环境之间切换工作流,开发者无需离开编辑器,就能创建新的云端任务、跟踪正在进行中的工作、查看已完成的任务。
若需对代码进行收尾调整,其还可以在 IDE 中直接打开云端任务,且 Codex 会完整保留相关上下文信息。
此外,OpenAI 还一直在提升云基础设施的性能,通过缓存容器,其将新任务和后续任务的平均完成时间缩短了 90%。Codex 现在可以通过扫描并执行常用的安装脚本来自动设置环境;借助可配置的互联网访问权限,在运行时根据需要执行像 pip install 这样的命令来获取依赖项。
与 CLI 和 IDE 扩展中一样,开发者现在可以通过上传图像的方式,向 Codex 共享前端设计规范,如界面原型图、视觉稿,或上传界面错位、样式异常的截图说明 UI 漏洞。
Codex 构建前端内容时,可以自行启动浏览器查看已构建的效果并进行迭代优化,最终会将结果截图附加到对应任务以及 GitHub 拉取请求中。
在代码审查中,Codex 可以被用于发现关键缺陷。
与静态分析工具不同,它可以将拉取请求中声明的开发意图与实际差异进行匹配,结合整个代码库及依赖项展开推理分析,并通过执行代码与测试用例来验证实际运行行为。
一旦开发者在某个 GitHub 库启用了 Codex,当拉取请求从草稿状态转为就绪状态时,Codex 就会自动对其进行审查,并将分析结果发布在该拉取请求上。
如果 Codex 建议进行修改,开发者可以在同一个对话线程中让 Codex 直接实施这些修改。
开发者也可以在拉取请求中明确提及 @codex review 来请求审查,例如 @codex review for security vulnerabilities(让 Codex 审查安全漏洞)或 @codex review for outdated dependencies(让 Codex 审查过时的依赖项)。
Codex 目前已在 OpenAI 内部,被用于审查其绝大多数的拉取请求,每天能发现数百个问题,而且往往是在人工审查开始之前就已发现。
结语:AI 编程工具竞争白热化
当下,AI 编程工具的竞争已经变得愈发激烈,既有 OpenAI Codex、Claude Code、Anysphere Cursor、微软 GitHub Copilot 几大产品进场厮杀,还有 Cursor 年度经常性收入(ARR)在 2025 年初就超过 5 亿美元,更有 AI 代码编辑器 Windsurf 遭遇一场混乱收购,导致其团队被谷歌和 Cognition 两家公司瓜分。
OpenAI Codex 此次升级,发布专门为智能体编程优化的全新模型,使得其自动化编程以及与用户协作的能力都大幅提升,证明了 AI 编程工具竞赛的激烈程度持续升温。
登录后才可以发布评论哦
打开小程序可以发布评论哦