智东西 12-19
OpenAI最强编程模型登场,实测竟又被Gemini 3 Flash按趴下
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

编译 | 王欣逸

编辑 | 程茜

智东西 12 月 19 日消息,今日凌晨,OpenAI 发布最新编程模型GPT-5.2-Codex,该模型基于 GPT-5.2,对智能体编程能力进行了深度优化,具体包括:提升了长程任务执行、大规模代码变更、兼容 Windows 环境以及网络安全防御等能力。OpenAI 在博客中称这是他们迄今为止最强的编程模型

据 OpenAI 官方博客,GPT ‑ 5.2-Codex 不仅继承了GPT ‑ 5.2 ⁠的优势,还融合了GPT ‑ 5.1-Codex-Max ⁠的前沿智能体编程与终端操作能力,专为复杂的现实软件工程和网络安全等专业领域设计,

OpenAI 已率先在 Codex CLI、IDE 扩展、云端以及代码审查中发布了 GPT ‑ 5.2-Codex,今日起已向所有付费 ChatGPT 用户开放,API 访问也即将上线。

值得一提的是,GPT ‑ 5.2-Codex 发布之前,谷歌刚宣布推出 Gemini 3 Flash 模型。有网友让 GPT ‑ 5.2-Codex 的 Gemini 3 Flash 共同执行任务,结果,GPT ‑ 5.2-Codex 败下阵来,在对 50 个文件进行漏洞审查的任务中,Gemini 3 Flash 用时 1 分 2 秒,发现了 5 个问题,而 GPT-5.2-Codex 用时 4 分 48 秒,仅发现了 2 个 Gemini 3 Flash 已找到的问题。

GPT ‑ 5.2-Codex 的性能可能不及预期。有网友称,GPT ‑ 5.2-Codex 在 SWE-Bench Pro 上性能提升不到 1%,还没有发布 SWE-Bench Verified 结果,这不免让人推测 GPT ‑ 5.2-Codex 并未达当前最优水平,在一些系统卡基准测试中还出现了性能退步。

据 OpenAI 官方博客,从功能上看,GPT ‑ 5.2-Codex 新增了原生上下文压缩技术,在长上下文理解、工具调用、事实准确性以及原生的上下文压缩上表现提升,推理时 Token 使用效率提升,还能更精准地理解在编码过程中共享的截图、技术图表、数据图以及用户界面。在原生 Windows 环境中,GPT ‑ 5.2-Codex 对 GPT ‑ 5.1-Codex-Max 的能力做了进一步的升级,智能体编程表现更加高效和可靠。

GPT ‑ 5.2-Codex 在实际软件工程任务中的表现有所提升,包括了代码库导航、重构、Pull Request 的创建与审查等方面。

从基准测试来看,GPT ‑ 5.2-Codex 在评估修复真实世界代码问题的SWE-Bench Pro 基准测试中得分为56.4%,超越 GPT-5.2 的 55.6% 得分以及 GPT-5.1 的 50.8% 得分;在衡量编译和服务器配置等任务的Terminal-Bench 2.0 基准测试中,GPT ‑ 5.2-Codex 得分为64.0%,显著领先前代版本 GPT ‑ 5.1-Codex-Max 的 58.1%,展示出了模型在使用命令行和终端解决代理任务的进步。

据 OpenAI 官方博客,在网络安全领域,GPT ‑ 5.2-Codex 在夺旗挑战(CTF)中创下所有模型的最佳纪录。从折线轨迹来看,我们也能得出,就网络安全评估,OpenAI 的模型能力正在持续提升。OpenAI 博客称,他们正在全面升级网络安全防护,还引入可信访问机制来支持防御工作。

OpenAI 首席执行官萨姆 · 阿尔特曼(Sam Altman)称,上周,一位安全研究人员利用 GPT ‑ 5.1-Codex-Max 发现并披露了 React 中的一个漏洞,该漏洞可能导致源代码泄漏。这反映出了模型能力应用于网络安全带来的实际价值。阿尔特曼还提到,这些模型还在不断改进中,最终会给网络安全带来益处。

结语:AI 编程工具竞争加剧

GPT-5.2-Codex 是 OpenAI 在编程模型上的又一次迭代,通过提升长程任务处理、大规模代码变更和特定环境表现,它为复杂开发与安全研究提供了更强大的支持,有望成为发现和修复漏洞的有力工具。

在 OpenAI 本次更新之前,谷歌同日也发布了低成本的 Gemini 3 Flash 模型,AI 编程赛道竞争持续激烈。就目前来看,号称 OpenAI 最强编程模型的 GPT-5.2-Codex 在现实场景中的实际效能、与竞争对手产品的比较表现或许不及预期,该模型的实际应用效果和性能检验或将成为接下来的焦点。

来源:OpenAI、X

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

windows 谷歌 编程 网络安全
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论