
智东西
作者 | 陈骏达
编辑 | 心缘
智东西 2 月 6 日报道,今天,就在 Claude 发布 Opus 4.6 后的几分钟,OpenAI 也推出了自家的最新编程模型:GPT-5.3-Codex。OpenAI 号称,这是世界上最强大的智能体(Agentic)编程模型。
GPT-5.3-Codex 在SWE-Bench Pro 和 Terminal-Bench 2.0 这两个编程基准测试中拿到了 SOTA,并在 OSWorld 和 GDPval 等智能体能力和真实世界任务测评中,较 GPT-5.2-Codex 实现一定提升。在 Terminal-Bench 2.0 上,GPT-5.3-Codex 的得分比 Claude Opus 4.6 高了11.9%。

不过,OpenAI 参加的基准测试数量更少,也基本没有和 Claude Opus 4.6 重叠的,得分只能作为参考。
为演示其编程能力,OpenAI 晒出了一个由GPT-5.3-Codex 打造的赛车游戏。这个游戏里有多辆赛车同时开展比拼,还配备了 8 张地图,甚至还能用空格键使用道具,就是画风确实有些简陋。我们也简单试玩了一下这个游戏,完成度还挺高的。

体验链接:
https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/racing_v2.html
OpenAI 还透露,GPT-5.3-Codex 是 OpenAI 首个在自我创建过程中发挥关键作用的模型。GPT-5.3-Codex 的早期版本,被 Codex 团队用来调试模型训练、管理部署、诊断测试结果和评估,加速了模型的开发。
GPT-5.3-Codex 其实就是GPT-5.2-Codex 和 GPT-5.2 的结合体,具备前者的编程能力和后者的推理能力和专业知识储备,且速度也提升了 25%。
这意味着 GPT-5.3-Codex 不仅可以用于编程,也可用于软件工程里的所有其他工作,比如调试、部署、监控、测试、指标分析等。你还可以用 GPT-5.3-Codex 来做PPT、Excel、Word等等,从 OpenAI 分享的案例来看效果还不错。

GPT-5.3-Codex 打造的 PPT(图源:OpenAI)
与 GPT-5.3-Codex 同期发布的,还有 OpenAI 的最新的企业级智能体平台 Frontier,具备共享上下文、在反馈中学习、持续改进等能力,并支持设定清晰的权限与边界。

Frontier 打造的 Agent(图源:OpenAI)
目前,GPT-5.3-Codex 已向付费 ChatGPT 用户开放,可在 Codex 应用、CLI、IDE 插件和 Web 中使用。API 访问仍需等待后续更新。Frontier 现阶段仅面向有限客户,未来几个月将有更广泛的可用性。
不过,在这波发布中,与隔壁的 Claude Opus 4.6 相比,GPT-5.3-Codex 和 Frontier 在讨论热度上明显逊色一筹,发布模型的推文转赞评数量都只有 Claude Opus 4.6 的不到一半,评论区中也能看到不少质疑声。

关心编程能力的用户认为 GPT-5.3-Codex在实际使用体验和安全性上和 Claude Opus 4.6 仍有差距,而将 OpenAI 模型用于写作等其他场景的用户,则认为 OpenAI 不再重视他们。这显示出 OpenAI 在编程等市场的产品号召力和社区影响力上,以及如何平衡自家的 ToC 和 ToB 业务上,仍有很长的路要走。
一、能在数百万 token 代码库修 Bug,还会给人类主动汇报工作
OpenAI 称,在 GPT-5.3-Codex 的帮助下,其编程工具 Codex 将不再只是一个 " 会写和审代码的智能体 ",而是会进化为一个几乎可以完成开发者和专业人士在计算机上能做的所有事情的智能体。
在 Web 开发方面,OpenAI 让 GPT-5.3-Codex 打造了两个游戏,一个是此前我们看到赛车游戏,另一个则是一个潜水游戏,游戏机制类似《潜水员戴夫》。

不过,光是打造这样一个游戏其实对如今的前沿编程模型来说已经不难了。OpenAI 还分享,在发出 " 修复这个 bug"、" 改进游戏 " 等通用后续提示词的情况下,GPT-5.3-Codex 可以在数百万 token 的过程中自主迭代这些游戏。
GPT-5.3-Codex 在理解日常网站构建意图方面明显优于 GPT-5.2-Codex。对于简单或描述不充分的提示,它会默认生成功能更完整、默认设置更合理的网站。
例如,在构建一项名为 "Quiet KPI" 的服务的网站首页时,GPT-5.3-Codex 可以自动将年付方案展示为折扣后的月价,还会自动生成包含三条不同用户评价的轮播组件,而不是仅呈现单条内容。整体页面因此显得更加完整、更加接近可直接上线的产品。

程序员、设计师、产品经理和数据科学家的工作远不止写代码。GPT-5.3-Codex 从设计之初就支持整个软件生命周期中的工作,包括调试、部署、监控、编写 PRD、编辑文档、用户研究、测试、指标分析、以及更多专业工作。

在使用类似 GDPval 的自定义技能后,GPT-5.3-Codex 在 GDPval(一个衡量 44 种职业中明确知识型任务的评估)上达到了与 GPT-5.2 相当的水平。
在考察模型计算机使用能力的 OSWorld-Verified 中,人类平均得分约为 72%,而 GPT-5.3-Codex 达到了 64.7%。GPT-5.3-Codex 在该评测中表现显著优于以往的 GPT 模型。
随着 GPT-5.3-Codex 的发布,Codex 还提供了一个新的设置选项 " 工作中可引导 "。开启后,GPT-5.3-Codex 会在工作过程中频繁更新关键决策和进展,支持实时对话、提问、讨论方案,并在执行期间持续解释其思路并提供反馈。这让人类用户可以更高效地指挥和监督多个 Agent。
OpenAI 称,得益于基础设施和推理栈的改进,Codex 用户的 GPT-5.3-Codex整体速度提升了 25%。该模型开发过程中,OpenAI 与英伟达展开了合作,基于 GB200 NVL72 系统设计、训练和部署。
二、推出企业级智能体平台,惠普、Uber 已经用上了
在智能体平台方面,OpenAI 今天发布的 Frontier,要做的是帮助企业构建、部署并管理真正能干活的智能体。
OpenAI 认为,当前企业在推进 AI 应用时面临严重的数据与系统碎片化挑战。智能体虽然被广泛部署,却因缺乏跨系统的全局视野和上下文而难以发挥实效,导致模型能力与实际部署之间存在巨大的 " 机会鸿沟 "。
要打造能干活的智能体,OpenAI 的思路是赋予智能体与人类在工作中所需的同款能力。Frontier 像培养人类员工一样,为 AI 同事提供系统化的 " 入职 " 支持。
比如,Frontier 会让智能体理解跨系统的业务流程、获取执行任务所需的工具与权限、学会判断工作质量,并在明确的安全边界内运作。该平台可与现有系统和数据集成,支持智能体通过多种界面融入工作。

Frontier 的核心能力包括连接企业内部数据与应用,构建统一的业务语义层;提供开放的智能体执行环境,支持规划、操作与学习;内置评估优化机制,使 AI 能持续从经验中提升质量;同时确保企业级安全治理,为每个智能体设定身份、权限与防护边界。
为了让企业更方便地管理智能体,Frontier 提供了概览界面,在这里可以看到活跃的智能体数量,这些智能体完成了多少任务,又用掉了多少额度。

此外,OpenAI 还会派驻工程师与客户团队协作,将实践经验与研究反馈相结合,加速落地进程。已有不少大型企业客户采用了 Frontier,比如惠普、Intuit、甲骨文、State Farm、赛默飞(Thermo Fisher)、Uber等等。
结语:OpenAI 押注 "AI 劳动力 "
这次发布中,OpenAI 将其主要精力都放在了 AI 的生产力与落地能力上。无论是 GPT-5.3-Codex 在编程、软件工程全流程和计算机使用能力上的强化,还是 Frontier 试图为企业补齐 " 能干活的智能体 " 这一关键拼图,都指向同一个方向,也就是让AI 真正走进生产环境,成为可以被管理、被信任、被规模化使用的劳动力。
如何在持续加码企业级智能体和生产力场景的同时,维持开发者与普通用户的信任感与参与感,如何在 ToB 的长期布局与 ToC 的广泛影响力之间找到平衡,或许将成为 OpenAI 接下来一段时间里必须回答的关键问题。


登录后才可以发布评论哦
打开小程序可以发布评论哦