GPT-5.4,就这么毫无征兆地发布了。
尽管在版本号上,GPT-5.4 只比去年年底发布的 GPT-5.2 多了「0.2」,但在功能上,GPT-5.4 的升级可谓相当明显。和 GPT-5.2 相比,GPT-5.4 就像一个「融合怪」,打包了 GPT-5.3-Codex( OpenAI 于 2 月 5 日推出的新一代 AI 编程模型)、最新的推理能力,以及大家期待已久的原生电脑操作支持(Computer Use),还不会因为能力整合而牺牲性能。
可以说,GPT-5.4 的大一统时代已经到来。

先来看看大家最核心的原生电脑操作能力。和手机的「GUI-Agent」一样,全新的 GPT-5.4 能直接「看」屏幕截图、基于图形识别 UI 元素,然后像真人用户一样进行点击、拖动等操作(以及键盘指令)。
根据 OpenAI 的介绍,GPT-5.4 支持 100 万个上下文 Token,能应对电脑操作的超长任务链。在针对 AI Agent 的 OSWorld-Verified 测试中,GPT-5.4 跑出了 75.0% 的成功率,不仅把前代 GPT-5.2 的 47.3% 远远甩在身后,甚至还反超了人类 72.4% 的平均水平。
专业能力方面,在 GDPval 测试中,GPT-5.4 在 83.0% 的项目上赶上了当前的行业水平。相比之下前代 GPT-5.2 只做到了 70.9%,提升同样明显。

在文档演示环节,GPT-5.4 甚至体现了其「美学」进步:在金融分析电子表格建模任务测试中,GPT-5.4 以 87.3% 的平均得分超越了 GPT-5.2 的 68.4%。OpenAI 的解释是:由于更强的美学、更大的视觉多样性和更有效地使用图像生成,人类评分者更喜欢 GPT-5.4 输出的表格。
而在 ChatGPT 方面,ChatGPT 5.4 Thinking 也新增了「思考过程预览」,在运行复杂任务时可以先显示其推理思路与过程,允许用户在完整结果出来之前及时介入,避免结果跑偏、答非所问或钻牛角尖。
定价方面,GPT-5.4 API 的 Token 价格理所当然会比 GPT-5.2 要高,但从好的方面想,更高的处理效率也能减少总 Token 使用量。

根据 OpenAI 的规划,GPT-5.4 Thinking 将立刻向 ChatGPT Plus、Team 和 Pro 用户开放,GPT-5.4 Pro 则会向 Pro 和 Enterprise 用户开放。



登录后才可以发布评论哦
打开小程序可以发布评论哦