豆包电脑来了？GPT-5.4发布，这个能力亮了

GPT-5.4，就这么毫无征兆地发布了。

尽管在版本号上，GPT-5.4 只比去年年底发布的 GPT-5.2 多了「0.2」，但在功能上，GPT-5.4 的升级可谓相当明显。和 GPT-5.2 相比，GPT-5.4 就像一个「融合怪」，打包了 GPT-5.3-Codex（ OpenAI 于 2 月 5 日推出的新一代 AI 编程模型）、最新的推理能力，以及大家期待已久的原生电脑操作支持（Computer Use），还不会因为能力整合而牺牲性能。

可以说，GPT-5.4 的大一统时代已经到来。

先来看看大家最核心的原生电脑操作能力。和手机的「GUI-Agent」一样，全新的 GPT-5.4 能直接「看」屏幕截图、基于图形识别 UI 元素，然后像真人用户一样进行点击、拖动等操作（以及键盘指令）。

根据 OpenAI 的介绍，GPT-5.4 支持 100 万个上下文 Token，能应对电脑操作的超长任务链。在针对 AI Agent 的 OSWorld-Verified 测试中，GPT-5.4 跑出了 75.0% 的成功率，不仅把前代 GPT-5.2 的 47.3% 远远甩在身后，甚至还反超了人类 72.4% 的平均水平。

专业能力方面，在 GDPval 测试中，GPT-5.4 在 83.0% 的项目上赶上了当前的行业水平。相比之下前代 GPT-5.2 只做到了 70.9%，提升同样明显。

在文档演示环节，GPT-5.4 甚至体现了其「美学」进步：在金融分析电子表格建模任务测试中，GPT-5.4 以 87.3% 的平均得分超越了 GPT-5.2 的 68.4%。OpenAI 的解释是：由于更强的美学、更大的视觉多样性和更有效地使用图像生成，人类评分者更喜欢 GPT-5.4 输出的表格。

而在 ChatGPT 方面，ChatGPT 5.4 Thinking 也新增了「思考过程预览」，在运行复杂任务时可以先显示其推理思路与过程，允许用户在完整结果出来之前及时介入，避免结果跑偏、答非所问或钻牛角尖。

定价方面，GPT-5.4 API 的 Token 价格理所当然会比 GPT-5.2 要高，但从好的方面想，更高的处理效率也能减少总 Token 使用量。

根据 OpenAI 的规划，GPT-5.4 Thinking 将立刻向 ChatGPT Plus、Team 和 Pro 用户开放，GPT-5.4 Pro 则会向 Pro 和 Enterprise 用户开放。

宙世代

一起剪

相关标签