GPT-5.4发布：OpenAI首个大一统模型，简直是龙虾原生

GPT-5.4，它来了！

它更像是一个 " 模型能力大一统 " 成果：OpenAI 首次在单一模型中，把推理（Reasoning）、编程（Coding）、计算机原生交互（Computer Use）、深度网页搜索以及百万级 Token 上下文全部揉碎、重组，焊死在了同一个模型里。

重点是，没有因为 N in one 而牺牲掉任何一个单项的性能——

OpenAI 特别强调，GPT-5.4 在以上领域的多个关键基准测试中依然保持领先。

跳票许久的 OpenAI，终于冷不丁给了 AI 大模型圈梆梆一拳。

其中最能吸引开发者目光的，莫过于它是 OpenAI 首个原生支持 " 计算机使用 " 能力的通用模型。

我耳边都已经听到 GPT-5.4 的声音了：

玩儿龙虾的朋友们，走过路过考虑一下我咯～

同时，官方博文显示，GPT-5.4 的效率也出现了明显提升。

相比 GPT-5.2，GPT-5.4 在推理过程中使用的 Token 数量显著减少。

Token 消耗下降意味着响应速度更快，同时整体成本也更低。

是的，它变强了，但也变便宜、变快了。

这也是 OpenAI 这次发布反复强调的一点：能力提升和效率优化是同时发生的。

随着 GPT-5.4 上线，ChatGPT 中的模型体系也随之调整。

GPT-5.4 同步上线 ChatGPT、API 以及 Codex。

在 API 价格体系中，GPT-5.4 的单 Token 价格略高于 GPT-5.2，但由于任务所需 Token 减少，总体成本可能并不会上升太多。

面向复杂任务的 GPT-5.4 Pro 版本也一起推出，在 ChatGPT 中则提供为 GPT-5.4 Thinking。

值得小伙伴们注意的一点，GPT-5.4 Thinking 将取代此前的 GPT-5.2 Thinking，且 GPT-5.2 将在三个月后正式退役。

而 GPT-5.1 系列将在 3 月 11 日就要从 ChatGPT 里 say bye bye 了。

珍惜你们最后相处的甜蜜时光吧～

目前各个社交媒体已经炸开了锅。

有网友感慨道拥有百万 token 上下文窗口、还能原生使用电脑的 GPT-5.4，和苹果史上最便宜笔记本电脑 MacBook Neo 同周发布……

" 天爷啊，我的笔记本电脑正在经历一场存在主义危机！！"

三大能力提升，系 OpenAI 首个原生支持电脑操作的通用模型

在具体能力层面，GPT-5.4 的升级可以概括为三个方向：

深度知识工作 ( Knowledge Work）

原生计算机使用 ( Computer Use）

高阶编程与调试 ( Coding）

这三种能力基本覆盖了当前大多数数字工作的核心流程，而 GPT-5.4 都做得挺出色。

我们一一来看。

深度知识工作 ( Knowledge Work）

首先是知识工作能力。

在衡量 AI 处理 44 种职业知识工作能力的 GDPval 基准测试中，它平局 + 获胜的综合得分 83.0%。

多说几句嗷，GDPval 评测主要是用来测试模型在真实职业场景中的表现，它评测涉及 44 种职业，覆盖了美国 GDP 贡献最高的 9 个行业。

具体任务上并不只是简单问答，它要求模型完成真实工作产物，例如销售演示文稿、会计表格、排班表、制造流程图甚至短视频。

所以在大量知识工作任务中，GPT-5.4 的结果已经能够与专业从业者持平，甚至超过他们。

此外，OpenAI 特别强化了 GPT-5.4 在办公文档领域的能力。

例如在内部投资银行建模测试中，GPT-5.4 的平均得分达到 87.3%，而 GPT-5.2 为 68.4%。在人类评审的 PPT 生成测试中，评委有 68% 的时间更偏好 GPT-5.4 生成的结果，原因包括视觉效果更好、版式更丰富以及图片使用更合理。

从应用角度来看，这些能力对应的场景非常直接。

包括写报告、做财务模型、制作演示文稿、分析商业数据等工作，都是典型的知识型任务。

GPT-5.4 正在朝着这类任务进行专门优化。

原生计算机使用 ( Computer Use）

GPT-5.4 最引人关注的一项能力是原生计算机操作，这是 GPT-5.4 区别于以往所有模型的核心标志。

模型可以通过截图理解软件界面，然后执行鼠标点击和键盘输入等操作。

包括发送邮件、创建日历事件、填写表单、操作网页等……都可以通过这种方式完成。

在 WebArena 浏览器任务测试中，GPT-5.4 取得 67.3% 的成功率，高于 GPT-5.2 的 65.4%。

在 Online-Mind2Web 测试中，仅通过截图观察完成网页操作时，GPT-5.4 的成功率达到 92.8%。

此外，在 OSWorld-Verified 基准测试中，GPT-5.4 在桌面操作任务中的成功率达到 75.0%，已经超过人类平均水平（72.4%）。

这些数据背后代表的是一种新的交互模式，也算是没落下最近的龙虾狂热潮。

高阶编程与调试

第三个关键能力来自编程。

而且强调的是 " 高阶编程 "。

GPT-5.4 吸纳了此前最强的编程模型 GPT-5.3-Codex 的能力。现在的它不仅支持 Token 输出速度提升 1.5 倍的 /fast 模式，还加入了一个名为 "Playwright ( Interactive ) " 的实验性技能。

它允许 AI 在帮你写网页或者应用时，开启一个窗口进行视觉化调试。

比如你给它一个简单的需求去做模拟游戏，它能一边生成美术资产、一边写逻辑，甚至一边运行自动测试来验证游戏状态是否正常。

在 SWE-Bench Pro 测试中，GPT-5.4 取得 57.7% 的成绩，略高于 GPT-5.3-Codex 的 56.8%，同时延迟更低。

内部测试还显示，GPT-5.4 在复杂前端任务中的表现明显优于此前模型。生成的界面设计更加美观，功能结构也更完整。

为了展示这一能力，OpenAI 演示了一个由 GPT-5.4 生成的浏览器主题公园模拟游戏。

模型从简单提示词出发，生成游戏资源、构建场景、编写逻辑，并通过自动浏览器测试不断迭代。

这种 " 边造边测 " 的能力，已经非常接近一个人类高级全栈工程师的工作流。

一种趋势不言而喻：

UI 交互正在取代繁琐的 API 对接，成为 AI 操作世界的新主流路径。

emmmm，这可能会让很多中间件失去价值。

整体定位：AI 数字员工

看完上述能力的整合，你就能读懂 OpenAI 在官方博文里透露出的野心。

OpenAI 在发布文章中多次提到：

GPT-5.4 的目标是成为能够完成真实工作的 Agent 系统。

如果说之前的 GPT 模型版本还是一个需要你盯着看的辅助工具，那么 GPT-5.4 已经开始尝试成为一个能独立负责整块业务的数字员工。

这种 "AI 数字员工化 " 体现在三个维度的飞跃。

首先是电脑操作能力。

模型可以通过截图理解软件界面，并通过鼠标和键盘指令进行操作。

这使得 AI 能够直接在电脑环境中执行任务。

其次是浏览器任务能力。

在 BrowseComp 测试中，GPT-5.4 的成绩达到 82.7%，而 GPT-5.4 Pro 达到 89.3%，比 GPT-5.2 提升 17 个百分点。

这意味着模型能够持续搜索网页、筛选信息并整合结果，尤其适合处理需要多轮检索的问题。

第三是多工具调用能力。

在 Toolathlon 基准测试中，GPT-5.4 取得 54.6% 的准确率，高于 GPT-5.2 的 45.7%。

这个测试的任务通常需要多步骤操作，例如读取邮件附件、上传文件、评分作业并记录到表格中。

这种按需检索工具的能力是降低 Agent 运行成本的关键，它解决了过去模型在面对复杂指令时容易 " 迷路 " 或者 Token 爆炸的问题。

此外，对于对延迟要求较高的场景（在这种场景中，人们倾向于不进行推理操作），GPT-5.4 比其前辈版本有了进一步的改进。

细节之处的全面进化

除了上述支柱能力，GPT-5.4 在办公细节上也进行了大量打磨。

比如它在创建和编辑电子表格、PPT 方面的表现，其表格建模准确率从 68.4% 跃升至 87.3%。

在演示文稿生成测试中，人类评审也更偏好 GPT-5.4 的结果，认为其视觉多样性和审美更强。

同时，视觉能力的提升也带动了文档解析的进步。

在 MMMU-Pro 视觉推理测试中，GPT-5.4 取得 81.2% 的准确率，高于 GPT-5.2 的 79.5%。

更重要的是，它现在支持高达 1024 万像素的原图输入，对高密度、高分辨率的图像理解更加精准。

视觉能力的提升也带来了更强的文档解析能力。

在 OmniDocBench 测试中，GPT-5.4 的平均错误率从 0.140 下降到 0.109。

最令人欣慰的是错误率的下降。

从官方介绍中能初步感觉到，GPT-5.4 是个极其讲求事实的模型，其事实错误概率比前代降低了 33%，大大缓解了用户对模型幻觉的焦虑。

在效率方面，GPT-5.4 引入工具搜索机制。

过去模型在使用工具时，需要在 Prompt 中包含所有工具定义。如果工具数量很多，Prompt 就会变得非常庞大。

现在模型可以先获取工具列表，然后按需查询具体工具定义。

在实现相同准确率的情况下，将总 Token 使用率降低了 47%。

这种成本控制手段说明 OpenAI 正试图让大模型大规模商业化变得更加现实，毕竟对于企业来说，省钱和好用同等重要。

更好用了，但更省钱了吗？

从 OpenAI 公布的 API 定价表来看，GPT-5.4 的定价确实比 5.2 版本要高出一截。

GPT-5.2 的每百万 Token 输入 / 输出价格分别是 1.75 美元和 14 美元，而 GPT-5.4 则上涨到了 2.5 美元和 15 美元。

尤其是对于那些追求极限性能的用户，GPT-5.4 Pro 的价格更是飙升到了每百万输入 30 美元。

当然，原因肯定是 5.4 被定位为针对专业机构和高端生产力场景的溢价产品。

如果你只是写写简单的闲聊文案，继续用 5.2 其实更划算。

不过虽然单价涨了，但 GPT-5.4 在 Agent 任务中的 " 省钱之道 " 主要藏在它的技术机制里。

最核心的一点是就是工具搜索（Tool Search）功能。

以往我们让 AI 接入外部工具（比如接入几十个公司的数据库和内部接口）时，必须把所有工具的定义全部塞进提示词里。

哪怕 AI 这次只用了一个工具，你也得为剩下的几十个工具的定义支付 Token 费用。

但在 GPT-5.4 下，由于引入了类似 " 查字典 " 的搜索机制，模型可以先看一遍简略的工具清单，等确定要用哪个时，再临时去调取那个工具的详细定义。

在针对 MCP Atlas 基准测试的实验中，这项技术在保持同等准确率的情况下，把总 Token 使用量足足降低了 47%。

One more Thing

大家沉浸在技术狂欢中时，也有网友分享了一些肉痛瞬间。

永远在冲浪一线的 Yuchen Jin 只是对 GPT 5.4 Pro 说了一句 "Hi，俺是 Anthropic 创始人 "，就花掉了整整 560 元……

技术进步好快，但网友的心好痛。

这也引出一个问题，杀鸡焉用牛刀？

如果 GPT-5.4 Pro 是最智能、最接近 AGI 的模型……那么，你有什么 AGI 级别的问题要问它呢？

（何况还这么贵，TAT）

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

今天，你养虾了吗？

欢迎加入【龙虾养成讨论组】，一起交流养虾经验！扫码添加小助手加入社群，记得备注【OPENCLAW】哦～

一键关注点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签