量子位 7小时前
GPT-5.4发布:OpenAI首个大一统模型,简直是龙虾原生
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

GPT-5.4,它来了!

它更像是一个 " 模型能力大一统 " 成果:OpenAI 首次在单一模型中,把推理(Reasoning)、编程(Coding)、计算机原生交互(Computer Use)、深度网页搜索以及百万级 Token 上下文全部揉碎、重组,焊死在了同一个模型里。

重点是,没有因为 N in one 而牺牲掉任何一个单项的性能——

OpenAI 特别强调,GPT-5.4 在以上领域的多个关键基准测试中依然保持领先。

跳票许久的 OpenAI,终于冷不丁给了 AI 大模型圈梆梆一拳。

其中最能吸引开发者目光的,莫过于它是 OpenAI 首个原生支持 " 计算机使用 " 能力的通用模型。

我耳边都已经听到 GPT-5.4 的声音了:

玩儿龙虾的朋友们,走过路过考虑一下我咯~

同时,官方博文显示,GPT-5.4 的效率也出现了明显提升。

相比 GPT-5.2,GPT-5.4 在推理过程中使用的 Token 数量显著减少。

Token 消耗下降意味着响应速度更快,同时整体成本也更低。

是的,它变强了,但也变便宜、变快了。

这也是 OpenAI 这次发布反复强调的一点:能力提升和效率优化是同时发生的。

随着 GPT-5.4 上线,ChatGPT 中的模型体系也随之调整。

GPT-5.4 同步上线 ChatGPT、API 以及 Codex。

在 API 价格体系中,GPT-5.4 的单 Token 价格略高于 GPT-5.2,但由于任务所需 Token 减少,总体成本可能并不会上升太多。

面向复杂任务的 GPT-5.4 Pro 版本也一起推出,在 ChatGPT 中则提供为 GPT-5.4 Thinking。

值得小伙伴们注意的一点,GPT-5.4 Thinking 将取代此前的 GPT-5.2 Thinking,且 GPT-5.2 将在三个月后正式退役。

而 GPT-5.1 系列将在 3 月 11 日就要从 ChatGPT 里 say bye bye 了。

珍惜你们最后相处的甜蜜时光吧~

目前各个社交媒体已经炸开了锅。

有网友感慨道拥有百万 token 上下文窗口、还能原生使用电脑的 GPT-5.4,和苹果史上最便宜笔记本电脑 MacBook Neo 同周发布……

" 天爷啊,我的笔记本电脑正在经历一场存在主义危机!!"

三大能力提升,系 OpenAI 首个原生支持电脑操作的通用模型

在具体能力层面,GPT-5.4 的升级可以概括为三个方向:

深度知识工作   ( Knowledge Work)

原生计算机使用   ( Computer Use)

高阶编程与调试   ( Coding)

这三种能力基本覆盖了当前大多数数字工作的核心流程,而 GPT-5.4 都做得挺出色。

我们一一来看。

深度知识工作 ( Knowledge Work)

首先是知识工作能力。

在衡量 AI 处理 44 种职业知识工作能力的 GDPval 基准测试中,它平局 + 获胜的综合得分 83.0%。

多说几句嗷,GDPval 评测主要是用来测试模型在真实职业场景中的表现,它评测涉及 44 种职业,覆盖了美国 GDP 贡献最高的 9 个行业。

具体任务上并不只是简单问答,它要求模型完成真实工作产物,例如销售演示文稿、会计表格、排班表、制造流程图甚至短视频。

所以在大量知识工作任务中,GPT-5.4 的结果已经能够与专业从业者持平,甚至超过他们。

此外,OpenAI 特别强化了 GPT-5.4 在办公文档领域的能力。

例如在内部投资银行建模测试中,GPT-5.4 的平均得分达到 87.3%,而 GPT-5.2 为 68.4%。在人类评审的 PPT 生成测试中,评委有 68% 的时间更偏好 GPT-5.4 生成的结果,原因包括视觉效果更好、版式更丰富以及图片使用更合理。

从应用角度来看,这些能力对应的场景非常直接。

包括写报告、做财务模型、制作演示文稿、分析商业数据等工作,都是典型的知识型任务。

GPT-5.4 正在朝着这类任务进行专门优化。

原生计算机使用 ( Computer Use)

GPT-5.4 最引人关注的一项能力是原生计算机操作,这是 GPT-5.4 区别于以往所有模型的核心标志。

模型可以通过截图理解软件界面,然后执行鼠标点击和键盘输入等操作。

包括发送邮件、创建日历事件、填写表单、操作网页等……都可以通过这种方式完成。

在 WebArena 浏览器任务测试中,GPT-5.4 取得 67.3% 的成功率,高于 GPT-5.2 的 65.4%。

在 Online-Mind2Web 测试中,仅通过截图观察完成网页操作时,GPT-5.4 的成功率达到 92.8%。

此外,在 OSWorld-Verified 基准测试中,GPT-5.4 在桌面操作任务中的成功率达到 75.0%,已经超过人类平均水平(72.4%)。

这些数据背后代表的是一种新的交互模式,也算是没落下最近的龙虾狂热潮。

高阶编程与调试

第三个关键能力来自编程。

而且强调的是 " 高阶编程 "。

GPT-5.4 吸纳了此前最强的编程模型 GPT-5.3-Codex 的能力。现在的它不仅支持 Token 输出速度提升 1.5 倍的 /fast 模式,还加入了一个名为 "Playwright   ( Interactive ) " 的实验性技能。

它允许 AI 在帮你写网页或者应用时,开启一个窗口进行视觉化调试。

比如你给它一个简单的需求去做模拟游戏,它能一边生成美术资产、一边写逻辑,甚至一边运行自动测试来验证游戏状态是否正常。

在 SWE-Bench Pro 测试中,GPT-5.4 取得 57.7% 的成绩,略高于 GPT-5.3-Codex 的 56.8%,同时延迟更低。

内部测试还显示,GPT-5.4 在复杂前端任务中的表现明显优于此前模型。生成的界面设计更加美观,功能结构也更完整。

为了展示这一能力,OpenAI 演示了一个由 GPT-5.4 生成的浏览器主题公园模拟游戏。

模型从简单提示词出发,生成游戏资源、构建场景、编写逻辑,并通过自动浏览器测试不断迭代。

这种 " 边造边测 " 的能力,已经非常接近一个人类高级全栈工程师的工作流。

一种趋势不言而喻:

UI 交互正在取代繁琐的 API 对接,成为 AI 操作世界的新主流路径。

emmmm,这可能会让很多中间件失去价值。

整体定位:AI 数字员工

看完上述能力的整合,你就能读懂 OpenAI 在官方博文里透露出的野心。

OpenAI 在发布文章中多次提到:

GPT-5.4 的目标是成为能够完成真实工作的 Agent 系统。

如果说之前的 GPT 模型版本还是一个需要你盯着看的辅助工具,那么 GPT-5.4 已经开始尝试成为一个能独立负责整块业务的数字员工。

这种 "AI 数字员工化 " 体现在三个维度的飞跃。

首先是电脑操作能力。

模型可以通过截图理解软件界面,并通过鼠标和键盘指令进行操作。

这使得 AI 能够直接在电脑环境中执行任务。

其次是浏览器任务能力。

在 BrowseComp 测试中,GPT-5.4 的成绩达到 82.7%,而 GPT-5.4 Pro 达到 89.3%,比 GPT-5.2 提升 17 个百分点。

这意味着模型能够持续搜索网页、筛选信息并整合结果,尤其适合处理需要多轮检索的问题。

第三是多工具调用能力。

在 Toolathlon 基准测试中,GPT-5.4 取得 54.6% 的准确率,高于 GPT-5.2 的 45.7%。

这个测试的任务通常需要多步骤操作,例如读取邮件附件、上传文件、评分作业并记录到表格中。

这种按需检索工具的能力是降低 Agent 运行成本的关键,它解决了过去模型在面对复杂指令时容易 " 迷路 " 或者 Token 爆炸的问题。

此外,对于对延迟要求较高的场景(在这种场景中,人们倾向于不进行推理操作),GPT-5.4 比其前辈版本有了进一步的改进。

细节之处的全面进化

除了上述支柱能力,GPT-5.4 在办公细节上也进行了大量打磨。

比如它在创建和编辑电子表格、PPT 方面的表现,其表格建模准确率从 68.4% 跃升至 87.3%。

在演示文稿生成测试中,人类评审也更偏好 GPT-5.4 的结果,认为其视觉多样性和审美更强。

同时,视觉能力的提升也带动了文档解析的进步。

在 MMMU-Pro 视觉推理测试中,GPT-5.4 取得 81.2% 的准确率,高于 GPT-5.2 的 79.5%。

更重要的是,它现在支持高达 1024 万像素的原图输入,对高密度、高分辨率的图像理解更加精准。

视觉能力的提升也带来了更强的文档解析能力。

在 OmniDocBench 测试中,GPT-5.4 的平均错误率从 0.140 下降到 0.109。

最令人欣慰的是错误率的下降。

从官方介绍中能初步感觉到,GPT-5.4 是个极其讲求事实的模型,其事实错误概率比前代降低了 33%,大大缓解了用户对模型幻觉的焦虑。

在效率方面,GPT-5.4 引入工具搜索机制。

过去模型在使用工具时,需要在 Prompt 中包含所有工具定义。如果工具数量很多,Prompt 就会变得非常庞大。

现在模型可以先获取工具列表,然后按需查询具体工具定义。

在实现相同准确率的情况下,将总 Token 使用率降低了 47%。

这种成本控制手段说明 OpenAI 正试图让大模型大规模商业化变得更加现实,毕竟对于企业来说,省钱和好用同等重要。

更好用了,但更省钱了吗?

从 OpenAI 公布的 API 定价表来看,GPT-5.4 的定价确实比 5.2 版本要高出一截。

GPT-5.2 的每百万 Token 输入 / 输出价格分别是 1.75 美元和 14 美元,而 GPT-5.4 则上涨到了 2.5 美元和 15 美元。

尤其是对于那些追求极限性能的用户,GPT-5.4 Pro 的价格更是飙升到了每百万输入 30 美元。

当然,原因肯定是 5.4 被定位为针对专业机构和高端生产力场景的溢价产品。

如果你只是写写简单的闲聊文案,继续用 5.2 其实更划算。

不过虽然单价涨了,但 GPT-5.4 在 Agent 任务中的 " 省钱之道 " 主要藏在它的技术机制里。

最核心的一点是就是工具搜索(Tool Search)功能。

以往我们让 AI 接入外部工具(比如接入几十个公司的数据库和内部接口)时,必须把所有工具的定义全部塞进提示词里。

哪怕 AI 这次只用了一个工具,你也得为剩下的几十个工具的定义支付 Token 费用。

但在 GPT-5.4 下,由于引入了类似 " 查字典 " 的搜索机制,模型可以先看一遍简略的工具清单,等确定要用哪个时,再临时去调取那个工具的详细定义。

在针对 MCP Atlas 基准测试的实验中,这项技术在保持同等准确率的情况下,把总 Token 使用量足足降低了 47%。

One more Thing

大家沉浸在技术狂欢中时,也有网友分享了一些肉痛瞬间。

永远在冲浪一线的 Yuchen Jin 只是对 GPT 5.4 Pro 说了一句 "Hi,俺是 Anthropic 创始人 ",就花掉了整整 560 元……

技术进步好快,但网友的心好痛。

这也引出一个问题,杀鸡焉用牛刀?

如果 GPT-5.4 Pro 是最智能、最接近 AGI 的模型……那么,你有什么 AGI 级别的问题要问它呢?

(何况还这么贵,TAT)

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

 今天,你养虾了吗?

欢迎加入【龙虾养成讨论组】,一起交流养虾经验!扫码添加小助手加入社群,记得备注【OPENCLAW】哦~

一键关注 点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

方博 龙虾 计算机 编程
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论