刚刚！GPT-5淘汰所有OpenAI模型，地表最强编程惊艳全场，马斯克不服开怼

智东西

作者 | 陈骏达李水青

编辑 | 李水青

GPT-5 终于来了！

智东西 8 月 8 日报道，今天凌晨 1 点，OpenAI 发布了万众瞩目的新一代旗舰模型 GPT-5，即日起向所有免费、Plus、Pro、Team 用户推出，企业和教育用户将在一周内获得访问权限。一经发布，GPT-5 便冲上大模型竞技场榜首，并在文本、编程、数学等全方面排名第一。

GPT-5 将非推理模型与推理模型融为一体，支持 " 按需思考 "，即根据任务难度，自行判断是否进行思考，并提供合适的回答。它还拥有 4 种 " 人格 "，分别为愤世嫉俗者、机器人、倾听者和书呆子。

OpenAI CEO Sam Altman 认为，GPT-5 已经达到了博士级别的智能，与其对话就像是与一位在任何领域都拥有博士学位的专家沟通。同时，GPT-5 不仅是用来 " 问问题 " 的，现在还能 " 为你做事 "，完成日常规划、发送邀请函、采购物资等任务。

OpenAI 研究员 Tina Kim 在发布中称：" 有了 GPT-5，我们将淘汰所有旧模型。" 一个 GPT-5 模型就集成多模态、推理等多种能力，相当于融合 GPT 和 o 系列模型，用户无需再为复杂的产品族选择纠结。

多项基准测试中，GPT-5 超过了 OpenAI o3、GPT-4o 等 OpenAI 最强大的模型，在数学、编码、视觉感知和健康方面表现尤其出色。凭借 GPT-5-pro 的扩展推理，该模型还在科学知识基准测试 GPQA 上获得了新的 SOTA，无需工具即可得分 88.4%。

不过，GPT-5 也可能是 OpenAI 历史上最复杂的模型家族之一，拥有 GPT-5、GPT-5-mini、GPT-5-nano 和 GPT-5-pro 四个版本。免费用户的 GPT-5 用量有限，超过限额后将自动转至 GPT-5-mini。GPT-5-pro 仅供 Pro 订阅用户使用，可凭借扩展推理功能，提供更全面、更准确的答案。

GPT-5、GPT-5-mini、GPT-5-nano 三款模型也提供 API 服务，GPT-5 的输入、输出价格分别为每百万 token 1.25 美元 /10 美元，GPT-5-mini 的定价为 GPT-5 的 1/5，而 GPT-5-nano 的定价为 GPT-5 的 1/25。与主要竞争对手 Anthropic 和谷歌相比，OpenAI 的 GPT-5 模型对于开发人员来说成本相当甚至更低。

GPT-5 API 与 Anthropic、谷歌模型价格对比（图源：VentureBeat）

GPT-5 刚刚发布，马斯克就在 X 社交平台发起攻势，称 "Grok 4 在 ARC-AGI 上击败了 GPT-5"。对此，有网友认为这是对 Grok 4 更强推理和泛化能力的证实，也有网友认为氪金 300 美元才能用上的 Grok 4 赶不上免费的 GPT-5 更有性价比。

发布会上，Altman 分享了一组数据：32 个月之前，OpenAI 发布了 ChatGPT，并在发布首周获得超 100 万用户。而如今，ChatGPT 在全球范围内已有超过 7 亿用户。GPT-5 是对 GPT-4 的一次重大升级，也是迈向 AGI 的重要一步。

但 GPT-5 不是 AGI。Altman 称：" 我有点讨厌‘通用人工智能（AGI）’这个词，因为现在每个人都用它来指代略有不同的事物，但 GPT-5 是朝着真正强大的模型迈出的重要一步。我们仍然缺少一些非常重要的东西。" 这一重要的东西就是模型在部署过程中能够持续学习，而 GPT-5 却没有。

一、靠自主判断规避 " 过度思考 "，编程能力获 Cursor 创始人认可

现场演示中，OpenAI 首先展示了 GPT-5 按需思考的能力。工作人员让 GPT-5 解释伯努利现象（流体力学里的一个基本原理），这对其而言相对简单。GPT-5 判断无需思考，并迅速给出答案。

紧接着，工作人员提出想让 GPT-5 打造一张动态 SVG 演示图，来进一步解释这一概念。此时，无需手动调整，GPT-5 便会自动进行思考，只需一个简单的提示，GPT-5 就创建了交互式的演示。用户也可以在提示词中引导 GPT-5 是否开启思考，只需输入认真想想、仔细思考等类似表述即可。

在其给出的演示中，用户可以拉动进度条改变空气速度，以查看升力和压力变化，也可以调整迎角，看模拟的飞机是否真的会坠毁。所以 GPT-5 可以随时将任何硬核概念带入生活，让学习物化生和数学变得更加容易。

GPT-5 在写作方面得到显著提升。比如 OpenAI 研发人员现场让 GPT-5 为 GPT-4o 写了一篇悼文。研究人员称，从生成内容来看，这不像在跟 AI 聊天，而像一位高智商、高情商的朋友在交流和上课。

研发人员称，GPT-5 是迄今为止最好的编程模型。比如他让 GPT-5 建立了一个学习法语的网络应用，同时要求 GPT-5 嵌入一款教育游戏。大约两分钟后，GPT-5 生成了一个带有标签、抽认卡、测试等功能的应用，并且成功嵌入了一款贪吃蛇游戏。

为了进一步证明 GPT-5 在生产场景中的编程能力，OpenAI 还特地邀请了明星 AI 编程创企 Cursor 联合创始人兼首席执行官 Michael Truell 进行现场演示。Truell 打开了 OpenAI API GitHub 页面上的一则 PR。这一问题历经 3 周还未被修复，说明存在一定难度。

Truell 认为，GPT-5 在 API 调用中展现出了不错的稳定性，在 Cursor 里解决上述问题时，它面对的是一组从未见过的定制模型、从未见过的定制工具，还需要从网上抓取文本、在代码库里搜索等，解决问题的速度比他本人要快很多。

在官网上，OpenAI 也分享了更多编程案例。其开发出的小游戏画面精美，游戏机制也比较合理。

还能遵循用户指令，打造出 Lofi 视觉化效果器。从官方 Demo 来看，GPT-5 的前端能力较此前的 OpenAI 模型有了不错的提升。

GPT-5 改进了语音功能，听起来就像跟人对话一样自然。免费用户每天可以聊上几个小时。比如，结合 ChatGPT 学习模式，用户可以以引导的方式教用户学习韩语，OpenAI 现场对此进行了演示。

OpenAI 还宣布一项新功能，面向付费用户推出更加定制化的 ChatGPT，支持自定义聊天功能，可调整模型的性格，四项初始选项包括：愤世嫉俗者、机器人、倾听者和书呆子，还能改变聊天界面的颜色。

为了让 GPT-5 更符合个人用户的沟通方式，研发团队内存方面做了很多改进，使其具备更强的记忆功能。比如这使 GPT-5 在为用户指定日程时，能顾考虑到此前提及的安排，更符合定制化需求。下周起 Pro 用户可先接入 Gmail 和谷歌日历，自动规划日程、回复邮件。

在 API 中，所有 GPT ‑ 5 模型最多可接受 272000 个（272k）tokens，并生成最多 128000 个（128k）推理及输出 tokens，总上下文长度为 400000 个（400k）tokens。

通用 Agent 明星创企 Manus 联合创始人兼首席科学家 Yichao ‘ Peak ’ Ji 称，GPT ‑ 5 " 在各种智能体任务中表现出色，即使在未修改任何代码或调整提示的情况下 "。

OpenAI 在 API 中引入了新功能，让开发人员对模型回复具有更多控制权。GPT ‑ 5 支持新的 verbosity 参数（取值：低、中、高），帮助控制控制回答是简短扼要还是详尽全面。GPT ‑ 5 还支持最低模式，该模式会将 GPT ‑ 5 的推理强度降到到最低，以快速返回答案。

二、多项基准测试实现业界 SOTA，事实性错误较 o3 减少 80%

OpenAI 称，GPT ‑ 5 是其迄今为止在编码和智能体任务方面表现最佳的模型。它在编码基准测试和实际应用场景中均优于 o3，并且经过专门优化，在 Cursor、Windsurf 和 Codex CLI 等智能体编码产品中表现尤为出色。

GPT ‑ 5 在关键编码基准测试中处于行业领先水平（SOTA），在 SWE-bench 验证测试中得分 74.9%，较 o3 版本的 69.1% 有所提升。值得注意的是，GPT ‑ 5 以更高的效率和速度获得了高分：与 o3 在高推理强度下相比，GPT ‑ 5 的输出 tokens 数量减少了 22%，工具调用次数减少了 45%。

同时，GPT ‑ 5 在 Aider polyglot 测试中得分 88%。在内部测试中，其在 70% 的 Web 任务开发中表现和 OpenAI o3。此外，GPT ‑ 5 在深度分析代码库方面表现出色，能够精准解答关于代码模块运作机制及相互协作的问题。

GPT ‑ 5 在长背景信息性能方面也展现出显著提升。在 OpenAI-MRCR（一种衡量长背景信息检索能力的指标）中，GPT ‑ 5 的表现优于 o3 和 GPT ‑ 4.1，且随着输入长度的增加，这种优势会显著扩大。

OpenAI 与一些客户就编程功能进行了合作。Cursor 首席执行官 Truell 称，GPT ‑ 5" 具有显著的智能，易于操控，甚至拥有其他模型中不具备的人格特质 "。AI 编程公司 Windsurf 相关负责人称，GPT ‑ 5 在其评估中达到最先进水平，且 " 与其他前沿模型相比，工具调用错误率仅为其一半 "。

GPT ‑ 5 在持续型智能体任务中同样表现卓越，在两个月前刚发布的工具调用基准测试 τ2-bench telecom 中，以 96.7% 的成绩刷新了业界最优水平。

在事实性方面，GPT ‑ 5 比其之前的模型更值得信赖。在事实准确性基准测试 LongFact 和 FActScore 中，GPT ‑ 5 的错误率仅为 o3 的五分之一。这使得 GPT ‑ 5 尤其适用于正确性要求高的智能体任务场景，特别是在代码生成、数据处理和决策支持等关键领域。

GPT ‑ 5 改进的工具智能使其能够可靠地串联数十次工具调用（无论串行还是并行），保持路径一致性，这使其在执行复杂的现实世界端到端任务时表现得远优于其他模型。它还更精确地遵循工具指令，更好地处理工具错误，并在长背景信息内容检索方面表现出色。

OpenAI 还开源了 BrowseComp Long Context ⁠，这是一个用于评估长背景信息问答的新基准。在此基准中，模型会收到用户查询、一长串相关搜索结果，并必须基于搜索结果回答问题。

以下是 GPT-5 的一些基准测试成绩。但 OpenAI 研发人员称，GPT-5 训练的重点是现实的实用性，而不是基准测试。

三、解决 GPT" 阿谀奉承 " 问题，靠新方法减少非必要 " 拒绝回复 "

OpenAI 的多名研究人员分享了 GPT-5 背后的技术创新。

在安全问题上，ChatGPT 过去主要依赖于基于拒绝的安全训练：根据用户的提示，模型应该要么遵守，要么拒绝。

这种类型的训练适用于明显的恶意提示词，但是在用户意图模棱两可的情况下，可能出现问题。比如拒绝应该回答的问题，或是给有风险的问题做出回答。

对于 GPT-5，OpenAI 引入了一种新的安全训练形式——安全完成（safe completions）。这种训练形式教会模型尽可能给出最有用的答案，同时仍然保持在安全范围内。

如今，对于一些可能有潜在风险的问题，GPT-5 会减少不必要的过度拒绝，转而告诉拒绝的原因，并提供安全的替代方案。

GPT-5 还改善了 GPT 系列模型阿谀奉承的问题，减少了过度讨好和无意义的表情符号的使用。OpenAI 已经开发出新的评估方法，来衡量模型阿谀奉承的程度，并改进训练方法了，使模型更少地阿谀奉承。

在针对阿谀奉承问题的专门评估中，GPT-5 显著减少了此类回复的比例（从 14.5% 降至不到 6%）。

GPT-5 Pro 是 OpenAI 推理模型 OpenAI o3-pro 的替代品，能提出给出更为全面、高质量的答案，这得益于一项名为并行测试时计算的技术（同时进行多项推理）。

在多个具有挑战性的基准测试中，GPT-5 Pro 实现了同家族模型中的最佳性能。OpenAI 还进行了 1000 个实际测试，67.8% 外部专家更偏好 GPT-5 pro 的回答，而非开启思考模式的 GPT-5。GPT-5 pro 犯下重大错误的比例降低了 22%，在健康、科学、数学和编程方面表现尤为出色。

在发布会的尾声，OpenAI 首席科学家 Jakub Pochocki 做了一番总结。他称，GPT-5 的模型的诞生，是多年研究的结果，这些研究不仅以推出新版本为目的，还旨在构建对底层技术本身的理解。GPT-5 呈现的许多技术，会在未来得到进一步发展。

Pochocki 称，OpenAI 仍然有很多需要了解的东西，并期待 AI 能够发现全新的知识，并真正地使我们的生活变得更好。

结语：靠 " 视觉欺骗 " 夸大性能提升？GPT-5 实际表现有待进一步验证

GPT-5 的发布，毫无疑问是今年 AI 圈最受关注的事件之一。GPT-5 官宣推文发布 2 小时后，已经获得超 160 万浏览，并且仍在持续增长。然而，这一发布也带来了一定争议—— OpenAI 在发布会使用了 " 视觉骗局 " 的方式呈现基准测试，柱状图中 OpenAI o3 的高度被不成比例地压缩了，这从某种程度上夸大了 GPT-5 实现的能力提升。

GPT-5 在真实使用场景中的性能与体验，尚待市场反馈，但 OpenAI 的估值已经飙升。此前周三外媒 The Information 消息称，OpenAI 正洽谈潜在的二级股票发行，估值飙升至 5000 亿美元（约合 3.6 万亿人民币），比年初翻了一倍。

宙世代

一起剪

相关标签