虎嗅APP 前天
GPT-5能让普通人变成博士,但魔法依旧没有
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

本文来自微信公众号:直面 AI,作者:胡润、毕安娣,题图来自:AI 生成

千呼万唤始出来的 GPT-5 终于在昨天晚上 1 点问世,在持续了一个小时 10 分钟的发布会上,OpenAI 向世人展示了一个性能绝对强大,更加易用,甚至能够理解或者说准确猜测用户真实意图并且交付符合预期的产品的大模型。

用 Sam Altman 在发布会上的话来说,GPT-5 在各个领域都能达到博士的知识水平,能力可以比肩专业人士,从而让普通人能够完成以前自己无法想象的工作。

相比于 OpenAI 两年前发布 GPT-4 时,整个世界对于大模型的认知和体验已经充分得多。观众和用户已经不会对模型能够看懂网络梗图这种事情感到惊叹不已。但是作为一个几乎每天都会使用 AI 产品的人来说,GPT-5 的发布依然足够惊艳。

最重要的原因就是,从发布会上传达出的内容,我能深切地感受到,OpenAI 想让大模型已经从一个 " 玩弄 " 语言和 " 智能 ",不时让人感受到惊喜和挫败的大玩具,加速进化到一个生活中的可靠帮手。就像你的手机一样,如果你离开它,你将深刻地感受到不方便,不习惯,甚至不安全。

下面我将用发布会的几个瞬间来帮助大家理解这一切是怎么发生的。

孩子让你给他解释流体力学中的伯努利公式,以前的 AI 可能给你一篇文章,GPT-5 能按照你的要求,一句话直接给你做一个可以互动的页面。

你想学习法语,GPT-5 能按照你的要求去生成一个像多邻国一样的学习应用,你可以用来背单词,还能通过贪食蛇来帮你复习。如果你对生成的应用有不满意的地方,也可以直接通过自然语言让 GPT-5 帮你修改。

如果你是一个创业公司的 CFO,你可以让 GPT-5 用大概 3 分钟的时间,根据你的所有数据,生成一个详细的财务状况的可互动的演示板。而你需要的仅仅是一个 100 字左右的描述。GPT-5 可以从零生成代码,保证完成,它能猜测你想呈现的形式并自动帮你优化代码和呈现的效果。

最夸张的是,演示中 OpenAI 的工作人员直接用 3 段提示词,就让 GPT-5 生成了一个带射击小游戏功能的城堡 3D 模型,还能和城堡上的士兵聊天。你点击周围的气球,就能发射弹药把气球打爆,同时还会伴随爆炸的音效。

从演示中我们可以看出,GPT-5 已经全面进化成为一个直接输出专业产品的万能百宝箱。

但是说实话,最让我感到触动的,是 OpenAI 关于医疗健康方面能力的介绍。OpenAI 邀请了一个从 3 种癌症中康复的患者,让她聊了聊自己在抗癌过程中 GPT-5 给她的帮助。

她说,当她得到诊断结果的时候,医生给她提供了几种治疗方案进行选择。她在求助了 GPT-5 之后,才真正理解了自己面临的情况,而将自己的情况和 GPT-5 详细聊过之后,她做出了最适合自己的选择,最终战胜了病魔,获得了重生。她很难想象如果没有 GPT-5 的专业建议,完全没有医疗专业知识的自己如何能够理解医生给她的方案和选择,更不知道最后自己是否能挺过来。

看完发布会之后,能清晰地感觉到,大模型技术本身已经进入了一个相对稳定的发展曲线。GPT-5 发布代表着 OpenAI 也没有其他 " 魔法 ",让大模型能力产生跨越式的发展。而接下来的 AI 巨头们的冷兵器战争,将会越加焦灼。

一、性能介绍

模型系统

GPT-5 不再是一个模型,而是一个模型系统:

• 自动切换器判断查询意图

• 简单问题路由到聊天版本(极速响应)

• 复杂问题路由到推理版本(深度思考)

256k token 上下文窗口,支持文本和图像输入,支持函数调用和结构化输出。

目前打开我自己的 ChatGPT,发现左上角的模型选项已经默认为 "GPT-5",而且下拉选项中也不再能看到前代模型。正如奥特曼之前就承诺过的—— GPT-5 时代将不会再有繁琐的模型选择,由模型自行判断用户在当下情境是需要快速响应,还是需要深度思考和推理。

编码和写作

OpenAI 将 GPT-5 称为 " 我们迄今为止最强大的编码模型 ",在复杂的前端生成和大型代码库的调试方面表现出色。它通常只需一次提示就能创建美观且响应迅速的网站、应用程序和游戏,并兼具美感,直观而优雅地将创意转化为现实。

此外,OpenAI 也称 GPT-5 是 " 我们迄今为止最强大的写作工具 ",可以写出引人入胜、富有文学深度和节奏感的文本。它能够更可靠地处理结构模糊的写作,例如持续不押韵的抑扬格五音步或流畅自然的自由诗,将对形式的尊重与清晰的表达相结合。这意味着 ChatGPT 能够更好地帮助用户完成日常任务,例如起草和编辑报告、电子邮件、备忘录等。

我们也浅浅尝试了一下新模型的作诗能力,以 " 秋天的第一杯奶茶 " 为题,的确比 GPT-4 要自然很多(AI 味儿没那么重了)。

评估

GPT-5 的全面智能化程度显著提升,这体现在它在学术和人工评估基准测试中的表现上,尤其是在数学、编码、视觉感知和健康领域。

它在数学(AIME 2025 无需工具测试得分 94.6%)、真实世界编码(SWE-bench Verified 得分 74.9%,Aider Polyglot 得分 88%)、多模态理解(MMMU 得分 84.2%)和健康(HealthBench Hard 得分 46.2%)方面均创下了新的最高水平——这些提升在日常使用中得到了充分体现。

凭借 GPT-5 pro 的扩展推理能力,该模型还在 GPQA 上创下了新的最高水平,无需工具测试得分高达 88.4%。

GPT-5 已经在 LMArean 登顶。

在 Intelligence Analysis 获得的预览访问中,GPT-5 同样获得了第一名。

幻觉降低

在启用搜索的情况下,GPT-5 出现事实性错误的概率比 GPT-4o 降低约 45%。在 " 思考(thinking)" 模式下,这一概率比 OpenAI o3 降低 80%。

除了事实性错误之外,AI 还经常 " 睁着眼睛说瞎话 ",比如明明做不到 / 没有权限做的事情,它也许会元气满满地告诉你已经搞定了,GPT-5 在 " 欺骗 " 方面也表现得更好、更诚实。例如,为了测试这一点,OpenAI 从多模态基准测试 CharXiv 的提示中删除了所有图像,结果发现 OpenAI o3 仍然能够以 86.7% 的概率对不存在的图像给出自信的答案,而 GPT-5 的这一比例仅为 9%。

二、更 " 高效 ",更 " 节省 "

在 OpenAI 的评估中,GPT-5(具备思考能力)的表现优于 OpenAI o3,在视觉推理、代理编码和研究生水平的科学问题解决等功能上,输出 token 数量减少了 50% 至 80%。

也就是说,GPT-5 用更少的思考时间实现了更大的价值。

API

API 价格方面,GPT-5 性能最强,价格却低得离谱,看来 OpenAI 是掌握了跨代的优化方法。

OpenAI 和奥特曼对 GPT-5 无疑是寄予厚望的,他们也清楚,外界期待这一代模型已经很久。

奥特曼称,这还是第一次,真的像是在与某个领域的专家对话。如果说 GPT-4o 是大学生,那 GPT-5 就是博士级的专家。

这种重视,在发布会时长上也有所体现,以往的新模型发布,OpenAI 的线上发布会只有半个小时左右,这次持续了一个小时以上。而奥特曼本人,也在发布会进行的同时,在 X(前推特)上发帖进行 " 文字直播 "。

不过也许是心急,发布会 PPT 里出现大错误——在 "SWE-bench(人工验证版)" 相关的图表中,条形图明显不对。GPT-5 不加思考(thinking)的准确率为 52.8%,在图上却高于 OpenAI o3 是 69.1%,而 o3 的 69.1%,又和 GPT-4o 的 30.8% 一样高。

所以很尴尬的一幕出现了:奥特曼在 " 文字直播 " 发布会,很多网友却在评论区发这张截图,戏谑 OpenAI 离了大谱的图表。

奥特曼倒是大方转发了消息并且称已经改正,一些粉丝认为这只是无心之失。但不少人却觉得这是 " 有意为之 ",是为了让 GPT-5 显得厉害在图表上玩花招,甚至称之为 " 本世纪最大的图表犯罪 "。

这大概也在表明,GPT-5 的发布会没能让所有人信服,不少人开始问 "GPT-6 什么时候出 "。

马斯克已经跳出来,直言两周前发布的 Grok 4 Heavy 比 GPT-5 更智能。

而一向喜欢泼冷水的 AI 学者盖里 · 马库斯(Gary Marcus)在赞扬 GPT-5 有很多良好进展的同时,称这 " 并非一个巨大的飞跃 ",GPT-5 也够不上外界的期待。

" 显然不是 AGI。"

GPT-5 是否足够好?还需要更多时间检验。也许 OpenAI 能从中学到的教训就是——做好外界的预期管理,不要拖延太久。

本文来自微信公众号:直面 AI,作者:胡润、毕安娣

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

普通人 小游戏 准确 公式 cfo
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论