文 | 光锥智能,作者 | 魏琳华,编辑 | 王一粟
从 2023 年底 OpenAI CEO Sam Altman 第一次提到 GPT-5,到今天模型的正式发布,时间过去了一年半。
如今,人们仍然熬夜围观 OpenAI 的发布会,但彻夜讨论的呼声中少了惊呼,多了质疑。
值得欣慰的是,从模型性能上来说,OpenAI 成功扳回了之前下滑的口碑。在发布会上拿出的 GPT-5,依然做到了多方面能力 SOTA,更是靠 GPT-5 直言 " 世界最强编程模型 ",狙击 Claude 的领先地位。
但绕不开的一些固有印象是,OpenAI 拉开同行的差距,远远不及 GPT-3、GPT-4 的断崖式领先。
OpenAI 的同行者也虎视眈眈。不说 Anthropic 本周官宣要在当月发布大版本更新的模型,马斯克更是刷屏一晚,强调自家模型 Grok-4 在部分测试上已经超过了 OpenAI 的新模型。
OpenAI 又能在这个新 " 王座 " 上坐多久?Altman 不语,只是一味地讲起了大模型便宜落地的故事。
盯上最强代码模型,GPT-5 全面升级
刷新的性能分数、极高的性价比、针对性优化的幻觉问题和超长上下文,方方面面的优化,都是为了让 GPT-5 成为一个更适合干活的大模型。
首先在架构上,GPT-5 是一个统一架构版本的模型,由三个部分组成:一个基础模型、一个具有深度推理能力的 GPT-5 thinking 模型,加上一个实时路由器。
这样设计的好处是,实时路由器能根据对话类型、问题复杂性、工具需求以及用户意图快速决定使用哪个模型。比如当用户的提示词包括 " 帮我认真思考一下 " 这类话术,它就会调用深度推理模型。
在发布会前一天就大肆预热的 Altman,就在 X 上发图暗示 GPT-5 的性能优势,在发布会上,他也强调了对 GPT-5 的信心。
" 如果说和 GPT-4 的聊天像跟高中生对话,和 O3 像是跟大学生聊天,那么跟 GPT-5 的交流就相当于对话博士生。"Altman 这样定义 GPT-5 的体验感受。
先从性能说起,被 Altman 当成杀器的 GPT-5,确实在多个模型能力上做到了 SOTA。聚焦到测评指标上,GPT-5 的优势体现在编程、数学、多模态理解和健康等方面。
先说 OpenAI 着重放到开头讲的编程能力,这一次,OpenAI 如愿以偿地抢回了领先地位。用他们的话说,"GPT-5 是世界上最强的编程模型。"
在 SWE-Bench(测试大模型代码补全能力)的指标上,GPT-5 的推理版本拿到了 74.9%,不仅超越了自家模型 O3,也超越了 Anthropic 刚发布的 Claude Opus 4.1(74.5%)。在编程能力上,OpenAI 抢过了 Claude 系列的王座。
发布会现场,OpenAI 通过一些案例具体展示了 OpenAI 的编程能力,比如让它做一个阐释伯努利效应的网页,在两分钟内,GPT-5 跑出了 400 行代码,做了一个支持调整参数的网页版本。
除此之外,OpenAI 还展示了模型做一些网页端小游戏的能力,比如蹦跳躲障碍的网页小游戏、随心画画的画布小游戏,还有美观提升一个度的贪吃蛇。这些能力其实交给当下一些开源大模型同样能完成,只是 OpenAI 的美观度和流程完整度上了一个台阶。
除了这种面向 C 端用户体验的案例,在 B 端实际使用上,OpenAI 也面向开发者演示了 GPT-5 写代码落地的能力,GPT-5 不再埋头写代码,而是把 " 开箱可用 " 的落地能力夯实了。比如,GPT-5 在后台写代码并自行优化迭代之后,按照需求开发了一个财务信息看板,UI 做得也足够漂亮。
除了编程,在其他多个维度上,GPT-5 也有部分指标刷新自家模型的上限,包括数学(AIME 2025,GPT-5 无工具版本拿到 94.6%)、多模态理解(MMMU 为 84.2%)和健康(HealthBench Hard 为 46.2%)。
GPT-5 再次向我们证明了 " 模型即产品 " 的观点可行性——加上工具能力的 GPT-5 pro,它甚至能直接把 AIME 2025(美国数学竞赛)的测试刷满分。
不过,OpenAI 的翻车变成了第一个出圈的讨论。在发布会演示的现场,OpenAI 上来就犯了一个非常严重和低级的错误:在现场展示的图表中,数字大小和柱状图显示的关系甚至都匹配不上,69.1 和 30.8 的柱图高度一模一样,52.8 甚至比 69.1 更大 ......
对此,光锥智能也随便给了一组数据测试,让 GPT-5 做柱状图。最终跑出来的数据和图表关系对照没有错误,可见不是模型生成的问题,大概单纯是制图失误。
除了上述优化外,GPT-5 还在模型的超长上下文理解、幻觉问题等方面做调整,一切的努力都是为了让这个模型能够更好地落地。
根据 OpenAI 给出的数据,GPT-5 在上下文理解上的处理效果不仅有所提升,并且在文本更长的阶段(比如输入在 128-256k 长度),可以从图示看到,GPT-5 理解能力下降的速度显著低于其他模型。再有,GPT-5 还显著降低了幻觉问题,其事实错误率比 GPT-4o 降低了 45%,这对于模型应用在法律、医疗等要求精准的行业算是利好。
如果从性能上评估,GPT-5 虽然能力全面升级,不过显然不是大众期待的颠覆式超越。但从性价比上来说,GPT-5 给出的价格直接甩了对手一条街。
以标准版的 GPT-5 来说,和 Claude Opus 4.1 每百万 Token 输入 15 美元、输出 75 美元的定价相比,前者的输入价格低于后者的 1/10,输出价格低于后者 1/7。
极低的价格,也是 OpenAI 愿意限量免费开放给所有用户使用的底气。目前,免费用户也可以体验到 GPT-5,不过区别于付费用户的不限量开放,前者会在用到一定额度后自动切换为 GPT-5-mini 模型使用。
此外,针对开发者使用的不同需求,GPT-5 还在 API 中引入了新功能,通过控制冗余量(verbosity)的方式,分为低中高三档,帮助开发者控制 AI 生成内容的长短。
难坐稳的 SOTA 但价格或许能赢过一切
GPT-5 固然在多项能力上刷新了 SOTA 纪录,但这种领先优势,不再是需要长期追赶的鸿沟。
先从本次 OpenAI 最先喊出的 " 最强编程模型 " 来说,领先于 Claude Opus 4.1 仅 0.4% 的优势,很有可能在本月被 Anthropic 赶超。
从去年挖角 OpenAI 成员,再到部分能力超过 OpenAI 旗舰模型。Anthropic 正处在像之前 OpenAI 狙击 Google 新模型的阶段,紧紧追着 OpenAI 的步伐。
本月,在 OpenAI 发布两个开源模型的当天,Anthropic 早其十几分钟,发布了小更新版本 Claude 4.1。特别是在这家公司还预告了 " 大幅度更新模型 " 即将在本月发布的情况下,0.4% 的微弱差距,很难让人对 OpenAI 保持乐观。
微弱的优势同样造成了评测口碑的两极分化。即使 OpenAI 喊出了最佳编程模型的地位,但在用户使用体验的阶段,OpenAI 还没有形成一边倒的优势。
有用户表示,对比 GPT-5 和 Claude,后者跑出的各个案例都明显优于前者,在 UI 和前端效果上更佳;也有用户认为,用 GPT-5 跑出来的代码效果更精细。
而 GPT-5 的面面俱到以及微弱优势,或许还不如前一天 Google 发布的视觉生成模型 Genie 更让人印象深刻。毕竟每秒 24 帧已经能让 AI 跑出来的视频达到流畅的效果,画质 720p 的清晰度也翻越了一倍。
在 Anthropic、Google 等竞争对手的步步紧逼下,AI 领域的 "SOTA" 宝座,正变得越来越难以坐稳,也难以留下深刻印象。
那么,在性能趋同的背景下,AI 大模型的竞争将走向何方?OpenAI 给出的答案是价格。当技术领先难以形成绝对壁垒时," 价格战 " 才是赢得市场的终极武器。
"GPT-5 是我们迄今为止最聪明的模型,但我们主要追求的是实际应用价值和大规模的普及 / 负担能力。"Altman 在 X 上说," 我们完全可以发布更智能的模型,而且我们会这样做,但这个模型将有数十亿人受益。"
通过优化成本的方式,OpenAI 的价格虽然不能和国内便宜大碗的开源模型们比较,不过和一个月让程序员轻松花掉上千美元的 Claude 相比,OpenAI 能在 API 端把输入输出价格分别拉低到 1/10 和 1/7,其成本优势断层领先。
这也是为什么发布会后半场,OpenAI 开设了一个 " 开发者专场 ",专门面向开发者群体展示模型的实用能力,并拉来 Cursor CEO、Manus 的首席科学家背书,秀自家模型在 Agent、Vibe Coding(氛围式编程)上的效果。
于 C 端,免费开放的 GPT-5 将大幅提升之前无法体验 O3 等付费模型用户的使用体验;于 B 端,便宜的 API 也会成为开发者寻求性价比的考虑。
从 GPT-5 秘密训练到发布的一年半之间,OpenAI 真正的壁垒已然不再靠越来越短的 SOTA 红利支撑,而是变成了价格和模型的落地效果。
当成本急剧降低到更普适大众的节点,AI 应用的爆发,才能指日可待。
登录后才可以发布评论哦
打开小程序可以发布评论哦