硅星人 3小时前
GPT5.2发布:屠榜?不,是OpenAI在补课
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

四个月前,GPT-5 发布时一堆人吐槽,跑分是高了,但聊天冷冰冰;一个月前,GPT-5.1 回应了这波差评,主打 " 更好聊、更好调 ",算是把人味儿找回来了。

结果还没暖热乎,Google 的 Gemini 3 就杀了过来,直接把 LMArena 榜单屠了个遍。紧接着 Anthropic 的 Claude Opus 4.5 也上线,在编程榜单上把 OpenAI 按在地上摩擦。

于是就有了昨天凌晨的 GPT-5.2。

这次发布的背景很微妙,就在几天前,有媒体爆出 Sam Altman 在内部发了一封 Code Red 邮件,要求全公司集中资源改进 ChatGPT。虽然官方说 GPT ‑ 5.2 不是专门为 Gemini 3 赶出来的,但 Code Red 和发布时间点都说明:Gemini 3 至少加快了 OpenAI 把这版推向用户的步伐。

这一次,OpenAI 虽然继续强调跑分相对 5.1 点提升,但还在反复突出一个关键词:专业知识工作。

换句话说,这次瞄准的不是 " 更好聊 ",而是 " 更能干活 "。

第一个在 " 真实工作 " 上打平人类专家的模型?

这次 OpenAI 主推的新基准测试叫 GDPval:让 AI 去做 44 种职业的真实工作任务,比如做 PPT、做表格、写分析报告。

成绩是这样的:

GPT-5.2 Thinking 在 70.9% 的任务上能打平或者赢过行业专家

上一代 GPT-5 才 38.8%

Claude Opus 4.5 是 59.6%

Gemini 3 Pro 是 53.5%

更夸张的是效率:速度快 11 倍,成本不到 1%

当然,GDPval 是 OpenAI 自己搞的基准,还没有被独立验证,所以这个打平人类专家的说法要打个问号。但即便打个折扣,从 38% 跳到 70%,这个提升幅度也很难忽视。

Anthropic 的 Claude 最近在这类任务上同样进步明显,但从 5.2 的发力方向来看,OpenAI 显然想在 "AI 替代知识工作 " 这条赛道上抢先卡位。

OpenAI 官方也放了一些工作中的案例,比如,同样是让模型做一个劳动力规划表格(包含员工人数、招聘计划、流失率和预算影响),5.1 输出的是一堆原始数据堆砌,5.2 则自动按部门分类、加上颜色标注和清晰的层级结构,看起来像是有人真的用心排过版。

Coding:前端又双叒叕更强了

编程能力也是 5.2 的重点宣传方向。

SWE-bench Pro:55.6%(5.1 是 50.8%,Gemini 3 Pro 是 43.3%,Claude Opus 4.5 是 52%)

SWE-bench Verified:80%(和 Claude Opus 4.5 的 80.9% 基本打平,这个榜已经快刷到极限了)

OpenAI 这次重点宣传的是 SWE-bench Pro 而不是 Verified,角度是:Pro 版本场景更多样、污染更少,更能反映真实的软件工程能力。

前端开发能力又上了一个台阶,特别是在 3D 场景渲染和复杂交互界面这块。Cognition、Warp、JetBrains、Augment Code 这些合作伙伴都表示,5.2 在交互式编程、代码审查和 bug 查找上都有可测量的提升。

最直观的是这个波浪模拟案例的对比,

GPT-5.2 Thinking:

Gemini 3 Pro:

更像数学家了

数学能力是这次升级的另一个重头戏。

几个关键数字:

FrontierMath(Tier 1-3):40.3%,创下新的行业纪录,上一代 5.1 是 31%

AIME 2025:100%,满分。这是第一个在不使用工具的情况下刷满这个竞赛数学基准的模型

GPQA Diamond(博士级科学问答):Thinking 版 92.4%,Pro 版 93.2%

但最让人印象深刻的,是 GPT-5.2 Pro 在一个真正的数学研究问题上的表现。

OpenAI 在博客里提到,研究人员用 GPT-5.2 Pro 探索了一个统计学习理论中的开放问题,这个问题最早是在 2019 年的一个数学会议上提出的。在一个特定的高斯设定下,模型提出了一个证明思路,随后被人类研究者验证并扩展。

这不是 AI 从零发现物理定律那种科幻场景,但确实是一个 AI 在人类监督下提供了非平凡的数学洞见,而且经受住了专家审查。5.1 没有被广泛报道做到过这一点。

用一位测试者的话说:5.1 像一个很强的数学家教和助手,5.2 开始有点 " 初级合作者 " 的意思了——尤其是配合代码工具使用的时候。

API 涨价:OpenAI 的小心思

5.2 的 API 涨价了。

输入输出的单价都上调了约 40%:$1.75/ 百万输入,$14/ 百万输出。Pro 版本更贵,分别是 $21 和 $168。

官方的解释是:单价虽然涨了,但模型效率更高,完成同样的任务消耗的 token 更少,所以 " 达到同等质量水平的总成本可能反而更低 "。

但如果花更少的 token 只能达到 " 同等质量 ",那升级的意义在哪儿?要是真的又好又省,直接说 " 更好更便宜 " 不就完了?

说白了,模型确实变强了,但 OpenAI 选择把效率提升的红利收进自己口袋,而不是让利给用户。

几个重点提升

除了上面这些亮点,5.2 还有几个实打实的提升:

错误率降低 30%

这一点其实很关键。很多人只盯着 " 智商 " 看,但实际用下来会发现,国产模型和海外头部模型之间,幻觉控制的差距往往比纯智力差距更影响体验。5.2 的 Thinking 版本比 5.1 的错误率降低了 30%,在日常决策、研究和写作场景下会更靠谱。

长文能力提升

以前长上下文是个老大难问题,塞太多内容进去模型就开始健忘。5.2 在 256k token 级别的测试中表现稳定,基本能把关键信息都记住。像合同审核、文献梳理这种需要反复引用上文的场景,体验会好很多。Box 反馈说,5.2 从长文档中提取信息的速度快了 40%,推理准确率也提升了 40%。

看图能力

图表理解、软件界面识别这块错误率砍了一半。在 CharXiv Reasoning(科学论文图表理解基准)上,5.2 Thinking 达到了 88.7%,比 5.1 提升了 8 个百分点以上。

OpenAI 内部测试里,有人给模型一张低分辨率的主板照片,它能准确识别出关键元器件。这意味着以后扔给 AI 一张模糊的业务报表截图,它大概率能直接把里面的数据结构化提取出来,这对做数据分析的人来说挺实用的,毕竟现在海外已经有不少人把 AI 当成数据分析的主力工具了。

Code Red 下的补课之作

拉远一点看,GPT-5.2 本质上是一次 " 补课 "。

从 8 月的 5.0 到 11 月的 5.1 再到 12 月的 5.2,四个月三个版本,这个节奏本身就说明问题:OpenAI 在被 Gemini 3 和 Claude Opus 4.5 逼着跑。结果就是 PT ‑ 5.2 在 benchmark 上把很多榜单拉了回来,但真正有意义的是,它在长时知识工作、复杂编码和 agent 工作流上的表现。

另外也有观点认为,这种紧急动员 + 小步快跑的节奏可能会成为常态,年底各家都可能还有新发布。好处是各家实验室会被倒逼着把模型做得更快、更便宜、更能变现;坏处是大家都盯着短期 benchmark 卷,真正需要长期投入的基础性突破可能会被挤压。

这次的社区的反馈也很多样,做正事的用户普遍觉得真香,长上下文、复杂推理确实更稳了;但陪聊党和角色扮演玩家吐槽 "5.2 冷冰冰的,像从好朋友变成了 HR",人味儿又被收回去了,还有人吐槽说好的成人模式也遥遥无期。

总结一下,如果你是 ChatGPT Pro 用户,5.2 在需要深度分析、复杂推理的场景下值得一试——做 PPT、做表格、写报告、啃长文档,这些方面的进步是实打实的。

但如果你期待的是日常聊天体验的质变,可能要失望了。5.2 的真正价值,或许要等它接入 Codex 这类 agent 产品、开始真正替你跑腿干活的时候,才能完全释放出来。

屠榜不重要,能干活才重要。这一点,OpenAI 这次算是想明白了。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

google 编程
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论