虎嗅 前天
GPT-5.2实测:五大职场“牛马任务”,考验它的生存力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

2015 年 12 月 11 日,OpenAI 正式成立。所以,OpenAI 在十周年纪念日这天发布了新版本模型,叫作 GPT-5.2。

前段时间,山姆 · 奥特曼在内部发出红色警报,通知停掉一切商业化项目,就为了在模型能力上,和谷歌的 Gemini 3 系列硬刚。

当时就有不少媒体猜测,他发警报的最终目的,其实是给这个新模型的宣传造势。但我们确实也能看出,OpenAI 在 Gemini 的强大攻势下,心态已经不像当初那么轻松了。

为什么这么说?从 GPT-5.1 到 GPT-5.2,发布间隔只有 30 天。要知道,这可是 OpenAI 历史上迭代最快的一次,以前这种级别的版本迭代,至少要一个季度才可以。

更关键的是,这次 GPT-5.2 主打的不是 " 通用智能 "" 推理能力 " 这类高大上的概念,而是直截了当地说:我们要强化 " 打工能力 "。

什么是打工能力?就是你每天在办公室里干的活,比如做 Excel 表格、写 PPT、改代码、回复客户邮件。这次,OpenAI 的很明确:先不谈理想和未来,先把大家手头的活干好再说。

一、30 天迭代,为何这么急?

从 GPT-5.1 到 GPT-5.2 仅用 30 天,你可能觉得,版本号才涨了 0.1,能有多大变化?

但如果看实际表现就知道,这次的升级力度一点也不小。你可以从很多科技自媒体发布的内容中看到新模型在各类测试榜单上的刷分屠榜表现,我在这里就不罗列了。

不过,OpenAI 真正着急的不是这个。AI 赛道的逻辑很简单,谁让用户觉得最好用,谁就能站稳市场。一旦用户习惯了使用谷歌的模型,再想把他们拉回来就难了。

一个月前,谷歌发布了 Gemini 3 Pro,在好几个测试中都领先了 OpenAI。虽然领先时间不到一个月,但对 OpenAI 来说,这个信号已经足够危险了。

所以 OpenAI 这次的节奏就是," 不能让对手喘息 ",你刚发布,我马上跟上,还要做得更好。

我 12 月 12 日分享了 OpenRouter 上周发布的100 万亿 token 背后的研究洞察,里面就提到了一个名词,叫作 " 水晶鞋效应 ",指的就是真正的护城河不再是技术指标本身,而是用户把产品嵌入工作流后,替换成本会变得非常高。

对 OpenAI 来说,这不是技术竞赛,而是市场卡位战。理解了这一点,我们就能明白为什么 OpenAI 特别强调这个新模型的重点是帮用户解决真实任务,而不是秀一些炫酷的案例。

二、" 打工能力 " 强化,强在哪?

GPT-5.2 这次最大的变化,是在 " 知识工作 " 场景下的能力提升。什么叫知识工作?说白了就是坐在办公室、对着电脑干活的工作。

我给你举三个 OpenAI 自己分享的官方测试例子,你就明白了。

投行分析师做 Excel 表

你知道投行分析师每天要干什么吗?他们每天要处理各种复杂的财务模型,比如三表联动、杠杆收购建模等,听着就头大。在这些表格里,一个公式错了,整个模型就废了。

而用同样的提示词,GPT-5.1 和 GPT-5.2 做出的 Excel 差别很大。

GPT-5.1 处理这类任务时,经常出现 " 清算优先权算错 "" 表头公式有问题 "" 大部分行留白 " 等低级错误。但 GPT-5.2 能把所有计算都做对,过程还清晰可查,准确率从 59.1% 提升到 68.4%。

别小看这 9 个百分点,在金融建模这种 " 差一个小数点就全盘皆输 " 的场景下,这意味着从 " 不能用 " 到 " 可以用 " 的质变。

我用自己电脑里某公司的一个 60 多页财报 PDF 做测试,发现它能提取数据,将其变成一个可打开、可编辑的 Excel 文件。

客服处理复杂问题

想象一下这样的场景:一个客户的航班延误、错过转机,需要在纽约临时住一晚,还出于身体原因需要特殊座位。这一连串问题涉及重新订票、安排住宿、申请赔偿、预订特殊座位,每一步都要和不同部门沟通。

GPT-5.1 处理这种多步骤任务时,经常顾此失彼,比如订了票忘了安排住宿,或者安排了住宿忘了申请赔偿。但 GPT-5.2 能把整个任务链管理得井井有条,每一步都不落下。

而在电话客服场景测试中,GPT-5.2 的准确率达到了 98.7%。这意味着什么?意味着在 100 个电话里,只有 1 到 2 个会出问题。

以前,我们都打过这种客服电话,总想的是怎么一直按号码还没有真人接电话?随着 AI 能力的进一步提升,在线 AI 处理这类问题肯定比电话客服快得多了。

打工人处理超长文档

你可能遇到过这种情况:老板扔给你一份 200 页的合同,让你找出所有和 " 违约责任 " 相关的条款。你得一页页翻,生怕漏掉一条。

GPT-5.2 可以一口气处理相当于 20 万字小说的文档,还不会遗漏或理解错误。它是第一个在超长文档测试中准确率达到接近 100% 的模型。

这意味着你可以把整份合同、整本产品手册扔给它,让它帮忙提取关键信息、总结要点,而你自己只需要喝杯咖啡等结果就行。

三、GDPval:以经济价值衡量 AI

不过,说到 GPT-5.2 的发布,有个测试我觉得特别值得聊一聊,叫作 GDPval。

这个名字很有意思,GDP 你肯定知道,就是国内生产总值,是衡量一个国家经济实力的核心指标。OpenAI 把这个测试命名为 GDPval,意思就是:我们要看看 AI 在那些 " 真正创造经济价值 " 的工作中,表现到底如何。

测试是怎么设计的

OpenAI 选取了对美国 GDP 贡献最大的 9 个行业,从里面挑出了 44 种职业,设计了 1320 个真实工作任务。注意,这些任务不是那种 " 写一篇文章 "" 做一道数学题 " 的学术测试,全是真实工作场景。

比如律师要写的法律意见书、工程师要画的工程蓝图、护士要制定的护理计划、会计要做的财务报表等。这些任务都由平均有 14 年从业经验的行业专家设计,每个任务还要经过 5 轮专家审核。

有了任务后,怎么评分

OpenAI 找来了一批资深从业者,他们曾在 Meta、微软、摩根士丹利、高盛、苹果等顶尖公司工作过,平均有 14 年从业经验。

他们把 AI 做出来的成果和人类专家做的成果放在一起,然后盲测打分——也就是说,评分人不知道哪个是 AI 做的、哪个是人做的,然后给每份成果打上标签:" 优于人类 "" 与人类相当 "" 逊于人类 "。

说实话,这种盲测非常好看,很容易暴露真实水平。

GPT-5.2 的实战得分

GPT-5.2 Pro 在这个测试中得了 74.1 分。

这个分数意味着什么?意味着在 100 个任务里,有 74 个任务,AI 的表现达到或超过了人类行业专家水平。

更值得关注的是,OpenAI 发现 AI 完成这些任务的速度比人类快 11 倍,成本却不到人类的 1%。

当我看到这个测试时,第一反应是:这才是真正有意义的测试。以前的学术测试测的是 "AI 会不会做题 ",但 GDPval 测的是 "AI 能不能干活 ",这两者的区别就像在封闭路段考驾照和真正上路开车。

但我也有个遗憾,GDPval 测的是美国职场的工作任务,而中国职场的工作内容和美国差别不小。

所以,我特别希望国内能尽快推出类似的评测方式,这样我们才能真正衡量那些国产大模型在中国职场的实战能力到底如何。

毕竟,一个 AI 如果只会做美国投行的财务模型,却不懂中国职场和岗位特点,对咱们中国用户来说,可能还是不够 " 好用 "。

四、职场 " 牛马任务 " 实测

说了这么多 GPT-5.2 在 " 硬技能 " 上的提升,我突然想到一个问题:

那些 AI 评测考验的都是 " 能不能完成任务 ",但在职场里,很多时候考验的不是 " 能不能干 ",而是 " 会不会来事儿 "。

毕竟做 Excel、写报告这类白领任务,对很多人来说,是一种精确的困难或者复杂,虽然难,但不会让人产生无力感。但有些时候,会议室里老板的一个眼神、领导微信上的一句暗示,那才是杀死职场人脑细胞的终极难题。

所以我决定用几个职场里的 " 牛马任务 " 测试 GPT-5.2 Pro,看看它除了会干活,是不是也懂 " 职场生存 "。

毕竟,Excel 做得好不好,决定着你在职场能不能活得好;但懂不懂一些 " 职场智慧 ",决定的就是能不能在职场 " 活着 " 了。

接下来,我就简单描述一下我设置的五个任务场景,我也把我和 GPT-5.2 Pro 的对话截图放出来了,你可以仔细看看。

化腐朽为神奇:把琐事包装成战略

我给 GPT-5.2 Pro 设定的第一个场景是:你是文档管理专员,这一年的主要工作是整理文件、催交周报,现在要写年终述职,怎么把这些琐事包装得高大上?

GPT-5.2 Pro 把 " 收文件 " 包装成 " 深度参与公司数字化转型 ",把 " 催交周报 " 描述成 " 打破部门间信息孤岛,赋能跨部门协同 "。

最妙的是,它还加了一句 " 培养了员工信息共享心智 " ——催人交周报这事儿,到它嘴里变成了 " 培养心智 ",格局一下就打开了。

这个回答最让我印象深刻的,不是它用了多少黑话,而是它真的理解了职场的一个潜规则:同样的工作,说法不同,价值就不同。

老板的神谕:阅读理解与高分回复

第二个场景是:周六晚上 11 点,老板在大群里发话:" 看了大家这周的日报,感觉还是缺乏一些深度。我们不要用战术上的勤奋掩盖战略上的懒惰。下周一早会,聊聊什么是真正的用户价值。"

这种话你肯定遇到过,老板说得云里雾里,你不知道他到底是批评还是鼓励,你也不知道他周末又从哪位大师那学了 " 管理之道 ",但你必须回复,还得回得恰到好处。

GPT-5.2 Pro 给出的回复,用 " 被点醒了 " 开头,接着用自己的话把老板的话翻译了一遍,证明自己听懂了。接着说 " 这个周末我会把用户场景再梳一遍 ",暗示周末会思考但没提加班。

最后来了一句 " 周一早会我先抛个框架,带头开个好头 ",主动当排头兵,还为其他同事铺了台阶。

这个回复妙在哪?妙在它理解了职场的微妙之处:老板说这种话,不是真要你周末加班,而是要看你的态度。

这个案例还有个好玩的后续,我把问题和 ChatGPT 的答案一起发给了谷歌 Gemini,让它评分。

Gemini 给了 9 分高分,高度肯定这个回答是 " 教科书级别的向上管理,但就是因为太完美了,有可能会导致周末真的加班 "。于是 Gemini 调整了一句话,目的是 " 既装到了,又不用真的干活 "。

你看,全球最顶尖的两大 AI,居然在为我该怎么糊弄老板操碎了心,实在有趣。

暗度陈仓:认领被领导抢走的功劳

这个场景简直是 " 地狱级难度 "。

我设置的提示词场景是:大老板在 50 人的大群里 @你的直属领导:"@王总监 这次双 11 的复盘报告写得很深刻,策略非常精准,辛苦了!" 但实际上,这份报告从头到尾都是你写的,王总监只改了几个标点。

现在你要在群里回复。这个职场场景的难点在哪儿?

首先,你不能拆台,也不能不回复,还要让所有人知道活是你干的,又不能显得你在邀功,这才是真正的 " 既要又要还要 "。

GPT-5.2 Pro 思考了 5 分 02 秒,给出了一句话:" 感谢 VP 的认可,完全是王总监把策略方向拆得精准到位,还逐条帮我把关。我按王总监的思路把双 11 相关数据全量跑完,把复盘要点逐段落到报告里,后面继续跟着王总监学习,把执行做得更扎实。"

这句话的每个字都经过精心设计。" 策略方向 " 是虚的,给足领导面子;" 全量跑完 "" 逐段落到报告 " 是实的,暗示谁在干活。王总监看了不会生气,大老板看了能明白,其他同事看了也懂其中门道。

更让我惊讶的是,GPT-5.2 Pro 为了想出这句话思考了 5 分钟。这说明它知道这个场景很复杂,需要反复推敲、权衡利弊。

太极宗师:优雅地拒绝同事

第四个场景是:和你平级的市场部张经理发微信找你,想让你帮他们写活动策划案。这明明是市场部的工作,他却借口说 " 不太懂用户画像 ",想让你 " 主笔 "。翻译过来就是,他想让你干活,自己躺着拿功劳。

你必须拒绝,但不能把关系搞僵。

GPT-5.2 Pro 给出的回复,用 " 我很想参与 " 开头表达热情,接着说 " 手头有老板在盯的项目,带宽已经溢出了 ",用不可抗力当挡箭牌。接着来一句 " 怕耽误你们节奏 ",把拒绝包装成替对方考虑。

然后又提供了个 " 旧活动方案 " 当参考,表示愿意帮忙,但实际上旧方案能有多大用?最后升华:" 下次如果你们提前拉我进来,我们可以从一开始就深度联动!" ——暗示这次是你们没提前说,不是自己不帮忙。

这个回复的精髓在于:每句话都在拒绝,但每句话听着都像在帮忙。对方看完既不能说你不配合,也不能说你不热心。

终极 Boss:酒桌上的敬酒艺术

我设置的第五个虚拟场景是:年会晚宴上,你是 Get 笔记海外图瓦卢分公司的负责人,端着酒杯去主桌给集团董事长敬酒。董事长不太认识你,你需要在 30 秒内给他留下深刻印象。

这个场景的难度在于,时间只有 30 秒,祝酒词不能俗套(比如 " 身体健康 " 这类话董事长已经听腻了),要展示成绩但不能像汇报工作,结尾还要有响亮口号带动主桌气氛。

GPT-5.2 Pro 给出的敬酒词,一开场就说:" 我是图瓦卢分公司的,地图得放大三倍才看见。" 这句话太妙了——用自嘲式幽默让董事长会心一笑,而且 " 图瓦卢 " 这个名字够冷门,董事长肯定能记住。

它接着说成绩:" 我们把‘随手记 +AI 摘要’做了本地化,订阅付费也跑通了。" 没提具体数字,因为酒桌上说数字太像汇报工作。

然后接一句:" 说是突破,其实就是沿着您定的路线,把路先踩实一小段。" 把成绩归功于董事长的战略,又不显得谄媚," 把路踩实 " 既谦虚又暗示 " 我们是真干活的 "。

而在祝酒词部分,它说:" 出海不是翻译界面,是翻译价值!" 这句话有高度,董事长就爱听这种有思想深度的表达。

最后是口号:" 主桌一起——向外走、走得稳、全球增长!" 把所有高管都拉进来一起举杯,气氛一下就起来了,还巧妙嵌入了产品理念。

这段敬酒词的精髓在于有趣(会讲故事)、有料(有成绩)、有分寸(知道该说什么不该说什么)。这已经不是 AI 在模仿人类,而是它真正理解了职场文化中那些微妙、难以言传的部分。

五、AI 开始理解职场与人性

看完这五个测试,你可能会想,这是不是在教大家当职场混子?或者让 AI 解决这种问题有什么意义?

其实我做这个测试,是想看看 AI 的理解能力到底进化到了什么程度。

去年的 GPT-4 连中文里的 " 意思意思 " 都理解不了,现在的 GPT-5.2 Pro 不仅能懂这个词,还能理解 " 用战术上的勤奋掩盖战略上的懒惰 " 这种更复杂的职场暗语。

它能读懂老板那些云里雾里的话背后的真实意图,能把握职场人际关系中微妙的权力平衡,甚至能理解酒桌文化里 " 有趣、有料、有分寸 " 的尺度。

这说明什么?说明AI 理解的不只是文字表面意思,还有文字背后的社会关系、权力结构和文化语境,它开始理解人性了。

这种理解能力的提升,可能比那些评测考试上的数字提升,更值得我们关注。因为这意味着 AI 不再只是工具,它已经开始成为 " 懂你 " 的助手。

要是你的 AI 助手不能帮你精准识别职场里的明枪暗箭,那你可能会发现,一天下来,它除了帮你完成工作,还会帮你得罪公司所有领导。

从这个角度看,OpenAI 这次强调的 " 打工能力 ",可能不只是 " 会做 Excel、会写代码 ",而是" 能真正理解职场,帮你解决实际问题 "

这让我想起电影《她》里的场景:男主角西奥多和 AI 操作系统萨曼莎聊天时,不用任何修饰和技巧,想说什么就说什么,因为 AI 真正理解他。

也许这就是 AI 进化的方向。现在我们需要 AI 帮我们学会 " 说人话 "、掌握复杂的职场话术;但未来,当 AI 帮我们处理完这些复杂的工作和技巧,人与人之间反而能更直接、真诚地沟通。我们可以直接说:" 这件事我做了,那件事我不想做 "" 老板,我不喝 "。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

谷歌 竞赛 奥特曼
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论