量子位 22小时前
OpenAI公告正经解释:为什么GPT-5.5爱说“哥布林”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

OpenAI 正儿八经写了一篇研究复盘,标题看起来却像个段子:

GPT-5.5 爱说哥布林,正是这两天 OpenAI 用户最热议话题。

起初,是有人发现 Codex 系统提示词中特别强调了两遍:禁止谈论哥布林、妖精、巨魔等生物。

进一步发酵,是大模型竞技场做了个全面测试,发现随着模型版本更新,这些奇幻生物开始多到很难忽略。

现在,OpenAI 官网发公告正式回应这个问题,还在调查过程中更了解如何控制模型行为了。

以下是 OpenAI 公告全文翻译整理。

哥布林来自哪里

从 GPT-5.1 开始,我们的模型开始养成一个奇怪的习惯:越来越多地在比喻中提及哥布林、地精和其他奇幻生物。

与那些通过评估结果骤降或训练指标飙升而暴露出来的问题不同,这个错误悄然出现,并且很难定向到来自哪次更新。

答案中出现一个 " 哥布林 " 可能无伤大雅,甚至还挺可爱。

然而,随着模型版本更新,这个习惯变得越来越明显:哥布林的数量不断增长,我们需要找出它们的根源。

简而言之,模型行为受许多微小激励因素的影响。

在本例中,其中一个激励因素来自对模型进行人格定制功能 ,尤其是 " 书呆子 "(Nerd)人格的训练。

我们无意中对使用生物比喻的模型给予了特别高的奖励。由此,这些比喻开始扩散开来。

起初,这些哥布林们看起来很有趣,但员工举报的数量不断增加,令人担忧。

奇幻生物的最初迹象

我们第一次清晰地观察到这种模式是在 25 年 11 月,也就是 GPT-5.1 发布之后,尽管它可能出现得更早。

有用户抱怨 GPT-5.1 在对话中表现得异常亲昵,这促使我们对一些特定的语言习惯展开调查。

一位安全研究人员遇到了一些 "goblin"(哥布林)和 "gremlin"(小精灵)之类的词语,并要求将它们纳入检查范围。

我们的调查发现,在 GPT-5.1 发布后,ChatGPT 中 "goblin" 的使用率上升了 175%,而 "gremlin" 的使用率上升了 52%

当时情况似乎并不特别令人担忧。几个月后,哥布林以一种更加具体、更容易重现的形式再次困扰着我们。

解开哥布林之谜

GPT-5.4 之后,我们和用户都注意到提及这些生物的次数显著增加。

这促使我们进行了另一次内部分析,并首次发现了根本原因:

在选择了 " 书呆子 " 人格的用户的生产环境中,提及这些生物的语言尤为常见。

" 书呆子 " 人格使用了以下系统提示,这在一定程度上解释了这种怪异现象:

你是一位毫不掩饰自己书呆子气、风趣幽默又智慧过人的 AI 导师,指导人类。你热衷于推广真理、知识、哲学、科学方法和批判性思维。 [ … ] 你必须用轻松诙谐的语言化解故作姿态。世界复杂而奇妙,这种奇妙之处必须被承认、分析和欣赏。在探讨严肃话题时,切忌陷入自命不凡的陷阱。 [ … ]

如果这种行为仅仅是一种普遍的互联网流行更,我们预期它会更均匀地传播。

然而,事实并非如此,它集中在系统中专门针对轻松、书呆子风格进行优化的部分。

书呆子风格仅占 ChatGPT 所有回复的 2.5%,但在 ChatGPT 所有提及 "goblin" 的回复中,书呆子风格占了 66.7%。

由于 " 哥布林 " 现象在我们发布的模型中似乎愈演愈烈,我们怀疑是我们性格指导遵循训练中的某些内容加剧了这种情况。

Codex 帮助我们比较了强化学习训练过程中包含 "goblin" 或 "gremlin" 词汇的模型输出与同一任务中不包含这些词汇的输出。

一个奖励信号立刻脱颖而出:

最初旨在鼓励 " 书呆子 " 人格设计的奖励信号,更倾向于包含生物词汇的输出。

在审核的所有数据集中," 书呆子 " 人格奖励都表现出明显的倾向,即对包含 "goblin" 或 "gremlin" 词汇的同一问题的输出给予更高的评分,在 76.2% 的数据集中均观察到了这种正向提升。

这就解释了为什么在 " 书呆子 " 性格提示下这种行为会增强,但无法解释为什么即使没有这个提示,这种行为也会出现。

为了检验这种行为风格是否具有迁移性,我们追踪了在有无 " 书呆子 " 性格提示的情况下,训练过程中提及该行为的频率。

在具有书呆子人格特质的样本中," 哥布林 " 和 " 小妖精 " 这两个词的提及率有所增加,而在不具有这种特质的样本中,这两个词的提及率也以几乎相同的比例增加。

这些证据表明,这种更广泛的行为模式是通过书呆子人格训练的迁移而产生的。

奖励仅在 " 书呆子 " 条件下应用,但强化学习并不能保证习得的行为始终局限于产生它们的条件。一旦某种风格习惯获得奖励,后续训练就可能将其传播或强化到其他情况,尤其是在监督式微调或偏好数据中重复使用这些输出时。

这就形成了一个反馈循环:

俏皮的表达风格会获得正向奖励

部分被奖励的样本里,带有一种独特的用词口头禅 / 句式癖

这类语言癖好在模型生成样本(rollouts)中出现得越来越频繁

模型自主生成的样本,会被用于有监督微调(SFT)

久而久之,模型会越来越习惯、自然地输出这种固定用词癖好

对 GPT-5.5 的 SFT 数据进行搜索后发现,许多数据点包含 "goblin" 和 "gremlin"。

进一步调查揭示了一系列其他奇特生物:浣熊、巨魔、食人魔和鸽子也被识别为其他抽动词,而大多数对 "frog"(青蛙)的使用则被证实是合理的。

GPT-5.4 Thinking 中出现次数的下降是由于 3 月中旬弃用了 " 书呆子 " 人格所致。

GPT-5.5 从未发布过 " 书呆子 " 人格,但出现次数比 GPT-5.4 有所增长。

哥布林的末日

我们在 3 月份发布 GPT-5.4 后,弃用了 " 书呆子 " 人格。

在训练过程中,我们移除了与哥布林相关的奖励信号,并过滤了包含生物词汇的训练数据,从而降低了哥布林过度出现或出现在不恰当语境中的可能性。

不幸的是,GPT-5.5 的训练开始于我们找到哥布林问题的根本原因之前。当我们在 Codex 中测试 GPT-5.5 时,OpenAI 员工立即注意到它对哥布林的异常偏好,我们随即添加了一条开发者提示指令来缓解这个问题。

毕竟,Codex 本身就相当书呆子气。

如果你想让奇幻生物在 Codex 中保留,你可以运行以下命令来启动 Codex,同时移除抑制哥布林的指令:

instructions=$ ( mktemp /tmp/gpt-5.5-instructions.XXXXXX ) &&   jq -r '.models [ ] | select ( .slug=="gpt-5.5" ) | .base_instructions'   ~/.codex/models_cache.json |   grep -vi 'goblins' >   "$instructions"   &&   codex -m gpt-5.5   -c   "model_instructions_file="$instructions""  

为什么这很重要

对于模型中的哥布林,有人觉得它们可爱,有人觉得它们烦人。

但它们也强有力地证明了奖励信号如何以意想不到的方式塑造模型行为,以及模型如何学习将特定情境下的奖励泛化到不相关的情境中。

花时间理解模型行为异常的原因,并构建快速调查这些模式的方法,是我们研究团队的一项重要能力。

这项研究最终为研究团队开发了新的工具,用于审核模型行为,并从根本上解决行为问题。

参考链接:

[ 1 ] https://openai.com/index/where-the-goblins-came-from/

[ 2 ] https://x.com/arena/status/2049270072934617090?s=20

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

量子位智库「2026 中国 AI 应用全景图谱」与「值得关注落地案例」评选启动征集!

扫码申报,让你的产品定义 2026 中国 AI 应用行业格局。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

布林 生物 翻译
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论