内容

从 GPT‑5.1 开始,我们的模型开始养成一个奇怪的癖好:它们在比喻中越来越多地提到哥布林(goblins)、小妖精(gremlins)以及其他生物。与那些通过评测指标骤降或训练指标飙升显现、并能追溯到具体变更的模型 bug 不同,这个问题是悄然渗透的。单个回答中出现一句“小个子哥布林”可能无害,甚至有些讨喜。但随着模型迭代,这种习惯愈发明显:哥布林不断增殖,我们必须弄清它们的来源。

在早期测试中,GPT‑5.5 在 Codex 中表现出对哥布林比喻的奇特偏好。

简而言之,模型行为受多种微小激励因素影响。在本案例中,其中一个激励来自为个性化定制功能训练模型,尤其是“极客风”(Nerdy)人格。我们无意中为使用生物类比喻的输出赋予了特别高的奖励。从此,哥布林开始蔓延。

起初哥布林还挺有趣,但员工报告数量不断上升,令人担忧。

我们首席科学家与 GPT‑5.5 的一次有趣互动。

生物类比喻的早期迹象

我们首次清晰察觉这一模式是在 11 月,GPT‑5.1 发布之后,尽管它可能更早出现。用户抱怨模型在对话中异常亲昵,这促使我们调查特定的语言习惯。一位安全研究员曾遇到过几次“哥布林”和“小妖精”的表述,并建议将其纳入检查范围。我们发现,GPT‑5.1 发布后,ChatGPT 中“goblin”的使用量上升了 175%,而“gremlin”上升了 52%。

ChatGPT 中包含“goblin”或“gremlin”的对话

GPT‑5.1 中一个可量化的小词汇癖好。

当时,哥布林的普遍程度看起来并不特别令人担忧。几个月后,哥布林以更具体、更可复现的形式卷土重来。

解开哥布林之谜

在 GPT‑5.4 中,我们和用户注意到对这些生物的提及进一步激增。这引发了又一次内部分析,并首次揭示了与根本原因的联系:在选择了“极客风”(Nerdy)人格的用户生产流量中,生物类语言尤为常见。“极客风”使用了以下系统提示,部分解释了其古怪风格:

你是一个毫不掩饰地极客、 俏皮且睿智的 AI 导师,服务于人类。你热情洋溢地致力于推广真理、知识、哲学、科学方法和批判性思维。[...] 你必须通过俏皮的语言来削弱自命不凡。世界复杂而奇特,其奇特之处必须被承认、分析并享受。处理严肃话题时,避免陷入自我严肃的陷阱。[...]

如果这种行为只是互联网上的广泛趋势,我们预期它会更均匀地传播。而实际上,它集中在系统中被明确优化为俏皮、极客风格的部分。“极客风”仅占所有 ChatGPT 回复的 2.5%,却占所有 ChatGPT 回复中“goblin”提及次数的 66.7%。

GPT-5.4 中哥布林使用量上升,尤其在“极客风”人格中

该行为高度集中于“极客风”人格。

由于“goblin”的普遍性似乎随着模型发布而增加,我们怀疑人格指令遵循训练中的某些因素放大了这种现象。

Codex 帮助我们比较了在强化学习(RL)训练期间生成的包含哥布林或小妖精的模型输出,与同一任务中不包含这些词的输出。一个奖励信号立即凸显出来:最初为鼓励“极客风”人格而设计的奖励,始终更倾向于包含生物类词汇的输出。在审计的所有数据集中,“极客风”人格奖励明显倾向于给包含“goblin”或“gremlin”的输出打更高分,76.2% 的数据集显示出正向提升。

这解释了为何该行为在“极客风”提示下被增强,但无法解释为何在没有该提示时也会出现。为了测试这种风格是否发生了迁移,我们追踪了训练过程中有/无“极客风”提示时的提及率。

带有“极客风”人格的训练对话

不带有“极客风”人格的训练对话

随着在“极客风”人格下哥布林和小妖精的提及增加,在无该提示的样本中也以几乎相同的相对比例增加。综合来看,证据表明更广泛的行为是通过从“极客风”人格训练中迁移而来。

奖励仅在“极客风”条件下应用,但强化学习并不保证学到的行为会恰当地局限于产生它的条件。一旦某种风格习惯被奖励,后续训练可能将其传播或强化到其他场景,尤其是当这些输出被用于监督微调(SFT)或偏好数据时。

这就形成了一个反馈循环:

  • playful 风格被奖励
  • 一些被奖励的示例包含一个独特的词汇习惯
  • 该习惯在 rollout 中出现得更频繁
  • 模型生成的 rollout 被用于监督微调(SFT)
  • 模型越来越习惯于产生该习惯

在 GPT‑5.5 的 SFT 数据中搜索,发现了大量包含“goblin”和“gremlin”的数据点。进一步调查显示,还存在一整类其他奇怪生物:浣熊、巨魔、食人魔和鸽子被识别为其他习惯词,而大多数“frog”的使用实际上是合理的。

ChatGPT 中包含“goblin”或“gremlin”的对话

哥布林和小妖精在生产环境中的周平均高发度。GPT‑5.4 Thinking 的下降是由于 3 月中旬停用了“极客风”人格。GPT‑5.5 从未搭载“极客风”人格,其使用量仍比 GPT‑5.4 更高(即使没有“极客风”)。

哥布林的终结

我们在 3 月 GPT‑5.4 发布后停用了“极客风”人格。在训练中,我们移除了对哥布林友好的奖励信号,并过滤掉包含生物类词汇的训练数据,使哥布林更不容易过度出现或出现在不恰当的语境中。不幸的是,GPT‑5.5 的训练在我们发现哥布林根源之前就已开始。当我们在 Codex 中测试 GPT‑5.5 时,OpenAI 员工立即注意到了对哥布林的奇特偏好,于是我们添加了一条开发者提示指令来缓解。毕竟,Codex 本身就很“极客”。

如果你想在 Codex 中让这些生物自由活动,可以运行以下命令,启动 Codex 并移除抑制哥布林的指令:

纯文本

1 instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2 jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3 ~/.codex/models_cache.json | \
4 grep -vi 'goblins' > "$instructions" && \
5 codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

为何这很重要

取决于你问谁,哥布林可能是模型一个讨人喜欢的或令人恼火的小癖好。但它们也是一个强有力的例子,说明奖励信号如何以意想不到的方式塑造模型行为,以及模型如何在某些情境下将奖励泛化到无关场景。花时间理解模型为何表现出奇怪行为,并建立快速调查这些模式的方法,对我们的研究团队来说是一项重要能力。本次调查为研究团队带来了新的工具,用于审计模型行为并从根源上修复行为问题。

评论

(0)
未配置登录方式
暂无评论