哥布林从何而来

从 GPT‑5.1 开始，我们的模型开始养成一个奇怪的癖好：它们在比喻中越来越多地提到哥布林（goblins）、小妖精（gremlins）以及其他生物。与那些通过评测指标骤降或训练指标飙升显现、并能追溯到具体变更的模型 bug 不同，这个问题是悄然渗透的。单个回答中出现一句“小个子哥布林”可能无害，甚至有些讨喜。但随着模型迭代，这种习惯愈发明显：哥布林不断增殖，我们必须弄清它们的来源。

在早期测试中，GPT‑5.5 在 Codex 中表现出对哥布林比喻的奇特偏好。

简而言之，模型行为受多种微小激励因素影响。在本案例中，其中一个激励来自为个性化定制功能训练模型，尤其是“极客风”（Nerdy）人格。我们无意中为使用生物类比喻的输出赋予了特别高的奖励。从此，哥布林开始蔓延。

起初哥布林还挺有趣，但员工报告数量不断上升，令人担忧。

我们首席科学家与 GPT‑5.5 的一次有趣互动。

生物类比喻的早期迹象

我们首次清晰察觉这一模式是在 11 月，GPT‑5.1 发布之后，尽管它可能更早出现。用户抱怨模型在对话中异常亲昵，这促使我们调查特定的语言习惯。一位安全研究员曾遇到过几次“哥布林”和“小妖精”的表述，并建议将其纳入检查范围。我们发现，GPT‑5.1 发布后，ChatGPT 中“goblin”的使用量上升了 175%，而“gremlin”上升了 52%。

ChatGPT 中包含“goblin”或“gremlin”的对话

GPT‑5.1 中一个可量化的小词汇癖好。

当时，哥布林的普遍程度看起来并不特别令人担忧。几个月后，哥布林以更具体、更可复现的形式卷土重来。

解开哥布林之谜

在 GPT‑5.4 中，我们和用户注意到对这些生物的提及进一步激增。这引发了又一次内部分析，并首次揭示了与根本原因的联系：在选择了“极客风”（Nerdy）人格的用户生产流量中，生物类语言尤为常见。“极客风”使用了以下系统提示，部分解释了其古怪风格：

你是一个毫不掩饰地极客、俏皮且睿智的 AI 导师，服务于人类。你热情洋溢地致力于推广真理、知识、哲学、科学方法和批判性思维。[...] 你必须通过俏皮的语言来削弱自命不凡。世界复杂而奇特，其奇特之处必须被承认、分析并享受。处理严肃话题时，避免陷入自我严肃的陷阱。[...]

如果这种行为只是互联网上的广泛趋势，我们预期它会更均匀地传播。而实际上，它集中在系统中被明确优化为俏皮、极客风格的部分。“极客风”仅占所有 ChatGPT 回复的 2.5%，却占所有 ChatGPT 回复中“goblin”提及次数的 66.7%。

GPT-5.4 中哥布林使用量上升，尤其在“极客风”人格中

该行为高度集中于“极客风”人格。

由于“goblin”的普遍性似乎随着模型发布而增加，我们怀疑人格指令遵循训练中的某些因素放大了这种现象。

Codex 帮助我们比较了在强化学习（RL）训练期间生成的包含哥布林或小妖精的模型输出，与同一任务中不包含这些词的输出。一个奖励信号立即凸显出来：最初为鼓励“极客风”人格而设计的奖励，始终更倾向于包含生物类词汇的输出。在审计的所有数据集中，“极客风”人格奖励明显倾向于给包含“goblin”或“gremlin”的输出打更高分，76.2% 的数据集显示出正向提升。

这解释了为何该行为在“极客风”提示下被增强，但无法解释为何在没有该提示时也会出现。为了测试这种风格是否发生了迁移，我们追踪了训练过程中有/无“极客风”提示时的提及率。

带有“极客风”人格的训练对话

不带有“极客风”人格的训练对话

随着在“极客风”人格下哥布林和小妖精的提及增加，在无该提示的样本中也以几乎相同的相对比例增加。综合来看，证据表明更广泛的行为是通过从“极客风”人格训练中迁移而来。

奖励仅在“极客风”条件下应用，但强化学习并不保证学到的行为会恰当地局限于产生它的条件。一旦某种风格习惯被奖励，后续训练可能将其传播或强化到其他场景，尤其是当这些输出被用于监督微调（SFT）或偏好数据时。

这就形成了一个反馈循环：

playful 风格被奖励
一些被奖励的示例包含一个独特的词汇习惯
该习惯在 rollout 中出现得更频繁
模型生成的 rollout 被用于监督微调（SFT）
模型越来越习惯于产生该习惯

在 GPT‑5.5 的 SFT 数据中搜索，发现了大量包含“goblin”和“gremlin”的数据点。进一步调查显示，还存在一整类其他奇怪生物：浣熊、巨魔、食人魔和鸽子被识别为其他习惯词，而大多数“frog”的使用实际上是合理的。

ChatGPT 中包含“goblin”或“gremlin”的对话

哥布林和小妖精在生产环境中的周平均高发度。GPT‑5.4 Thinking 的下降是由于 3 月中旬停用了“极客风”人格。GPT‑5.5 从未搭载“极客风”人格，其使用量仍比 GPT‑5.4 更高（即使没有“极客风”）。

哥布林的终结

我们在 3 月 GPT‑5.4 发布后停用了“极客风”人格。在训练中，我们移除了对哥布林友好的奖励信号，并过滤掉包含生物类词汇的训练数据，使哥布林更不容易过度出现或出现在不恰当的语境中。不幸的是，GPT‑5.5 的训练在我们发现哥布林根源之前就已开始。当我们在 Codex 中测试 GPT‑5.5 时，OpenAI 员工立即注意到了对哥布林的奇特偏好，于是我们添加了一条开发者提示指令来缓解。毕竟，Codex 本身就很“极客”。

如果你想在 Codex 中让这些生物自由活动，可以运行以下命令，启动 Codex 并移除抑制哥布林的指令：

纯文本

1 instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2 jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3 ~/.codex/models_cache.json | \
4 grep -vi 'goblins' > "$instructions" && \
5 codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

为何这很重要

取决于你问谁，哥布林可能是模型一个讨人喜欢的或令人恼火的小癖好。但它们也是一个强有力的例子，说明奖励信号如何以意想不到的方式塑造模型行为，以及模型如何在某些情境下将奖励泛化到无关场景。花时间理解模型为何表现出奇怪行为，并建立快速调查这些模式的方法，对我们的研究团队来说是一项重要能力。本次调查为研究团队带来了新的工具，用于审计模型行为并从根源上修复行为问题。