如果你最近让 ChatGPT 帮你写代码，它把你的 bug 叫做“顽皮的小恶魔”，那你并没有想象错。这个模型对奇幻生物产生了真正的执念——地精、恶魔、哥布林、巨魔、食人魔，当然还有鸽子——而 OpenAI 还发布了一篇完整的事后分析，讲述事情是如何发生的。简短版本：用于让 ChatGPT 变得更俏皮的奖励信号失控了，地精就这样繁殖起来了。地精故事之所以才变成公众新闻，是因为 Reddit 用户在 GitHub 上发现了一份泄露的 Codex 系统提示，其中有一行“永远不要提及地精”。

在 OpenAI 发布自己的解释之前，这篇文章就已经疯传开来。 “书呆子”个性如何引发地精泛滥根据 OpenAI 的说法，这条链路始于去年11月上线的 GPT-5.1。那时，OpenAI 引入了个性定制，让用户可以选择诸如 Friendly、Professional、Efficient 和 Nerdy 这样的风格。“书呆子”这个人格附带的系统提示告诉模型要表现得既“书呆子”又俏皮，要求“通过俏皮的语言用法来削弱矫饰”，并让模型承认“世界复杂又怪异”。结果表明，这个提示简直就是一块“地精磁铁”。

在强化学习训练期间，“书呆子”个性的奖励信号会在遇到包含生物词的隐喻时持续地给出更高分。被审计的 76.2% 的数据集中，出现“goblin”或“gremlin”的回复，其评分比完全不出现这些词的同类回复更高。模型学会了：俏皮幻想等于奖励。 GPT-5.4 中地精提及量爆炸式增长，“书呆子”个性相较 GPT-5.2 增加了 3,881%。

问题在于：强化学习不会把学到的行为整齐地约束在某个封闭区域。一旦某种风格上的“小习惯”在一个语境里被奖励，它就会通过反馈循环渗透到其他语境中：模型生成带有生物词汇的输出，这些输出又会被拿去用于微调数据，进而让这种行为在整个模型中不断加深——即便此时“书呆子”提示并未启用。 “书呆子”在所有 ChatGPT 回复中的占比仅为 2.5%。但它却贡献了所有“goblin”提及中的 66.7%。正因为 OpenAI 的方法，在“书呆子”个性处于激活状态的训练过程中，地精和 gremlin 的出现频率会随着训练进度稳步攀升。

即使不启用“书呆子”个性，生物相关的提及仍在缓慢上升——这正是通过监督微调数据发生“交叉污染”的证据。 GPT-5.5 已经“越界”了等到 OpenAI 找到根源时，GPT-5.5 已经深陷在训练之中，它已经吸收了一整套生物词汇家族。一次数据审计不仅发现问题出在地精和恶魔身上，还把浣熊、巨魔、食人魔以及鸽子都列为了公司所说的“tic words（口头禅词）”。（对好奇的人来说，“Frogs（青蛙）”则大多是名副其实的。）

第一次可被量化的激增：在 GPT-5.1 上线之后，地精提及上升了 175%，恶魔提及上升了 52%。甚至连 OpenAI 首席科学家 Jakub Pachocki 在用 ASCII 艺术绘制独角兽时，也照样“撞上地精”。

OpenAI 在 3 月份停止了“书呆子”个性的使用，并且从未来的训练中清除了那些与生物词倾向相关的奖励信号。但 GPT-5.5 已经开始了训练轮次。公司对 Codex（其代码代理）的解决方案，就是直接在开发者系统提示里加上一行：除非它与用户查询“绝对且毫无歧义地相关”，否则“不要谈论地精、gremlins、raccoons、trolls、ogres、pigeons 或其他动物或生物”。在 OpenAI 的某个人把这条规则提交到生产代码之后，就这么过去了，继续忙自己的一天。系统提示修补的问题但 OpenAI 为什么会选择这条路？把规模达到 GPT-5.5 的模型重新训练一遍，以移除某种行为怪癖，代价高且耗时长。系统提示的调整只需要几分钟。之所以行业里的公司最先去做提示修补，是因为当用户抱怨激增时，这是一种低成本、可快速部署的选择。但提示修补也带来自身风险。它们并不能修复根本行为，只是把它压制下去。而压制可能引发副作用。

OpenAI 的“地精”事件算是这种动态里相对温和的例子。去年，这种情况最吓人的版本发生在 Grok 身上。xAI 推送了一次系统提示更新，要求 Grok 将媒体视为存在偏见，并且“不要回避政治不正确的说法”。结果，这个聊天机器人花了 16 小时给自己取名“MechaHitler（机械希特勒）”，并在 X 上发布反犹太内容。修复方案又是换了一次提示，但过度纠偏得太狠，以至于 Grok 开始在小狗照片、云朵以及它自己的标志中标记反犹主义。绝望的提示工程引发了更绝望的提示工程。地精修补并没有造成这么戏剧性的后果。但 OpenAI 承认：GPT-5.5 仍旧以同样的根本怪癖启动，只是在 Codex 中被抑制。公司甚至发布了一条命令，用于在用户想把这些生物“找回来的”情况下移除那些抑制地精的指令。

为什么公司会隐藏自己的系统提示在 AI 行业里，隐藏或遮蔽完整系统提示是很常见的做法。公司把系统提示当作商业秘密，原因有几个：保护知识产权、获取竞争优势以及确保安全。如果一个“越狱者”知道模型正在遵循的精确规则，那么绕过它们就会变得轻而易举。公司不公开的第四个原因是：图像管理。“永远不要提及地精”这句话并不能让人对底层技术产生信心。要把它公开出来，通常需要幽默感，或强大的研究文化——或者两者兼有。 OpenAI 表示，调查产出了新的内部工具：用于审计模型行为，并把那些行为怪癖追溯回它们的训练根源。此后，GPT-5.5 的训练数据已经清除了与生物词倾向相关的示例。下一代模型应该会在不带地精的情况下到来——当然，除非下一次还有什么东西因为人们尚不理解的原因再次被奖励。

GROK1.91%

XAI1.5%

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

OpenAI 最终解释了为什么 ChatGPT 一直在谈论地精

简要概述

热门话题

WCTC交易王PK

美国寻求战略比特币储备

比特币ETF期权持仓限额增4倍

美联储利率不变但内部分歧加剧

DeFi4月安全事件损失超6亿美元

置顶