OpenAI 最终解释了为什么 ChatGPT 一直在谈论地精

简要概述

  • OpenAI 的“书呆子”个性通过强化学习奖励了地精隐喻,并将这种怪癖传播到所有 GPT 模型中。
  • 在 GPT-5.4 的“书呆子”模式下,关于地精的提及量相较 GPT-5.2 激增了 3,881%,这促使 OpenAI 进行内部调查,并紧急修补系统提示。
  • 这种修复——在开发者提示中写“永远不要谈论地精”——说明为什么系统提示修补速度更快但风险也更高,而不是通过重新训练。

如果你最近让 ChatGPT 帮你写代码,它把你的 bug 叫做“顽皮的小恶魔”,那你并没有想象错。这个模型对奇幻生物产生了真正的执念——地精、恶魔、哥布林、巨魔、食人魔,当然还有鸽子——而 OpenAI 还发布了一篇完整的事后分析,讲述事情是如何发生的。 简短版本:用于让 ChatGPT 变得更俏皮的奖励信号失控了,地精就这样繁殖起来了。 地精故事之所以才变成公众新闻,是因为 Reddit 用户在 GitHub 上发现了一份泄露的 Codex 系统提示,其中有一行“永远不要提及地精”。

在 OpenAI 发布自己的解释之前,这篇文章就已经疯传开来。 “书呆子”个性如何引发地精泛滥 根据 OpenAI 的说法,这条链路始于去年11月上线的 GPT-5.1。那时,OpenAI 引入了个性定制,让用户可以选择诸如 Friendly、Professional、Efficient 和 Nerdy 这样的风格。“书呆子”这个人格附带的系统提示告诉模型要表现得既“书呆子”又俏皮,要求“通过俏皮的语言用法来削弱矫饰”,并让模型承认“世界复杂又怪异”。 结果表明,这个提示简直就是一块“地精磁铁”。

在强化学习训练期间,“书呆子”个性的奖励信号会在遇到包含生物词的隐喻时持续地给出更高分。被审计的 76.2% 的数据集中,出现“goblin”或“gremlin”的回复,其评分比完全不出现这些词的同类回复更高。模型学会了:俏皮幻想等于奖励。 GPT-5.4 中地精提及量爆炸式增长,“书呆子”个性相较 GPT-5.2 增加了 3,881%。

问题在于:强化学习不会把学到的行为整齐地约束在某个封闭区域。一旦某种风格上的“小习惯”在一个语境里被奖励,它就会通过反馈循环渗透到其他语境中:模型生成带有生物词汇的输出,这些输出又会被拿去用于微调数据,进而让这种行为在整个模型中不断加深——即便此时“书呆子”提示并未启用。 “书呆子”在所有 ChatGPT 回复中的占比仅为 2.5%。但它却贡献了所有“goblin”提及中的 66.7%。正因为 OpenAI 的方法,在“书呆子”个性处于激活状态的训练过程中,地精和 gremlin 的出现频率会随着训练进度稳步攀升。

即使不启用“书呆子”个性,生物相关的提及仍在缓慢上升——这正是通过监督微调数据发生“交叉污染”的证据。 GPT-5.5 已经“越界”了 等到 OpenAI 找到根源时,GPT-5.5 已经深陷在训练之中,它已经吸收了一整套生物词汇家族。一次数据审计不仅发现问题出在地精和恶魔身上,还把浣熊、巨魔、食人魔以及鸽子都列为了公司所说的“tic words(口头禅词)”。(对好奇的人来说,“Frogs(青蛙)”则大多是名副其实的。)

第一次可被量化的激增:在 GPT-5.1 上线之后,地精提及上升了 175%,恶魔提及上升了 52%。 甚至连 OpenAI 首席科学家 Jakub Pachocki 在用 ASCII 艺术绘制独角兽时,也照样“撞上地精”。

OpenAI 在 3 月份停止了“书呆子”个性的使用,并且从未来的训练中清除了那些与生物词倾向相关的奖励信号。但 GPT-5.5 已经开始了训练轮次。公司对 Codex(其代码代理)的解决方案,就是直接在开发者系统提示里加上一行:除非它与用户查询“绝对且毫无歧义地相关”,否则“不要谈论地精、gremlins、raccoons、trolls、ogres、pigeons 或其他动物或生物”。 在 OpenAI 的某个人把这条规则提交到生产代码之后,就这么过去了,继续忙自己的一天。 系统提示修补的问题 但 OpenAI 为什么会选择这条路? 把规模达到 GPT-5.5 的模型重新训练一遍,以移除某种行为怪癖,代价高且耗时长。系统提示的调整只需要几分钟。之所以行业里的公司最先去做提示修补,是因为当用户抱怨激增时,这是一种低成本、可快速部署的选择。 但提示修补也带来自身风险。它们并不能修复根本行为,只是把它压制下去。而压制可能引发副作用。

 OpenAI 的“地精”事件算是这种动态里相对温和的例子。去年,这种情况最吓人的版本发生在 Grok 身上。xAI 推送了一次系统提示更新,要求 Grok 将媒体视为存在偏见,并且“不要回避政治不正确的说法”。结果,这个聊天机器人花了 16 小时给自己取名“MechaHitler(机械希特勒)”,并在 X 上发布反犹太内容。修复方案又是换了一次提示,但过度纠偏得太狠,以至于 Grok 开始在小狗照片、云朵以及它自己的标志中标记反犹主义。绝望的提示工程引发了更绝望的提示工程。 地精修补并没有造成这么戏剧性的后果。但 OpenAI 承认:GPT-5.5 仍旧以同样的根本怪癖启动,只是在 Codex 中被抑制。公司甚至发布了一条命令,用于在用户想把这些生物“找回来的”情况下移除那些抑制地精的指令。

为什么公司会隐藏自己的系统提示 在 AI 行业里,隐藏或遮蔽完整系统提示是很常见的做法。公司把系统提示当作商业秘密,原因有几个:保护知识产权、获取竞争优势以及确保安全。如果一个“越狱者”知道模型正在遵循的精确规则,那么绕过它们就会变得轻而易举。 公司不公开的第四个原因是:图像管理。“永远不要提及地精”这句话并不能让人对底层技术产生信心。要把它公开出来,通常需要幽默感,或强大的研究文化——或者两者兼有。 OpenAI 表示,调查产出了新的内部工具:用于审计模型行为,并把那些行为怪癖追溯回它们的训练根源。此后,GPT-5.5 的训练数据已经清除了与生物词倾向相关的示例。下一代模型应该会在不带地精的情况下到来——当然,除非下一次还有什么东西因为人们尚不理解的原因再次被奖励。

GROK1.91%
XAI1.5%
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论