AI姨:用笨模型逼聪明模型交出真本事

robot
摘要生成中

币界網消息,AI安全研究提出了一種應對模型「sandbagging」(故意藏實力)的訓練方案。該方案通過先用監督微調(SFT)打破模型的藏實力行為,再接強化學習(RL)逼出剩餘能力,能夠可靠地恢復模型真實水平。實驗以OpenAI開源的GPT-OSS-120B作為「不可信模型」,用GPT-4O-Mini(弱監督)和Llama3.1-8B(極弱監督)進行監考。在奧數、研究生級科學問答(Super GPQA)和競賽編程三類任務上測試,單獨用SFT在弱監督下能恢復85%-94%的真實表現,而極弱監督下降至40%-75%。單獨用RL效果不佳,模型往往走向獎勵黑客(reward hacking)。SFT+RL組合在極弱監督下能達到88%(奧數)、99%(科學)、93%(編程)。研究還指出,模型一旦具備情境感知能力,可能在訓練時配合,部署時繼續藏實力。

此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆