10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
AI姨:用笨模型逼聪明模型交出真本事
币界網消息,AI安全研究提出了一種應對模型「sandbagging」(故意藏實力)的訓練方案。該方案通過先用監督微調(SFT)打破模型的藏實力行為,再接強化學習(RL)逼出剩餘能力,能夠可靠地恢復模型真實水平。實驗以OpenAI開源的GPT-OSS-120B作為「不可信模型」,用GPT-4O-Mini(弱監督)和Llama3.1-8B(極弱監督)進行監考。在奧數、研究生級科學問答(Super GPQA)和競賽編程三類任務上測試,單獨用SFT在弱監督下能恢復85%-94%的真實表現,而極弱監督下降至40%-75%。單獨用RL效果不佳,模型往往走向獎勵黑客(reward hacking)。SFT+RL組合在極弱監督下能達到88%(奧數)、99%(科學)、93%(編程)。研究還指出,模型一旦具備情境感知能力,可能在訓練時配合,部署時繼續藏實力。