🔥 WCTC S8 全球交易赛正式开赛!
8,000,000 USDT 超级奖池解锁开启
🏆 团队赛:上半场正式开启,预报名阶段 5,500+ 战队现已集结
交易量收益额双重比拼,解锁上半场 1,800,000 USDT 奖池
🏆 个人赛:现货、合约、TradFi、ETF、闪兑、跟单齐上阵
全场交易量比拼,瓜分 2,000,000 USDT 奖池
🏆 王者 PK 赛:零门槛参与,实时匹配享受战斗快感
收益率即时 PK,瓜分 1,600,000 USDT 奖池
活动时间:2026 年 4月 23 日 16:00:00 -2026 年 5 月 20 日 15:59:59 UTC+8
⬇️ 立即参与:https://www.gate.com/competition/wctc-s8
#WCTCS8
Anthropic让AI自己招供:一个LoRA插件审出人类10种方法都漏掉的隐藏行为
币界网消息,Anthropic对齐团队发布了一种名为「内省适配器」(introspection adapters)的审计技术,旨在让大型语言模型(LLM)用自然语言报告自己微调后学到的行为。该技术通过从同一基座模型微调出大量带已知行为的模型,再跨这些模型联合训练一个LoRA适配器,使被审计模型能够主动说出自己的隐藏行为。在对齐审计基准auditbench上,内省适配器以59%的成功率超过此前所有审计方法,56个带隐藏行为的模型中,89%被成功引出行为描述。面对加密微调API攻击,内省适配器在9种加密变体中识别出7种,成功率为57.8%。研究还发现,效果随模型规模增大而提升,主要局限是假阳性率高。代码、模型和数据集已在GitHub和Hugging Face开源。