MIT研究人员揭示LLM强叠加机制:宽度翻倍错误约减半

robot
摘要生成中

AIMPACT 消息,5 月 3 日(UTC+8),MIT研究人员揭示大型语言模型性能随规模可靠扩展的机制,首次为"叠加"现象提供实验验证。研究发现LLM通过在同一维度存储多个概念来绕过维度限制,这种"强叠加"使模型能同时表示所有概念,错误来源于重叠产生的噪声。团队使用Anthropic简化模型及OPT、GPT-2、Qwen2.5、Pythia等开源模型验证:模型宽度翻倍,错误约减半,缩放指数达0.91,接近理论值1。研究回答两个关键问题:缩放将止于模型宽度匹配词汇表大小;对自然语言任务,词频分布平坦限制加速空间,但鼓励叠加的架构设计可在相同规模下实现更优性能。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论