xAI坐拥50万张GPU但利用率仅11%

robot
摘要生成中

币界网消息,马斯克旗下的xAI拥有约50万张英伟达GPU,公开数据中属于AI开发商里最大的集群之一。但内部备忘录显示,xAI近几周的MFU(model flops utilization,衡量芯片实际算力产出占理论峰值的比例)仅约11%。一名竞争对手实验室的研究员称,大多数公司要突破40%都很难,但11%「低得离谱」。利用率低是行业通病,AI训练是间歇式的:GPU在训练时满负荷运转,研究员分析结果、决定下一步时芯片就闲着了。硬件层面也有瓶颈:高带宽内存(HBM)速度跟不上计算芯片,成千上万张GPU之间传输数据时网络任何薄弱环节都会拖慢整个集群。行业内还有「刷数据」现象,一家大型实验室的研究员透露,同事会反复重跑训练实验来抬高利用率数字,一方面避免被上级批评,另一方面防止闲置的GPU被调给其他团队。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论