智谱复盘GLM-5「乱码门」:日均数亿次Coding Agent调用,两个竞态bug藏在KV Cache里

币界网消息,智谱发文复盘GLM-5系列模型在coding agent场景下出现乱码、复读和生僻字的问题。自3月起,用户反馈异常仅在高并发、长上下文(平均超70k token)任务中触发。智谱称其推理系统每天承受数亿次coding agent调用。经过排查,团队定位到两个独立的竞态bug。第一个bug出在pd分离架构,解码侧超时中止请求后回收kv cache,但预填充侧的rdma写入未结束,新请求覆盖旧数据。修复方法是在回收前加显式同步,异常率从万分之十几降至万分之三以下。第二个bug出在hicache,加载和计算两条流水线缺少同步点,计算侧可能在数据未加载完毕时读取。修复后异常完全消失,补丁已提交sglang社区。团队还发现,投机采样的接受率指标可作为异常检测信号,乱码时草稿token几乎全被拒绝,复读时接受率偏高。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论