Ulasan Zhipu tentang GLM-5「Masalah Karakter Acak」: Ratusan juta panggilan Coding Agent setiap hari, dua bug kompetisi tersembunyi di dalam KV Cache

Menurut pemantauan Beating, Zhipu merilis laporan tentang masalah karakter acak, pengulangan, dan karakter langka yang muncul pada model GLM-5 seri dalam skenario Agen Pengkodean. Sejak Maret, beberapa pengguna melaporkan bahwa gangguan ini hanya terjadi pada tugas Agen Pengkodean dengan lalu lintas tinggi dan konteks panjang (rata-rata lebih dari 70K token), dan tidak dapat direproduksi dalam lingkungan inferensi standar. Zhipu menyatakan bahwa sistem inferensinya menangani ratusan juta panggilan Agen Pengkodean setiap hari.

Setelah beberapa minggu penyelidikan, tim mengidentifikasi dua bug kondisi balapan tingkat dasar yang independen. Yang pertama terjadi pada arsitektur PD terpisah (metode penyebaran yang memisahkan pra-pengisian dan dekoding ke node yang berbeda): saat permintaan dihentikan karena timeout di sisi dekoding, KV Cache (cache status perhatian yang telah dihitung, untuk menghindari perhitungan ulang) telah dikembalikan, tetapi penulisan RDMA di sisi pra-pengisian belum selesai, sehingga permintaan baru dialokasikan ke bagian memori yang sama, dan data lama menimpa data baru. Solusi perbaikannya adalah menambahkan sinkronisasi eksplisit sebelum pengembalian, memastikan penulisan selesai sebelum dilepaskan. Setelah peluncuran, tingkat gangguan turun dari lebih dari sepuluh basis poin menjadi di bawah tiga basis poin.

Bug kedua terjadi pada HiCache (Cache KV multi tingkat): saat memuat ke cache secara asinkron dari memori CPU, tidak ada titik sinkronisasi antara jalur pemuatan dan perhitungan, sehingga sisi perhitungan mungkin mulai membaca sebelum data selesai dimuat. Setelah perbaikan, gangguan semacam ini hilang sepenuhnya, dan patch telah dikirim ke komunitas SGLang (PR #22811).

Selama penyelidikan, ada penemuan tak terduga: indikator tingkat keberhasilan sampling spekulatif (teknik percepatan yang menggunakan model kecil untuk menebak token terlebih dahulu, lalu diverifikasi oleh model besar) dapat digunakan sebagai sinyal deteksi gangguan. Saat terjadi karakter acak, token draf hampir seluruhnya ditolak, dan saat pengulangan, tingkat keberhasilan secara tidak normal tinggi. Tim kemudian mengimplementasikan pemantauan online: jika ambang batas tercapai, proses dihentikan otomatis dan diulang kembali.

Setelah memperbaiki bug, tim juga melakukan optimasi terhadap bottleneck: penyimpanan KV Cache berlapis LayerSplit, di mana setiap GPU hanya menyimpan sebagian lapisan KV Cache, bukan seluruhnya, dan melakukan komputasi secara kolaboratif melalui broadcast. Dengan tingkat keberhasilan cache sebesar 90%, panjang permintaan dari 40K hingga 120K token, throughput meningkat antara 10% hingga 132%, dan semakin panjang konteks, manfaatnya semakin besar.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan