Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
TradFi
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
Pre-IPOs
Buka akses penuh ke IPO saham global
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
Promosi
AI
Gate AI
Partner AI serbaguna untuk Anda
Gate AI Bot
Gunakan Gate AI langsung di aplikasi sosial Anda
GateClaw
Gate Blue Lobster, langsung pakai
Gate for AI Agent
Infrastruktur AI, Gate MCP, Skills, dan CLI
Gate Skills Hub
10RB+ Skills
Dari kantor hingga trading, satu platform keterampilan membuat AI jadi lebih mudah digunakan
GateRouter
Pilih secara cerdas dari 40+ model AI, dengan 0% biaya tambahan
Ulasan Zhipu tentang GLM-5「Masalah Karakter Acak」: Ratusan juta panggilan Coding Agent setiap hari, dua bug kompetisi tersembunyi di dalam KV Cache
Menurut pemantauan Beating, Zhipu merilis laporan tentang masalah karakter acak, pengulangan, dan karakter langka yang muncul pada model GLM-5 seri dalam skenario Agen Pengkodean. Sejak Maret, beberapa pengguna melaporkan bahwa gangguan ini hanya terjadi pada tugas Agen Pengkodean dengan lalu lintas tinggi dan konteks panjang (rata-rata lebih dari 70K token), dan tidak dapat direproduksi dalam lingkungan inferensi standar. Zhipu menyatakan bahwa sistem inferensinya menangani ratusan juta panggilan Agen Pengkodean setiap hari.
Setelah beberapa minggu penyelidikan, tim mengidentifikasi dua bug kondisi balapan tingkat dasar yang independen. Yang pertama terjadi pada arsitektur PD terpisah (metode penyebaran yang memisahkan pra-pengisian dan dekoding ke node yang berbeda): saat permintaan dihentikan karena timeout di sisi dekoding, KV Cache (cache status perhatian yang telah dihitung, untuk menghindari perhitungan ulang) telah dikembalikan, tetapi penulisan RDMA di sisi pra-pengisian belum selesai, sehingga permintaan baru dialokasikan ke bagian memori yang sama, dan data lama menimpa data baru. Solusi perbaikannya adalah menambahkan sinkronisasi eksplisit sebelum pengembalian, memastikan penulisan selesai sebelum dilepaskan. Setelah peluncuran, tingkat gangguan turun dari lebih dari sepuluh basis poin menjadi di bawah tiga basis poin.
Bug kedua terjadi pada HiCache (Cache KV multi tingkat): saat memuat ke cache secara asinkron dari memori CPU, tidak ada titik sinkronisasi antara jalur pemuatan dan perhitungan, sehingga sisi perhitungan mungkin mulai membaca sebelum data selesai dimuat. Setelah perbaikan, gangguan semacam ini hilang sepenuhnya, dan patch telah dikirim ke komunitas SGLang (PR #22811).
Selama penyelidikan, ada penemuan tak terduga: indikator tingkat keberhasilan sampling spekulatif (teknik percepatan yang menggunakan model kecil untuk menebak token terlebih dahulu, lalu diverifikasi oleh model besar) dapat digunakan sebagai sinyal deteksi gangguan. Saat terjadi karakter acak, token draf hampir seluruhnya ditolak, dan saat pengulangan, tingkat keberhasilan secara tidak normal tinggi. Tim kemudian mengimplementasikan pemantauan online: jika ambang batas tercapai, proses dihentikan otomatis dan diulang kembali.
Setelah memperbaiki bug, tim juga melakukan optimasi terhadap bottleneck: penyimpanan KV Cache berlapis LayerSplit, di mana setiap GPU hanya menyimpan sebagian lapisan KV Cache, bukan seluruhnya, dan melakukan komputasi secara kolaboratif melalui broadcast. Dengan tingkat keberhasilan cache sebesar 90%, panjang permintaan dari 40K hingga 120K token, throughput meningkat antara 10% hingga 132%, dan semakin panjang konteks, manfaatnya semakin besar.