Ramp Labs เสนอแนวทางใหม่สำหรับการแชร์หน่วยความจำแบบหลายเอเจนต์ โดยการใช้โทเคนสูงสุดลดลง 65%
Ramp Labs ได้เผยแพร่ผลงานวิจัย “Latent Briefing” โดยการบีบอัดแคช KV ของโมเดลขนาดใหญ่ เพื่อให้ระบบหลายเอเจนต์มีการแบ่งปันความจำได้อย่างมีประสิทธิภาพ ลดการใช้โทเค็น และเพิ่มความแม่นยำ ในการทดสอบ LongBench v2 วิธีดังกล่าวสามารถลดการใช้โทเค็นของโมเดล Worker ได้สำเร็จ 65% และเพิ่มความแม่นยำโดยรวมประมาณ 3 จุดเปอร์เซ็นต์ โดยใช้เวลาในการบีบอัดเพียง 1.7 วินาที เทคโนโลยีนี้แสดงผลได้ดีเยี่ยมในสถานการณ์เอกสารที่แตกต่างกัน
GateNews·1 ชั่วโมง ที่แล้ว

