Ramp Labs تقدم حلاً جديدًا لمشاركة ذاكرة متعددة الوكلاء، مع تقليل استهلاك الرموز إلى حد أقصى بنسبة 65%

robot
إنشاء الملخص قيد التقدم

معلومات أخبار ME، 11 أبريل (بتوقيت UTC+8)، أصدرت شركة البنية التحتية للذكاء الاصطناعي Ramp Labs نتائج بحث بعنوان “Latent Briefing”، والذي يحقق مشاركة ذاكرة فعالة بين أنظمة متعددة للذكاء الاصطناعي من خلال ضغط مباشر لذاكرة التخزين المؤقت الكبيرة للنموذج، مما يقلل بشكل كبير من استهلاك الرموز دون فقدان الدقة. في الهيكلية السائدة للأنظمة متعددة الوكلاء، يقوم المنسق (Orchestrator) بتقسيم المهام واستدعاء نماذج العاملين (Workers) بشكل متكرر، ومع استمرار تمديد سلسلة الاستدلال، يتضخم استهلاك الرموز بشكل أسي. الفكرة الأساسية لـ Latent Briefing هي: استخدام آلية الانتباه لتحديد الأجزاء الحاسمة في السياق، والتخلص مباشرة من المعلومات الزائدة على مستوى التمثيل، بدلاً من الاعتماد على ملخصات النموذج الضخم البطيئة أو استرجاع RAG غير المستقر. في اختبار معيار LongBench v2، أظهرت هذه الطريقة أداءً مميزًا: انخفاض استهلاك الرموز لنموذج العامل بنسبة 65%، وتوفير رموز متوسطة الطول (من 32 ألف إلى 100 ألف) بنسبة وسطية تصل إلى 49%، مع تحسين الدقة الإجمالية بمقدار حوالي 3 نقاط مئوية مقارنة بالخط الأساسي، بينما استغرق كل ضغط إضافي حوالي 1.7 ثانية فقط، مما يسرع الخوارزمية الأصلية حوالي 20 مرة. أجريت التجارب باستخدام Claude Sonnet 4 كمنسق، وQwen3-14B كنموذج عامل، لتغطية سيناريوهات مختلفة من المستندات مثل الأوراق الأكاديمية، والوثائق القانونية، والروايات، والتقارير الحكومية. كما أظهرت الدراسة أن الحد الأقصى للضغط المثالي يختلف حسب صعوبة المهمة وطول المستند—فالمهام الصعبة تتطلب ضغطًا متطرفًا لتصفية الضوضاء الناتجة عن التفكير المراوغ، بينما المستندات الطويلة تكون أكثر ملاءمة للضغط الخفيف للحفاظ على المعلومات المفتتة والمهمة. (المصدر: BlockBeats)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت