حروب الذكاء الاصطناعي أصبحت أكثر إثارة الآن. نموذج جديد يدّعي العرش بأرقام مذهلة—تصنيف Elo يبلغ 1483 في وضع الاستدلال على لوحة المتصدرين النصية لـ LMArena. هذا بفارق 31 نقطة عن أقرب منافس غير مرتبط. وحتى بدون ميزات الاستدلال المتقدمة، حصل على المركز الثاني.



ما الذي يدفع هذا التقدم؟ يبدو أن النموذج يعيد كتابة معايير الأداء في جميع المجالات. سواء في التعامل مع سلاسل منطقية معقدة أو معالجة استفسارات دقيقة، فإن فارق الأداء يصعب تجاهله. لوحة المتصدرين لا تكذب—عندما تتفوق بهذا الهامش على اللاعبين الراسخين، فهذا يعني أن هناك شيئاً أساسياً قد تغير في البنية.

لكن هناك نقطة مهمة: التفوق في الاختبارات المحكمة لا يعني دائماً التفوق في العالم الحقيقي. لقد رأينا نماذج تتفوق في المعايير من قبل، لكنها تتعثر في الحالات الاستثنائية التي يهتم بها المستخدمون فعلياً. ومع ذلك، تظل هذه المعايير مهمة. فهي تشير إلى أين يتحرك سقف التقنية، وحالياً، التحرك سريع جداً.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 4
  • إعادة النشر
  • مشاركة
تعليق
0/400
CoffeeNFTradervip
· 12-05 02:50
انتظر، فرق 31 نقطة؟ كم حجم التحسين في البنية اللي لازم يصير عشان كذا؟
شاهد النسخة الأصليةرد0
Degen4Breakfastvip
· 12-05 02:49
1483 نقطة؟ الرقم هذا مبالغ فيه يا أخوي، ترتيب التصنيف رجع للتمثيل من جديد. اختبار الأداء شيء، والاستخدام الفعلي شيء ثاني، شفنا حركات زي كذا كثير. تغيير المعمارية فعلاً قوي، بس خلينا نشوف تجربة المستخدمين الحقيقيين أول. لو ما صار فيها مشاكل المرة هذي، أرفع لهم القبعة. تعزيز وضع الاستدلال بهذا الشكل المبالغ فيه، أحسهم يلعبون بالأرقام من جديد.
شاهد النسخة الأصليةرد0
P2ENotWorkingvip
· 12-05 02:41
نفس الحيلة القديمة مرة ثانية، المركز الأول في اختبار الأداء وتفكرون أنكم وصلتم القمة؟ خلونا نشوف وقت الاستخدام الحقيقي. --- ١٤٨٣ نقطة رقم جيد، لكن نتائج الاختبار وش تعني... من يعرف كيف الأداء الفعلي وقت الاستخدام؟ --- تغير جذري في البنية؟ ولا مجرد تعديل بعض المعايير فقط، واضح إنه ترويج أكثر من أي شيء ثاني. --- لحظة، هل هذه المرة فعلاً مختلفة؟ ولا مجرد نموذج خارق يلمع فترة ويختفي؟ --- قوائم الترتيب هذي، اللي يصدقها يخسر هههههه --- متقدم عن المتصدر السابق بـ٣١ نقطة، الرقم هذا مألوف مرة... حتى اللي قبله قال نفس الكلام عن تفوقه. --- خلاص، بعد فترة بيطلع شيء جديد، والحماس هذا ما راح يدوم كثير. --- المشكلة إنه في الواقع ما ينفع، جرب تستخدمه في محادثة معقدة وشوف النتيجة بنفسك. --- رجعنا لنفس الكلام، كل مرة يقولون كذا، ولما تجرب الأداء يكون عادي. --- المؤشرات مهمة؟ المؤشرات هذي بتجيب لي فلوس يعني...
شاهد النسخة الأصليةرد0
SatoshiHeirvip
· 12-05 02:27
أرقام الاختبارات المعيارية قد تكون مضللة، لقد رأيت الكثير منها. الحصول على 1483 نقطة يبدو مذهلاً، لكن الاختبار الحقيقي يكمن في التفاصيل الجانبية... انتظر، هل هناك اختراق على مستوى البنية المعمارية؟ يجب الإشارة إلى أن هذا هو الإشارة التي تستحق المتابعة.
شاهد النسخة الأصليةرد0
  • تثبيت