أصدر Mihayou و Fudan ، مع الإدراك والدماغ وعمل نموذج اللغة الكبير "الوكيل"

巴比特_

المصدر الأصلي: مجتمع AIGC المفتوح

مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود

تظهر نماذج اللغات الكبيرة مثل ChatGPT قدرات إبداعية غير مسبوقة ، لكنها لا تزال بعيدة عن AGI (الذكاء الاصطناعي العام) ، وتفتقر إلى القدرات المجسمة مثل اتخاذ القرار المستقل وتخزين الذاكرة والتخطيط.

من أجل استكشاف تطور نماذج اللغات الكبيرة إلى AGI والتطور إلى ذكاء اصطناعي فائق يفوق البشر ، أصدر فريق بحث Mihayou و Fudan NLP بشكل مشترك ورقة “وكيل” تستند إلى نماذج اللغة الكبيرة. ** ضع العوامل ذات الوظائف الثلاث للإدراك والدماغ والعمل في البيئات التجريبية مثل ألعاب النص والرمل للسماح لهم بالتحرك بمفردهم **.

تظهر النتائج أن هذه العوامل لديها قدرات مجسمة مثل الإدراك المستقل والتخطيط وصنع القرار والاتصال ، على سبيل المثال ، عندما تصبح البيئة المحيطة صعبة وشاقة ، سيقوم الوكلاء تلقائيا بتعديل استراتيجياتهم وإجراءاتهم ؛ في بيئة المحاكاة الاجتماعية ، يظهر الوكيل مشاعر مجسمة مثل التعاطف. عندما يتواصل عميلان غريبان ببساطة ، يتذكران بعضهما البعض.

يشبه هذا الإطار التقني تجارب محاكاة لعبة وكيل الذكاء الاصطناعي التي أصدرتها جامعة ستانفورد وجامعة تسينغهوا من قبل ، والتي تستند إلى نماذج لغوية كبيرة لبناء روبوتات الذكاء الاصطناعي أكثر قوة ، والتي لعبت دورا في تعزيز تطوير الصناعة.

عنوان الورقة:

جيثب:

وفقا للورقة ، يتكون العامل بشكل أساسي من ثلاث وحدات: الإدراك ، واتخاذ القرار والتحكم ، والتنفيذ ، الذي يدرك البيئة ، ويتخذ قرارات ذكية ثم يقوم بإجراءات محددة.

وحدة الإدراك

يتم استخدام وحدة الإدراك للحصول على معلومات مختلفة من البيئة ، أي ما يعادل الحواس البشرية. يمكن أن تحتوي على مجموعة متنوعة من أجهزة الاستشعار للحصول على أنواع مختلفة من البيانات ، على سبيل المثال ، تحصل الكاميرا على معلومات الصورة ، ويحصل الميكروفون على معلومات صوتية ، وما إلى ذلك.

تقوم وحدة الإدراك بمعالجة هذه البيانات الأولية مسبقا وتحويلها إلى تمثيل رقمي يمكن للوكيل فهمه للوحدات اللاحقة. تشمل مستشعرات الإدراك شائعة الاستخدام ما يلي:

مستشعرات الصور: الكاميرات وكاميرات RGB-D وما إلى ذلك ، المستخدمة للحصول على معلومات مرئية.

مستشعر الصوت: ميكروفون ، احصل على معلومات صوتية مثل الصوت والصوت المحيط.

مستشعرات الموضع: GPS ، INS (نظام الملاحة بالقصور الذاتي) ، وما إلى ذلك ، لمعرفة موضع العامل نفسه.

أجهزة استشعار اللمس: مجموعة لمسية ، قفازات عن طريق اللمس ، وما إلى ذلك ، للحصول على ردود فعل عن طريق اللمس عندما تتلامس الأشياء.

درجة الحرارة والرطوبة وضغط الهواء وأجهزة الاستشعار البيئية الأخرى للحصول على معلومات المعلمات البيئية.

تحتاج وحدة الإدراك إلى المعالجة المسبقة للبيانات الأولية ، على سبيل المثال ، تقليل ضوضاء الصورة ، وتقليل ضوضاء الصوت ، وتحويل التنسيق ، وما إلى ذلك ، لإنشاء بيانات طبيعية يمكن استخدامها بواسطة الوحدات اللاحقة. في الوقت نفسه ، يمكن لوحدة الإدراك أيضا إجراء استخراج الميزات ، مثل استخراج الميزات المرئية مثل الحواف والقوام والمناطق المستهدفة من الصور.

وحدة القرار والتحكم **

هذه الوحدة هي “دماغ” العامل ، ومعالجة وتحليل واتخاذ القرارات المقابلة بشأن البيانات التي تم الحصول عليها بواسطة وحدة الإدراك. يمكن تقسيمها إلى الوحدات الفرعية التالية:

قاعدة المعرفة / الذاكرة: تخزن جميع أنواع المعرفة السابقة والخبرة ، وكذلك الملاحظات والخبرات وغيرها من المعلومات أثناء التنفيذ.

الاستدلال / التخطيط: تحليل البيئة الحالية وتطوير مسار العمل وفقا للمهمة المستهدفة. مثل تخطيط المسار وتخطيط تسلسل الإجراءات وما إلى ذلك.

اتخاذ القرار: اتخاذ القرارات المثلى بناء على الوضع الحالي للبيئة والمعرفة ونتائج التفكير.

التحكم: تحويل نتيجة القرار إلى تعليمات التحكم وإصدار أوامر التنفيذ إلى وحدة التنفيذ.

تصميم وحدة القرار والتحكم هو مفتاح تقنية الوكيل. الاستخدام المبكر للمنطق والأساليب الرمزية القائمة على القواعد ، أصبحت تقنيات التعلم العميق سائدة في السنوات الأخيرة. مدخلات الوحدة هي الأنواع المختلفة من البيانات التي تم الحصول عليها عن طريق الإدراك ، والإخراج هو تعليمات التحكم في وحدة التنفيذ.

## وحدة التنفيذ

تتلقى وحدة التنفيذ تعليمات التحكم وتترجمها إلى سلوكيات تفاعل بيئي محددة لتحقيق المهمة المقابلة. وهو ما يعادل “أطراف” الشخص. يتصل المشغل ب “المستجيب” الخاص بالوكيل ويدفع المستجيب لتغيير البيئة وفقا لأمر التحكم. تشمل المستجيبات الرئيسية ما يلي:

مشغلات الحركة: أذرع روبوتية ، هيكل روبوت ، إلخ ، لتغيير موضع العامل نفسه أو إجراء عمليات كائن.

إخراج الكلام / النص: مزج الكلام ، وشاشات العرض ، وما إلى ذلك للتفاعل مع البيئة في الكلام أو النص.

واجهة تشغيل الأداة / المعدات: التحكم في الأجهزة والأدوات المختلفة ، وتوسيع قدرة التشغيل البيئي للوكيل.

يرتبط التصميم المحدد لوحدة التنفيذ بالشكل المادي للوكيل. على سبيل المثال ، يحتاج وكيل الخدمة فقط إلى واجهة نصية أو صوتية ، بينما يحتاج الروبوت إلى الاتصال والتحكم بدقة في الحركية. دقة ومرونة التنفيذ هي مفتاح نجاح المهمة.

في تجربة الاختبار ، أجرى الباحثون بشكل أساسي ثلاثة أنواع من التجارب: إدارة المهام والابتكار ودورة الحياة لمراقبة أداء العامل في بيئات مختلفة.

تجربة المهمة

قام الباحثون ببناء بيئتي محاكاة ، ألعاب نصية وسيناريوهات حياة ، لاختبار قدرة الوكلاء على إكمال المهام اليومية. تستخدم بيئات تشغيل النص لغة طبيعية لوصف العالم الافتراضي ، ويحتاج الوكلاء إلى قراءة أوصاف النص لإدراك محيطهم واتخاذ الإجراءات اللازمة.

تعد محاكاة مشهد الحياة أكثر واقعية وتعقيدا ، ويحتاج الوكلاء إلى استخدام المعرفة المنطقية لفهم الأوامر بشكل أفضل ، مثل تشغيل الأضواء بنشاط عندما تكون الغرفة مظلمة.

تظهر النتائج التجريبية أنه يمكن للوكلاء استخدام قدراتهم القوية في توليد فهم النص لتحليل المهام المعقدة بشكل فعال ، ووضع الخطط ، والتفاعل مع البيئات المتغيرة ديناميكيا في هذه البيئات المحاكاة لتحقيق الأهداف المحددة مسبقا في النهاية.

تجربة مبتكرة

استكشف الباحثون إمكانات العوامل في مجالات متخصصة مثل الابتكار العلمي. نظرا لتحديات ندرة البيانات وصعوبة فهم المعرفة المتخصصة بالمجال في هذه المجالات ، اختبر الباحثون حلولا لتزويد الوكلاء بأدوات عامة أو متخصصة مختلفة لتحسين فهمهم للمعرفة المعقدة بالمجال.

تظهر التجارب أن الوكيل يمكنه استخدام محركات البحث والرسوم البيانية المعرفية وغيرها من الأدوات لإجراء البحوث عبر الإنترنت ، والتفاعل مع الأدوات والمعدات العلمية لإكمال العمليات العملية مثل توليف المواد. وهذا يجعلها مساعدا واعدا للابتكار العلمي.

تجربة دورة الحياة

استخدم الباحثون لعبة العالم المفتوح Minecraft لاختبار قدرة العميل على التعلم المستمر والبقاء على قيد الحياة. يبدأ الوكلاء بالأنشطة الأساسية مثل تعدين الأخشاب وصياغة طاولات العمل ، واستكشاف البيئات غير المعروفة تدريجيا واكتساب مهارات بقاء أكثر تعقيدا.

في التجربة ، يتم استخدام الجسم الذكي للتخطيط عالي المستوى ويمكنه تعديل الإستراتيجية باستمرار وفقا للتعليقات البيئية **. تظهر النتائج أن العامل يمكنه تطوير المهارات في ظل استقلالية كاملة ، والتكيف باستمرار مع البيئات الجديدة ، وإظهار قدرات قوية لإدارة دورة الحياة.

بالإضافة إلى ذلك ، من حيث المحاكاة الاجتماعية ، استكشف الباحثون ما إذا كانت العوامل تظهر الشخصية والسلوك الاجتماعي ، واختبروا بيئات بيئية مختلفة. تظهر النتائج أن الوكلاء يمكن أن يظهروا مستويات معينة من القدرات المعرفية والعواطف والسمات الشخصية. في مجتمع محاكاة ، تحدث الأنشطة الاجتماعية التلقائية والسلوك الجماعي بين الوكلاء.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات