البحث والتطوير السري ، "تهديد الإنسانية" ، تسبب الاسم الرمزي في حالة من الذعر على الشبكة بأكملها؟ما هو OpenAI Q *؟

  • مصدر المقال: GenAI عالم جديد *

*المؤلف: مياو تشنغ *

* مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود *

دعونا نضع جانبا Polar Smash Bros. داخل إدارة OpenAI ونتحدث عن أحدث الشائعات عن هذه الشركة - ** Q \ ***. أرسلت OpenAI خطابا داخليا إلى الموظفين في 22 نوفمبر ، تقر فيه Q وتصف المشروع بأنه “نظام مستقل يتجاوز البشر”. إنه أمر مخيف حقا.

على الرغم من أن OpenAI لم يصدر رسميا أي أخبار حول Q \ * ، إلا أنه لا يزال لدينا القدرة على فهمها بطريقة سطحية.

بادئ ذي بدء ، فإن الخطوة الأولى هي فهم نطق Q \ * ، والاسم الرسمي هو Q-Star ، والذي يترجم إلى Q-Star. نعم ، لقد قرأت ذلك بشكل صحيح ، على الرغم من أنه في التعلم العميق ، يتم حل الكتل عن طريق الضرب ، ولكن في Q \ * ، “*” لا تعني الضرب ، ولكن “علامة النجمة”. يشير الحرف “** Q” إلى المكافأة المتوقعة لعمل في التعلم المعزز. **

في مجال الذكاء الاصطناعي ، أي شيء له علاقة ب Q المكتوبة بالأحرف الكبيرة هو في الأساس تعلم Q. يمكن اعتبار التعلم Q نوعا من التعلم المعزز بناء على معايير التقييم الحالية ، والتي تشير إلى الطريقة في عملية التدريب ، في طريقة تسجيل قيمة المكافأة التاريخية للتدريب ، وإخبار الوكيل بكيفية اختيار الخطوة التالية لتكون هي نفسها أعلى قيمة مكافأة تاريخية. ومع ذلك ، يرجى ملاحظة أن الحد الأقصى لقيمة المكافأة التاريخية لا يمثل الحد الأقصى لقيمة المكافأة للنموذج ، فقد يكون أو لا يكون ، وقد يفشل في الوصول. بمعنى آخر ، يشبه تعلم Q والوكلاء العلاقة بين المحلل ومدرب الفريق. المدرب مسؤول عن تدريب الفريق ، ويتم استخدام المحلل لمساعدة المدرب.

في عملية التعلم المعزز ، يتم تغذية قرارات إخراج الوكيل إلى البيئة من أجل الحصول على قيم المكافأة. من ناحية أخرى ، يسجل تعلم Q قيمة المكافأة فقط ، لذلك لا يحتاج إلى نمذجة البيئة ، وهو ما يعادل “نتائج جيدة ، كل شيء جيد”.

ومع ذلك ، بالنظر إلى الأمر بهذه الطريقة ، يبدو أن تعلم Q ليس جيدا مثل نماذج التعلم العميق المستخدمة بشكل شائع في الذكاء الاصطناعي ، وخاصة النماذج الكبيرة. مع مليارات وعشرات المليارات من المعلمات مثل الحالية ، فإن تعلم Q لا يساعد النموذج فحسب ، بل يزيد أيضا من التعقيد وبالتالي يقلل من المتانة.

لا تقلق ، هذا لأن الفكرة وراء تعلم Q أعلاه هي مجرد مفهوم أساسي ولد في عام 1989. **

في عام 2013 ، أطلقت DeepMind خوارزمية تسمى Deep Q Learning من خلال تحسين تعلم Q ، والميزة الأكثر تميزا هي استخدام تشغيل التجربة ، وأخذ العينات من نتائج متعددة في الماضي ، ثم استخدام Q learning ، وذلك لتحسين استقرار النموذج وتقليل اختلاف اتجاه التدريب للنموذج بسبب نتيجة معينة.

ومع ذلك ، لقول الحقيقة ، هناك سبب لعدم انتشار هذا المفهوم ، ومن الناحية العملية ، كان الدور الأكبر للتعلم العميق Q في المجتمع الأكاديمي هو تطوير DQN.

يشير DQN إلى شبكة Deep Q ، التي ولدت من تعلم Q العميق. فكرة DQN هي بالضبط نفس فكرة تعلم Q ، ولكن عملية إيجاد أقصى قيمة مكافأة في تعلم Q تتحقق بواسطة الشبكات العصبية. فجأة ، أصبح من المألوف.

تقوم DQN بإنشاء عقدة واحدة فقط في كل مرة. في الوقت نفسه ، يقوم DQN بإنشاء قائمة انتظار ذات أولوية ، ثم يخزن العقد المتبقية وأسلاف الإجراءات في قائمة انتظار الأولوية. من الواضح أن عقدة واحدة ليست كافية بالتأكيد ، وإذا كانت العملية برمتها عقدة واحدة فقط ، فيجب أن يكون الحل النهائي خاطئا بشكل يبعث على السخرية. عند إزالة عقدة وسلف إجراء من قائمة الانتظار، سيتم إنشاء عقدة جديدة استنادا إلى الاقتران الذي ينطبق الإجراء على العقدة التي تم إنشاؤها بالفعل، وهكذا.

سيشعر الأشخاص الذين يعرفون القليل عن تاريخ الذكاء الاصطناعي أنه كلما نظروا إليه أكثر ، أصبحوا أكثر دراية ، أليست هذه هي النسخة الراقية من فرويد التي تطلب طول الجانب؟

في أجهزة الكمبيوتر الحديثة ، المبدأ الأساسي الذي تستخدمه المعالجات هو خوارزمية فرويد ، والتي تستخدم لإيجاد أقصر مسار بين نقطتين من خلال مقارنتها بالأمثل التاريخي. الغرض من الذاكرة هو تخزين الحسابات بطريقة ذات أولوية ، وفي كل مرة يكمل فيها المعالج عملية حسابية ، تلقي الذاكرة الحساب التالي إلى المعالج.

DQN هو نفسه في الأساس.

هذا في الأساس ما تعنيه Q ، فماذا يعني *؟

** انطلاقا من تحليل العديد من المطلعين على الصناعة ، من المحتمل جدا أن يشير * إلى خوارزمية A \ *. **

هذا هو الاستدلال. دون التسرع في ماهية الاستدلال ، دعني أخبرك بنكتة:

يسأل A B ، “ابحث بسرعة عن حاصل ضرب 1928749189571*1982379176” ، ويجيب B على الفور ، “32”. عندما سمعت هذا ، تساءلت أنه عندما تم ضرب رقمين من هذا العدد الكبير ، كان من المستحيل أن تكون الإجابة رقمين. سأل ب أ: “هل ستقول إنه سريع؟”

يبدو الأمر شائنا ، لكن الاستدلال هو نفسه.

جوهرها هو التقدير ، ويمكنك فقط اختيار واحد بين الكفاءة والحل الإيجابي. إما أنها فعالة للغاية ، لكنها في بعض الأحيان خاطئة ، أو أنها دقيقة للغاية ، وأحيانا تستغرق وقتا طويلا. تستخدم خوارزمية A* أولا خوارزمية إرشادية لتقدير قيمة تقريبية ، والتي من المحتمل أن تنحرف بشكل كبير عن الحل الصحيح. بمجرد اكتمال التقدير ، تبدأ الحلقة في العبور ، وإذا لم تكن هناك طريقة لحلها ، يتم إعادة تقييمها حتى يبدأ الحل في الظهور. يتكرر هذا للوصول أخيرا إلى أفضل حل.

على الرغم من أنه يمكن الحصول على الحل الأفضل ، إلا أن A* هو النوع الثاني المذكور أعلاه ، والإجابة صحيحة ، وتستغرق وقتا طويلا. لا بأس في وضعها في بيئة معملية ، ولكن إذا تم وضع هذه الخوارزمية على جهاز شخصي ، فقد يتسبب ذلك في تجاوز الذاكرة ويسبب مشاكل في النظام ، مثل الشاشات الزرقاء.

لذلك ، فإن هذا القيد يجعل خوارزمية A \ * غالبا ما يتم تطبيقها على بعض النماذج الأقل تعقيدا في الماضي ، والأكثر شيوعا هو تحديد مسار الشخصية في الألعاب عبر الإنترنت. في بعض الألعاب الكبيرة ، في اللحظة التي تبدأ فيها الشخصية في البحث عن المسار ، يكون ذلك بسبب خوارزمية A \ *.

على العموم ، فإن الإجماع الحالي في دائرة الذكاء الاصطناعي هو أن ** خوارزمية Q \ * المذكورة في الرسالة الداخلية ل OpenAI هي على الأرجح مزيج من Q learning و A ، أي توفير قوة الحوسبة ، وتوفير الذاكرة ، والحصول على أفضل حل - لأنه لا يمكنه دائما إنفاق المزيد من قوة الحوسبة وإهدار الذاكرة ، وأخيرا لا يمكنه الحصول على الحل الأفضل!

ومثلما صنع OpenAI أخيرا النموذج الأساسي ، فقد كان موجودا أيضا لفترة طويلة ، بل وتجاهله الناس لفترة من الوقت ، حتى أعاد OpenAI اكتشاف إمكاناته بأساليب محددة ومبتكرة. اليوم ، لدى الناس بطبيعة الحال سبب للاعتقاد بأنه في فكرتي الخوارزمية القديمتين Q و A ، يمكن ل OpenAI تكرار الحيل القديمة وخلق المعجزات مرة أخرى - بالطبع ، الضرر الذي قد تجلبه هذه المعجزة للبشرية قد جعل المزيد من الناس قلقين بسبب مهزلة OpenAI الأخيرة.

لذلك ، بالعودة إلى هذه الخوارزمية ، من المرجح أن يستخدم Q \ * تعلم Q للعثور بسرعة على تقييم الحل شبه الأمثل ، ثم استخدام خوارزمية A \ * لحلها في منطقة صغيرة ، مما يلغي الكثير من عمليات الحساب التي لا معنى لها ، وذلك للعثور بسرعة على أفضل حل. ولكن ما سيفعله OpenAI بالضبط يجب أن ينتظر الورقة العامة (إذا كان بإمكانه الانتظار).

يظهر ظهور ** Q \ * في الواقع مشكلة ، وتدرك الشركات الرائدة في مجال الذكاء الاصطناعي أن عملية الحل في التطور الحالي للذكاء الاصطناعي أكثر جدوى من الحل. لأنه الآن فقط السعي وراء صحة الإجابة لم يعد بإمكانه تلبية احتياجات الناس للذكاء الاصطناعي. على سبيل المثال ، في OpenCompass ، حتى لو كان متوسط فرق النقاط 10 أو 20 نقطة ، إذا نظرت إلى دقة الفهم ، فلا توجد فجوة كبيرة بين أفضل نموذج وأسوأ نموذج.

وسط التكهنات والذعر ، أحد الادعاءات حول Q هو أن Q يمكنه حل مشاكل الرياضيات المتقدمة جدا. وقال أندرو روجوسكي، مدير معهد ساري للذكاء الاصطناعي المتمحور حول الإنسان: “نحن نعلم أن الذكاء الاصطناعي الحالية أثبتت قدرتها على القيام بالرياضيات على المستوى الجامعي، ولكنها غير قادرة على التعامل مع مشاكل الرياضيات الأكثر تقدما”. ولكن من المرجح أن يتم استخدام Q \ * لحل مشاكل الرياضيات الصعبة. "ربما عندما يخرج Q \ * ، يمكنك اختبار تخمين Goldbach. تعتبر الرياضيات واحدة من أعظم بلورات الحكمة البشرية ، لذا فإن Q \ * هو مجرد اسم رمزي تسبب في حالة من الذعر عبر الإنترنت.

وخلف Q* يرتبط أيضا بمهمة OpenAI - أي استكشاف الذكاء الاصطناعي العام (AGI) ، وحتى الذكاء الفائق. يعرف OpenAI AGI بأنه نظام مستقل يتفوق على البشر في المهام الأكثر قيمة من الناحية الاقتصادية ، و Q \ * هي خطوة نحو AGI بواسطة OpenAI.

في الوقت الحالي ، لم يعلق OpenAI على Q وتسريب الرسالة الداخلية ، لكن لدي مشاعر مختلطة. أنا سعيد لأن Q \ * لديها قدرات قوية ، وتطوير الذكاء الاصطناعي سوف يذهب إلى أبعد من ذلك. في الوقت نفسه ، كنت قلقا أيضا من أن وسيلة التحايل Q \ * كانت أكبر من الواقع ، وفي النهاية ، كانت نتائج الاختبار هكذا تماما في يوم إصدارها ، مما جعلني أصفع على وجهي.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت