كيف يمكنك إقناع الذكاء الاصطناعي بالإجابة على سؤال لا يفترض أن يجيب عليه؟ توجد العديد من التقنيات لكسر هذا الحجز، وقد اكتشف الباحثون في Anthropic واحدة جديدة، حيث يمكن أن يتم إقناع نموذج اللغة الكبير (LLM) بأن يخبرك كيفية بناء قنبلة إذا تم تحفيزه بعدد قليل من الأسئلة غير الضارة أولاً.
يُطلقون على هذا النهج “كسر الحجز بالعديد من الأمثلة”، وقد كتبوا ورقة بحثية حول هذا الموضوع وأبلغوا زملاءهم في مجتمع الذكاء الاصطناعي عنه لتقليل آثاره.
الضعف الجديد هو نتيجة لزيادة “نافذة السياق” في أحدث جيل من نماذج LLM. هذه هي كمية البيانات التي يمكنها أن تحتفظ بها في الذاكرة القصيرة الأجل، حيث كانت في السابق عدة جمل فقط ولكن الآن آلاف الكلمات وحتى كتب بأكملها.
ما وجد الباحثون في Anthropic هو أن هذه النماذج ذات النوافذ السياقية الكبيرة تميل إلى الأداء بشكل أفضل في العديد من المهام إذا كانت هناك الكثير من الأمثلة لتلك المهمة داخل الاقتراح. لذلك إذا كان هناك الكثير من الأسئلة التافهة في الاقتراح (أو المستند المحفز، مثل قائمة كبيرة من المعلومات العامة التي يحتوي عليها النموذج في السياق)، فإن الإجابات تتحسن فعلاً مع مرور الوقت. لذا فإن حقيقة قد تكون قد أخطأت فيها إذا كانت السؤال الأول، فقد تكون صحيحة إذا كان السؤال المائة.
ولكن في توسيع غير متوقع لهذا “التعلم في السياق”، كما يطلق عليه، تحسنت النماذج أيضًا في الرد على الأسئلة غير المناسبة. لذلك إذا طُلب منه بناء قنبلة على الفور، فسيُرفض. ولكن إذا طُلب منه أن يجيب على 99 سؤالاً آخر غير ضار، ثم طُلب منه بناء قنبلة… فمن المرجح أن يتماشى أكثر مع الطلب.
لماذا يحدث هذا؟ لا يدرك أحد تمامًا ما يحدث في الشبكة المعقدة من الأوزان التي تشكل النموذج اللغوي الكبير، ومع ذلك، يبدو أن هناك آلية تتيح للنموذج التركيز على ما يرغب فيه المستخدم، كما يظهر من المحتوى الموجود في نافذة السياق. عندما يطلب المستخدم معلومات عامة، يُنشط تدريجيًا المزيد من القدرة على تذكر المعلومات العامة مع طرح العديد من الأسئلة. وبسبب ذلك، يحدث الشيء نفسه عندما يطلب المستخدمون العديد من الإجابات غير المناسبة.
لقد أبلغ الفريق بالفعل نظرائهم وحتى منافسيهم عن هذا الهجوم، ويأملون في أن يساهم ذلك في “تعزيز ثقافة حيث يتم مشاركة مثل هذه الاستغلالات بشكل مفتوح بين مقدمي النماذج اللغوية الكبيرة والباحثين”.
بالنسبة للتخفيف من هذه المشكلة، وجدوا أن تقييد نافذة السياق يساعد، ومع ذلك، له تأثير سلبي على أداء النموذج. لا يمكن قبول هذا الأمر، لذا يعملون على تصنيف وتوضيح الاستفسارات قبل أن تصل إلى النموذج. بالطبع، هذا يجعل الأمر أسهل للخداع بواسطة نموذج آخر… ولكن في هذه المرحلة، من المتوقع أن يتم تحديد الأهداف بشكل متغير في أمن الذكاء الاصطناعي.
الخلاصة
يتناول المقال كيف يمكن استغلال الذكاء الاصطناعي في الإجابة على أسئلة غير ملائمة، وذلك من خلال تقنية “كسر الحجز بالعديد من الأمثلة” التي يمكنها إقناع النموذج بتقديم إجابات غير مرغوب فيها. يعزز الباحثون في Anthropic الثقافة المفتوحة لمشاركة هذه الاستغلالات في المجتمع العلمي، ويبحثون عن حلول لتقييد النماذج اللغوية الكبيرة في الرد على الأسئلة الغير ملائمة، مع السعي لتحسين أمان الذكاء الاصطناعي.
أخيراً :
نتمنى لك قراءة رائعة، لا تنسى قراءة هذه الصفحات المهمة، إخلاء المسوؤلية ، سياسة الخصوصية
و أيضاً تسجيل رأيك حول “يُرهق الباحثون الأنثروبيين أخلاقيات الذكاء الاصطناعي بتكرار الأسئلة”
شاركنا رأيك عبر صفحاتنا على مواقع التواصل الأجتماعي و أيضاً لا تنسى متابعتنا : (فيسبوك ، انستغرام ،تويتر)
شاهد أيضاً :
سام ألتمان يتنازل عن السيطرة على صندوق الشركات الناشئة لـ OpenAI