لماذا تقدم معظم المؤشرات الخاصة بالذكاء الاصطناعي معلومات محدودة؟
في هذا المقال سوف تتعرف على لماذا تقدم معظم مؤشرات الذكاء الاصطناعي معلومات محدودة ؟
يوم الثلاثاء، قامت الشركة الناشئة Anthropic بإصدار مجموعة من نماذج الذكاء الاصطناعي التوليدي التي تزعم أنها تحقق أفضل أداء في فئتها. بعد عدة أيام فقط، قدّمت شركة المنافسة Inflection AI نموذجًا يُقال إنه يقترب من مطابقة بعض النماذج الأكثر قدرة هناك، بما في ذلك GPT-4 المقدم من OpenAI، من حيث الجودة.
Anthropic وInflection ليستا الشركتين الأوليتين في مجال الذكاء الاصطناعي التي تدعي أن نماذجهما تلبي أو تتجاوز المنافسة بمقاييس موضوعية.
قد قدمت Google نفسها بنفس الطريقة بخصوص نماذجها Gemini عند إطلاقها، وأيضًا أكدت OpenAI الأمر عن GPT-4 والإصدارات السابقة له، بما في ذلك GPT-3 وGPT-2 وGPT-1. وهكذا تتواصل القائمة.
ولكن ما هي المعايير التي يتحدثون عنها؟ عندما يقول البائع إن النموذج يحقق أفضل أداء أو جودة على مستوى الفني، ماذا يعني ذلك بالضبط؟ ربما المزيد من النقاط: هل سيؤدي النموذج الذي يظهر، أداءً فنيًا أفضل من بعض النماذج الأخرى إلى تحسين ملموس؟
سؤال أخر، المشكلة تكمن في المعايير التي تستخدمها شركات الذكاء الاصطناعي لقياس قوة النموذج وضعفه.
تدابير خفية
أدوات القياس الأكثر استخدامًا اليوم لنماذج الذكاء الاصطناعي – وبخاصة نماذج تشغيل الدردشة مثل ChatGPT من OpenAI و Claude من Anthropic – لا تعكس بشكل جيد كيفية تفاعل الشخص العادي مع النماذج التي يتم اختبارها.
على سبيل المثال، يحتوي أحد الأدوات القياسية المشار إليها من قبل Anthropic في إعلانها الأخير،
GPQA (“مقياس لأسئلة وأجوبة مستوى الدراسات العليا ومناسب لموقع Google”)، على مئات الأسئلة في مجالات الأحياء والفيزياء والكيمياء على مستوى الدكتوراه،
وهذا لا يعكس استخدام معظم الناس للدردشات الآلية في مهام مثل الرد على رسائل البريد الإلكتروني، وكتابة رسائل تغطية، والتحدث عن مشاعرهم.
يقول جيسي دودج، عالم في معهد آلن للذكاء الاصطناعي، الهيئة البحثية غير الربحية في مجال الذكاء الاصطناعي، إن الصناعة وصلت إلى “أزمة تقييم”.
في مقابلة مع TechCrunch، أشار جيسي دودج، عالم في معهد آلن للذكاء الاصطناعي، إلى أن الأدوات القياسية غالبًا ما تكون محدودة وتركز على تقييم مهارة واحدة فقط، مثل دقة النموذج في مجال معين أو قدرته على حل أسئلة الاختيار المتعدد في المنطق الرياضي.
يُضيف دودج أن العديد من هذه الأدوات القياسية تم تطويرها قبل أكثر من ثلاث سنوات،
عندما كانت أنظمة الذكاء الاصطناعي تُستخدم بشكل رئيسي للأبحاث ولم تكن لديها الكثير من المستخدمين الفعليين. بالإضافة إلى ذلك، يُستخدم الذكاء الاصطناعي التوليدي بطرق متعددة، إذ يعبر الناس عن إبداعهم من خلاله بشكل كبير.
المقاييس الخاطئة
لا تكون المقاييس الأكثر استخدامًا بلا جدوى تمامًا. بالطبع، هناك شخص ما يطرح أسئلة في الرياضيات على مستوى الدكتوراه على ChatGPT.
ومع ذلك، مع تزايد استخدام النماذج الذكاء الاصطناعي التوليدي كأنظمة شاملة تُطبَّق على نطاق واسع، تصبح المقاييس القديمة أقل قابلية للتطبيق.
يُشير ديفيد ويدر، الباحث ما بعد الدكتوراه في جامعة كورنيل والمتخصص في الذكاء الاصطناعي والأخلاق،
ملاحظة :
الأخلاق هنا تشير إلى دراسة وفهم القضايا الأخلاقية المتعلقة بالذكاء الاصطناعي، وكيفية تطبيق المبادئ الأخلاقية في تطوير واستخدام التكنولوجيا الذكية.
إلى أن العديد من المهارات التي تختبرها المقاييس الشائعة – بدءًا من حل مشاكل الرياضيات في المرحلة الابتدائية إلى تحديد ما إذا كانت الجملة تحتوي على تأخر زمني – لن تكون أبدًا ذات صلة لغالبية المستخدمين.
ويضيف ويدر في مقابلة مع TechCrunch: “غالبًا ما كانت أنظمة الذكاء الاصطناعي القديمة تُبنَى لحل مشكلة معينة في سياق محدد، مما يجعل الفهم السياقي العميق لما يشكل أداءً جيدًا في تلك السياقات أكثر إمكانية.”
“مع تزايد اعتبار الأنظمة كـ ‘عامة الاستخدام’، يصبح هذا أقل احتمالًا، لذا نشهد تركيزًا متزايدًا على اختبار النماذج على مجموعة متنوعة من المقاييس في مجالات مختلفة.”
أخطاء وعيوب أخرى
بجانب عدم ملاءمة بعض حالات الاستخدام، هناك شكوك بشأن قدرة بعض المعايير على قياس ما يدعي أنها تقيسه.
أظهر تحليل لاختبار HellaSwag،
الذي صمم لتقييم الاستدلال المنطقي في النماذج، أن أكثر من ثلثي أسئلة الاختبار تحتوي على أخطاء إملائية وكتابة “غير مفهومة”.
وفي سياق آخر، يُطرح اختبار MMLU (اختصارًا لـ “فهم اللغة المتعدد المهام الضخم”)، وهو معيار أشارت إليه شركات مثل Google وOpenAI وAnthropic كدليل على قدرة نماذجها على التفكير في مشكلات المنطق، وتتضمن أسئلتها قدرة على الحفظ الميكانيكي.
قال ويدر: “تركز معايير مثل MMLU أكثر على الحفظ وربط كلمتين معًا.
إصلاح ما هو معيب
إذا كانت المعايير تعاني من العيوب، هل يمكن إصلاحها؟
يعتقد دودج أن ذلك ممكن – من خلال مشاركة البشر بشكل أكبر.
“الطريق الصحيح للأمام هو الجمع بين معايير التقييم والتقييم البشري”، قال، “عن طريق توجيه النموذج بسؤال حقيقي من المستخدم ثم توظيف شخص لتقييم جودة الرد”.
أما ويدر، فهو أقل تفاؤلاً بشأن إمكانية تحسين المعايير اليوم – حتى مع إصلاحات للأخطاء الأكثر وضوحًا، مثل الأخطاء الإملائية – بحيث يكون الإنفاذ مفيدًا لغالبية مستخدمي نماذج الذكاء الاصطناعي التوليدية.
بدلاً من ذلك، يعتقد أن اختبارات النماذج ينبغي أن تركز على الآثار الناتجة عن هذه النماذج وما إذا كانت هذه الآثار، سواء كانت إيجابية أو سلبية، مرغوبة لدى المتأثرين.
“سأطرح السؤال حول الأهداف السياقية المحددة التي نريد من نماذج الذكاء الاصطناعي أن تكون قادرة على تحقيقها وما إذا كانت – أو ستكون – ناجحة في مثل هذه السياقات”، “وآمل أيضًا أن يتضمن هذا العمل تقييم ما إذا كان يجب استخدام الذكاء الاصطناعي في مثل هذه السياقات”.
الخلاصة
المقال يتناول القضايا المتعلقة بالمعايير والمقاييس المستخدمة في تقييم نماذج الذكاء الاصطناعي التوليدي. يشير المقال إلى أن الشركات المنافسة في هذا المجال يتباهون بنماذجهم ويزعمون تفوقها على المنافسين، ولكن الأسس التي يقومون عليها غير واضحة دائمًا.
بالإضافة إلى ذلك، يشير المقال إلى ضرورة إشراك البشر في عمليات التقييم بشكل أكبر، بجانب استخدام الأدوات والمعايير الآلية، لضمان تقييم شامل ودقيق لقدرات النماذج الذكاء الاصطناعي.
مهمة “تكنو بوست” هي أن تكون الساحة الأفضل لتقديم أخبار الذكاء الأصطناعي و التكنولوجيا و الشروحات التقنية في الوطن العربي. و أيضاً تهدف إلى توصيل أحدث أخبار التكنلوجيا و الذكاء الأصطناعي إلى المهتمين بسهولة كبيرة جداً .
أخيراً :
نتمنى لك قراءة رائعة، لا تنسى قراءة هذه الصفحات المهمة، إخلاء المسوؤلية ، سياسة الخصوصية
و أيضاً تسجيل رأيك حول “هذا المقال”
شاركنا رأيك عبر صفحاتنا على مواقع التواصل الأجتماعي و أيضاً لا تنسى متابعتنا : (فيسبوك ، انستغرام ،تويتر)
شاهد أيضاً :
تطوير الذكاء الاصطناعي في “ميتا” لتحسين تجربة الفيديو | 2024
جوجل تطلق تحديثًا جديدًا لمحرك البحث لمكافحة الصفحات الزائدة والمحتوى غير المرغوب به
كيفية أدارة مواقع التواصل الأجتماعي بنجاح | الأخطاء التي يقع بها المبتدئين