البيانات تعتبر الأساس لأنظمة الذكاء الاصطناعي المتقدمة اليوم، لكن تكلفتها تتزايد بشكل يجعلها متاحة فقط لأغنى الشركات التقنية.
في العام الماضي، كتب جيمس بيتكر، الباحث في OpenAI، مقالاً على مدونته الشخصية حول طبيعة نماذج الذكاء الاصطناعي التوليدية ومجموعات البيانات المستخدمة في تدريبها. في هذا المقال، أكد بيتكر أن بيانات التدريب، وليس تصميم النموذج أو هيكله أو أي خاصية أخرى، هي العامل الرئيسي في تطوير الأنظمة الذكية والمتقدمة.
وقال بيتكر: “عند تدريب النماذج على نفس مجموعة البيانات لفترة كافية، يتقارب كل نموذج تقريبًا إلى نفس النقطة”.
فهل بيتكر محق؟ هل بيانات التدريب هي العامل الأكبر الذي يحدد ما يمكن أن يفعله النموذج، سواء كان ذلك الإجابة على سؤال، رسم أيدي بشرية، أو إنشاء منظر مدينة واقعي؟
يبدو أن هذا الأمر ممكن للغاية.
آلات إحصائية
أنظمة الذكاء الاصطناعي التوليدية هي في الأساس نماذج إحصائية تعتمد على كميات ضخمة من البيانات. تقوم هذه النماذج بالتخمين بناءً على العديد من الأمثلة أي البيانات تكون “الأكثر منطقية” لوضعها في مواضع معينة (مثل الكلمة “أذهب” قبل “إلى السوق” في الجملة “أذهب إلى السوق”). بديهيًا، كلما زادت الأمثلة التي تمتلكها النماذج، كان أداؤها أفضل.
كايل لو، الباحث البارز في معهد ألين للذكاء الاصطناعي (AI2)، أشار في حديثه لـ TechCrunch إلى أن “التحسينات في الأداء تأتي من البيانات”، وأضاف: “على الأقل بمجرد أن يكون لديك إعداد تدريب مستقر.” قدم لو مثالًا على نموذج النصوص التوليدية Llama 3 من Meta، الذي أطلق في وقت سابق هذا العام، ويتفوق على نموذج OLMo الخاص بـ AI2 رغم التشابه الكبير في الهيكلية. تم تدريب Llama 3 على بيانات أكثر بكثير من OLMo، ويعتقد لو أن هذا يفسر تفوقه في العديد من معايير الذكاء الاصطناعي.
يجدر بالذكر أن المعايير المستخدمة على نطاق واسع في صناعة الذكاء الاصطناعي اليوم ليست بالضرورة أفضل مقياس لأداء النموذج، ولكنها واحدة من المقاييس القليلة المتاحة خارج الاختبارات النوعية.
ومع ذلك، هذا لا يعني أن التدريب على مجموعات بيانات أكبر هو دائمًا السبيل لنماذج أفضل. تعمل النماذج على مبدأ “القمامة في، القمامة خارج”، ويشير لو إلى أن جودة البيانات وإدارتها هما الأهم، ربما أكثر من الكمية نفسها.
وأضاف: “من الممكن أن يتفوق نموذج صغير ذو بيانات مصممة بعناية على نموذج كبير”. “على سبيل المثال، يحتل نموذج Falcon 180B، وهو نموذج كبير، المرتبة 63 في معيار LMSYS، بينما يحتل نموذج Llama 2 13B، وهو أصغر بكثير، المرتبة 56.”
في مقابلة مع TechCrunch في أكتوبر الماضي، قال باحث OpenAI غابرييل جوه إن التوضيحات عالية الجودة ساهمت بشكل كبير في تحسين جودة الصور في DALL-E 3، نموذج النص إلى صورة من OpenAI، مقارنةً بسابقه DALL-E 2. وأضاف: “أعتقد أن هذا هو المصدر الرئيسي للتحسينات”. “التوضيحات النصية أفضل بكثير مما كانت عليه في [DALL-E 2] – لا يوجد حتى مقارنة.”
تُدرَّب العديد من نماذج الذكاء الاصطناعي، بما في ذلك DALL-E 3 وDALL-E 2، عن طريق جعل المعلقين البشريين يصنفون البيانات بحيث يمكن للنموذج أن يتعلم ربط هذه التصنيفات بالخصائص المرصودة لتلك البيانات. على سبيل المثال، النموذج الذي يتم تغذيته بالكثير من صور القطط مع توضيحات لكل سلالة سيتعلم في النهاية ربط مصطلحات مثل “بوبتيل” و”شورتهير” بسماتها البصرية المميزة.
سلوك سيئ
يعبر الخبراء، مثل لو، عن قلقهم بشأن التركيز المتنامي على مجموعات بيانات التدريب الضخمة والعالية الجودة، الأمر الذي يمكن أن يؤدي إلى تركيز تطوير التكنولوجيا الذكية في يد قلة من الشركات الضخمة التي تمتلك ميزانيات بليونات الدولارات وتستطيع تحمل تكاليف اقتناء هذه المجموعات. قد تحدث تغييرات كبيرة في البيانات الاصطناعية أو الهيكل الأساسي لها في المستقبل، ولكن لا يبدو أن هذا الأمر سيحدث في الوقت الحالي.
“بشكل عام، تعمل الكيانات التي تدير المحتوى الذي يمكن أن يكون مفيدًا لتطوير التكنولوجيا الذكية على تأمين موادها”، كما صرح لو. “ومع إغلاق الوصول إلى البيانات، نقوم في الأساس بتهيئة الطريق لبعض الشركات الرائدة في اقتناء البيانات ونرفع السلم حتى لا يمكن لأي شخص آخر الوصول إلى البيانات ومواكبة التطورات.”
فعلاً، لم يؤدِ السعي للحصول على المزيد من بيانات التدريب إلى سلوك غير أخلاقي (وقد يكون غير قانوني)، مثل تجميع المحتوى المحمي بحقوق النشر بسرية، ولكنه قد مكَّن العمالقة التكنولوجيين، الذين يتمتعون بميزانيات ضخمة، من الاستفادة من تراخيص البيانات.
تدرب نماذج الذكاء الاصطناعي التوليدية، مثل تلك التابعة لشركة OpenAI، بشكل رئيسي على الصور والنصوص والصوتيات ومقاطع الفيديو وغيرها من البيانات، بما في ذلك بعض المحتوى المحمي بحقوق النشر، المستمد من صفحات الويب العامة (ومن ضمنها البيانات التي تم إنشاؤها باستخدام التكنولوجيا الذكية). تُدعي الشركات مثل OpenAI أن حق استخدام المحتوى بموجب قوانين الاستخدام العادل يحميها من المساءلة القانونية، ولكن يختلف الرأي في هذا الأمر بين الحاملين لحقوق النشر – على الرغم من عدم قدرتهم على فعل الكثير في الوقت الحالي لمنع هذه الممارسة.
توجد العديد من الأمثلة على شركات الذكاء الاصطناعي التوليدية التي تقوم بالحصول على مجموعات بيانات ضخمة من خلال وسائل مشكوك فيها لتدريب نماذجها. على سبيل المثال، يُقال أن شركة OpenAI قامت بتحويل أكثر من مليون ساعة من مقاطع الفيديو على YouTube بدون موافقة من YouTube نفسها – أو موافقة الخالقين – لتغذية نموذجها الرئيسي GPT-4. وقامت شركة Google مؤخرًا بتوسيع شروط خدمتها جزئيًا للسماح لها بالاستفادة من مستندات Google العامة، وتقييمات المطاعم على خرائط Google، ومواد أخرى عبر الإنترنت لمنتجاتها الذكاء الاصطناعي. ويُقال أن شركة Meta افتكرت المخاطر لتدريب نماذجها على محتوى محمي بحقوق الملكية الفكرية.
في الوقت نفسه، تعتمد الشركات الكبيرة والصغيرة على العمال في البلدان النامية الذين يتقاضون أجورًا زهيدة فقط لإنشاء توضيحات لمجموعات البيانات
تكلفة متزايدة
ببساطة، حتى إذا كانت صفقات البيانات أكثر شفافية، فإنها لا تعزز بالضرورة نظامًا مفتوحًا وعادلًا للذكاء الاصطناعي التوليدية.
صرفت OpenAI مئات الملايين من الدولارات على ترخيص محتوى من ناشري الأخبار ومكتبات الوسائط المتعددة وغيرها لتدريب نماذجها الذكاء الاصطناعي – ميزانية تتجاوز بكثير تلك التي تتوفر لمعظم مجموعات البحث الأكاديمية والمنظمات غير الربحية والشركات الناشئة. حتى Meta نظرت في اقتناء الناشر Simon & Schuster للحصول على حقوق مقتطفات الكتب الإلكترونية. ومع ذلك، فإن هذا التوسع في استخدام البيانات يضر بالمجتمع الأوسع للبحث في مجال الذكاء الاصطناعي.
من المتوقع أن ينمو سوق بيانات تدريب الذكاء الاصطناعي بشكل كبير، والذي يشير إلى زيادة في التكلفة. وقد أبرمت مكتبات الوسائط المتعددة صفقات مع بائعي الذكاء الاصطناعي بقيمة تصل إلى مئات الملايين من الدولارات. هذا يعرقل قدرة الشركات الصغيرة على تطوير نماذجها الخاصة بسبب الكلفة المرتفعة للبيانات.
“لا يمكن للشركات الصغيرة تحمل هذه التكاليف، مما يعرقل التطور والدراسة في مجال الذكاء الاصطناعي”، قال لو. “هذا يمكن أن يؤدي إلى نقص في الفحص المستقل لممارسات تطوير الذكاء الاصطناعي”.
الجهود المستقلة
في عالم مليء بالتحديات، هناك بعض الجهود الإيجابية التي تبث بعض الأمل. تأتي هذه الجهود من مبادرات مستقلة وغير ربحية تهدف إلى إنشاء مجموعات بيانات ضخمة يمكن للجميع الاستفادة منها لتدريب نماذج الذكاء الاصطناعي التوليدية.
من بين هذه المبادرات، تبرز فرقة EleutherAI، وهي مجموعة بحثية تطوعية بدأت كمجتمع صغير على منصة Discord في عام 2020، والتي تعمل بالتعاون مع جامعة تورنتو ومعهد AI2 وباحثين مستقلين لإنشاء “The Pile v2″، وهي مجموعة من مليارات المقاطع النصية تم جمعها بشكل رئيسي من المصادر العامة.
في أبريل، أطلقت شركة الذكاء الاصطناعي “Hugging Face” مشروع FineWeb، وهو نسخة مصفاة من Common Crawl – وهو مجموعة بيانات تضم مليارات صفحات الويب – والتي تزعم “Hugging Face” أنها تعزز أداء النماذج بشكل كبير.
على الرغم من وجود بعض التحديات، مثل المشاكل القانونية والأخلاقية المتعلقة بحقوق النشر والخصوصية، إلا أن بعض مبادرات إطلاق مجموعات بيانات مفتوحة، مثل مجموعة LAION للصور، تسعى جاهدة للتحسين والتطوير. على سبيل المثال، تعمل “The Pile v2” على إزالة المواد المحمية بحقوق النشر من مجموعتها.
لكن السؤال المطروح هو ما إذا كانت هذه الجهود المفتوحة قادرة على المنافسة مع الشركات التكنولوجية الكبيرة؟ طالما أن جمع البيانات وتنظيمها يتطلب موارد كبيرة، فمن المرجح أن الإجابة على هذا السؤال ستكون سلبية – على الأقل حتى يتم تحقيق اختراق بحثي يجعل الفرص متساوية.
الخلاصة
المقال يركز على أهمية بيانات التدريب في تطوير أنظمة الذكاء الاصطناعي التوليدية، مشيراً إلى أن البيانات تعتبر العامل الرئيسي في تحديث النماذج، وليس التصميم أو الهيكل. يؤكد الخبراء على أن النماذج التي تتلقى تدريباً على مجموعات بيانات أكبر تظهر أداءًا أفضل. ومع ذلك، يشيرون إلى ضرورة جودة البيانات وإدارتها بعناية، مشيرين إلى أن النماذج الصغيرة المدروسة قد تتفوق على النماذج الكبيرة. القلق يتمحور حول تركيز تطوير التكنولوجيا الذكية في أيدي الشركات الضخمة التي تمتلك موارد ضخمة، مما يمكن أن يؤدي إلى استحواذها على البيانات وتركيز السوق في يدها. تشير التقارير إلى أن بعض الشركات تقوم بجمع البيانات بطرق مشكوك فيها، مثل استخدام محتوى محمي بحقوق النشر بدون موافقة، أو الاعتماد على عمال في الدول النامية بأجور زهيدة لإنشاء محتوى.
المصدر:
موقع: techcrunch.com