أخبار العالم

يريد Spawning إنشاء مجموعات بيانات أكثر أخلاقية للتدريب على الذكاء الاصطناعي


قام جوردان ماير وماثيو درايهيرست بتأسيس Spawning AI لإنشاء أدوات تساعد الفنانين على ممارسة المزيد من التحكم في كيفية استخدام أعمالهم عبر الإنترنت. ويهدف مشروعهم الأخير، المسمى Source.Plus، إلى تنظيم الوسائط “غير المخالفة” للتدريب على نماذج الذكاء الاصطناعي.

المبادرة الأولى لمشروع Source.Plus عبارة عن مجموعة بيانات تحتوي على ما يقرب من 40 مليون صورة وصورة للملكية العامة بموجب ترخيص Creative Commons CC0، والذي يسمح للمبدعين بالتنازل عن جميع المصالح القانونية تقريبًا في أعمالهم. يدعي ماير أنه على الرغم من أنها أصغر بكثير من بعض بيانات التدريب على الذكاء الاصطناعي الأخرى، إلا أن مجموعة بيانات Source.Plus هي بالفعل “عالية الجودة” بما يكفي لتدريب نموذج حديث لتوليد الصور. .

وقال ماير: “مع Source.Plus، نقوم ببناء منصة عالمية للاشتراك”. “هدفنا هو أن نسهل على أصحاب الحقوق تقديم الوسائط الخاصة بهم لاستخدامها في تدريب الذكاء الاصطناعي التوليدي – وفقًا لشروطهم الخاصة – ويسهل على المطورين دمج تلك الوسائط في سير عمل التدريب الخاص بهم.”

إدارة الحقوق

لا يزال الجدل حول أخلاقيات تدريب نماذج الذكاء الاصطناعي التوليدية، وخاصة النماذج المولدة للفنون مثل Stable Diffusion وDALL-E 3 من OpenAI، مستمرًا بلا هوادة – وله آثار هائلة على الفنانين ولكن ينتهي الأمر بالغبار.

“تتعلم” نماذج الذكاء الاصطناعي التوليدية كيفية إنتاج مخرجاتها (على سبيل المثال، الفن الواقعي) من خلال التدريب على كمية هائلة من البيانات ذات الصلة – الصور، في هذه الحالة. يجادل بعض مطوري هذه النماذج بأن الاستخدام العادل يخولهم سرقة البيانات من المصادر العامة، بغض النظر عن حالة حقوق الطبع والنشر لتلك البيانات. حاول آخرون الالتزام بالخط، وتعويض مالكي المحتوى أو على الأقل منحهم الفضل لمساهماتهم في مجموعات التدريب.

يعتقد ماير، الرئيس التنفيذي لشركة Spawning، أنه لم يستقر أحد على النهج الأفضل حتى الآن.

وقال لـ TechCrunch في مقابلة: “يعتمد تدريب الذكاء الاصطناعي في كثير من الأحيان على استخدام أسهل البيانات المتاحة، والتي لم تكن دائمًا المصدر الأكثر عدلاً أو مسؤولية”. “لم يكن لدى الفنانين وأصحاب الحقوق سوى القليل من السيطرة على كيفية استخدام بياناتهم للتدريب على الذكاء الاصطناعي، ولم يكن لدى المطورين بدائل عالية الجودة تجعل من السهل احترام حقوق البيانات.”

يعتمد Source.Plus، المتوفر في نسخة تجريبية محدودة، على أدوات Spawning الحالية لإدارة مصادر الفن وحقوق الاستخدام.

في عام 2022، أنشأت Spawning موقع HaveIBeenTrained، وهو موقع ويب يسمح للمبدعين بإلغاء الاشتراك في مجموعات بيانات التدريب التي يستخدمها البائعون الذين عقدوا شراكة مع Spawning، بما في ذلك Hugging Face وStability AI. بعد جمع 3 ملايين دولار من رأس المال الاستثماري من المستثمرين، بما في ذلك True Ventures وSeed Club Ventures، طرحت Spawning تقنية ai.text، وهي طريقة لمواقع الويب “لتعيين أذونات” للذكاء الاصطناعي، ونظام – Kudurru – للدفاع ضد روبوتات تجريف البيانات. .

Source.Plus هو أول جهد لـ Spawning لإنشاء مكتبة وسائط — وتنظيم تلك المكتبة داخل الشركة. ويقول ماير إن مجموعة بيانات الصور الأولية، PD/CC0، يمكن استخدامها في التطبيقات التجارية أو البحثية.

مكتبة Source.Plus.
اعتمادات الصورة: وضع البيض

“Source.Plus ليس مجرد مستودع لبيانات التدريب؛ إنها منصة إثرائية تحتوي على أدوات لدعم مسار التدريب. “هدفنا هو الحصول على مجموعة بيانات CC0 عالية الجودة وغير مخالفة وقادرة على دعم نموذج أساسي قوي للذكاء الاصطناعي متاح خلال العام.”

تدعي المنظمات، بما في ذلك Getty Images، وAdobe، وShutterstock، وشركة Bria الناشئة للذكاء الاصطناعي، أنها تستخدم فقط البيانات ذات المصادر العادلة للتدريب النموذجي. (تذهب جيتي إلى حد وصف منتجات الذكاء الاصطناعي التوليدية بأنها “آمنة تجاريًا”.) لكن ماير يقول إن شركة Spawning تهدف إلى وضع “سقف أعلى” لما يعنيه الحصول على البيانات بشكل عادل.

يقوم Source.Plus بتصفية الصور من أجل “إلغاء الاشتراك” وتفضيلات تدريب الفنانين الأخرى، مما يعرض معلومات المصدر حول كيفية الحصول على الصور ومن أين تم الحصول عليها. كما أنه يستثني الصور غير المرخصة بموجب CC0، بما في ذلك تلك التي تحمل ترخيص Creative Commons BY 1.0، والتي تتطلب الإسناد. وتقول Spawning إنها تراقب تحديات حقوق الطبع والنشر من المصادر التي يكون فيها شخص آخر غير المبدعين مسؤولاً عن الإشارة إلى حالة حقوق الطبع والنشر للعمل، مثل Wikimedia Commons.

وقال ماير: “لقد تحققنا بدقة من صحة التراخيص المبلغ عنها للصور التي جمعناها، وتم استبعاد أي تراخيص مشكوك فيها – وهي خطوة لا تتخذها العديد من مجموعات البيانات “العادلة”.

تاريخيًا، ابتليت الصور الإشكالية – بما في ذلك الصور الشخصية العنيفة والإباحية والحساسة – بمجموعات بيانات التدريب المفتوحة والتجارية على حد سواء.

أُجبر القائمون على مجموعة بيانات LAION على سحب مكتبة واحدة دون اتصال بالإنترنت بعد أن كشفت التقارير عن سجلات طبية وصور للاعتداء الجنسي على الأطفال؛ وفي هذا الأسبوع فقط، وجدت دراسة أجرتها هيومن رايتس ووتش أن أحد مستودعات LAION تضمنت وجوه أطفال برازيليين دون موافقة هؤلاء الأطفال أو علمهم. وفي مكان آخر، تم العثور على مكتبة الوسائط الخاصة بشركة Adobe، Adobe Stock، والتي تستخدمها الشركة لتدريب نماذج الذكاء الاصطناعي التوليدية، بما في ذلك نموذج Firefly Image المولد للفن، تحتوي على صور تم إنشاؤها بواسطة الذكاء الاصطناعي من منافسين مثل Midjourney.

مصدر التفريخ
العمل الفني في معرض Source.Plus.
اعتمادات الصورة: وضع البيض

الحل الذي تقدمه Spawning هو نماذج مصنفة مدربة على اكتشاف العري والدماء ومعلومات التعريف الشخصية والأجزاء الأخرى غير المرغوب فيها في الصور. يقول ماير، مع إدراكه أنه لا يوجد مصنف مثالي، يخطط Spawning للسماح للمستخدمين بتصفية مجموعة بيانات Source.Plus “بمرونة” عن طريق ضبط عتبات اكتشاف المصنفات.

وأضاف ماير: “نحن نوظف مشرفين للتحقق من ملكية البيانات”. “لدينا أيضًا ميزات معالجة مدمجة، حيث يمكن للمستخدمين الإبلاغ عن الأعمال المخالفة أو المخالفة المحتملة، ويمكن تدقيق مسار كيفية استهلاك تلك البيانات.”

تعويض

معظم البرامج الخاصة بتعويض منشئي المحتوى عن مساهماتهم في بيانات التدريب على الذكاء الاصطناعي لم تسير بشكل جيد بشكل استثنائي. تعتمد بعض البرامج على مقاييس مبهمة لحساب عوائد منشئي المحتوى، بينما يدفع البعض الآخر مبالغ يعتبرها الفنانون منخفضة بشكل غير معقول.

خذ شترستوك، على سبيل المثال. مكتبة وسائط الأسهم، التي أبرمت صفقات مع بائعي الذكاء الاصطناعي تتراوح قيمتها بين عشرات الملايين من الدولارات، تدفع إلى “صندوق المساهمين” مقابل الأعمال الفنية التي تستخدمها لتدريب نماذج الذكاء الاصطناعي التوليدية أو تراخيص مطوري الطرف الثالث. لكن موقع Shutterstock ليس شفافًا بشأن ما يمكن أن يتوقع الفنانون كسبه، كما أنه لا يسمح للفنانين بتحديد الأسعار والشروط الخاصة بهم؛ يقدر أحد الأطراف الثالثة أن الأرباح تصل إلى 15 دولارًا مقابل 2000 صورة، وهو ليس مبلغًا مذهلاً تمامًا.

بمجرد خروج Source.Plus من الإصدار التجريبي في وقت لاحق من هذا العام والتوسع ليشمل مجموعات بيانات تتجاوز PD/CC0، فسوف يتخذ مسارًا مختلفًا عن المنصات الأخرى، مما يسمح للفنانين وأصحاب الحقوق بتحديد الأسعار الخاصة بهم لكل تنزيل. سوف يتقاضى التفريخ رسومًا، ولكن بمعدل ثابت فقط – “عُشر فلس”، كما يقول ماير.

يمكن للعملاء أيضًا اختيار دفع 10 دولارات شهريًا – بالإضافة إلى رسوم التنزيل النموذجية لكل صورة – مقابل Source.Plus Curation، وهي خطة اشتراك تسمح لهم بإدارة مجموعات من الصور بشكل خاص، وتنزيل مجموعة البيانات حتى 10000 مرة شهريًا واكتساب المزيد الوصول إلى الميزات الجديدة، مثل المجموعات “المميزة” وإثراء البيانات، مبكرًا.

مصدر التفريخ
اعتمادات الصورة: وضع البيض

وقال ماير: “سنقدم إرشادات وتوصيات بناءً على معايير الصناعة الحالية والمقاييس الداخلية، ولكن في النهاية، يحدد المساهمون في مجموعة البيانات ما يجعلها جديرة بالاهتمام بالنسبة لهم”. “لقد اخترنا نموذج التسعير هذا عمدًا لمنح الفنانين نصيب الأسد من الإيرادات والسماح لهم بتحديد شروطهم الخاصة للمشاركة. نعتقد أن تقسيم الإيرادات هذا أكثر ملاءمة للفنانين من تقسيم الإيرادات الأكثر شيوعًا، وسيؤدي إلى دفعات أعلى وشفافية أكبر.

في حالة حصول Source.Plus على الاهتمام الذي تأمل Spawning أن تفعله، تعتزم Spawning توسيعه إلى ما هو أبعد من الصور ليشمل أنواعًا أخرى من الوسائط أيضًا، بما في ذلك الصوت والفيديو. تجري Spawning مناقشات مع شركات لم تذكر اسمها لإتاحة بياناتها على Source.Plus. ويقول ماير إن شركة Spawning قد تبني نماذج الذكاء الاصطناعي التوليدية الخاصة بها باستخدام بيانات من مجموعات بيانات Source.Plus.

وقال ماير: “نأمل أن تتاح لأصحاب الحقوق الذين يرغبون في المشاركة في اقتصاد الذكاء الاصطناعي التوليدي الفرصة للقيام بذلك والحصول على تعويض عادل”. “نأمل أيضًا أن تتاح الفرصة للفنانين والمطورين الذين شعروا بالتضارب بشأن التعامل مع الذكاء الاصطناعي للقيام بذلك بطريقة تحترم المبدعين الآخرين.”

من المؤكد أن التفريخ لديه مكانة مناسبة هنا. يبدو Source.Plus بمثابة إحدى المحاولات الواعدة لإشراك الفنانين في عملية تطوير الذكاء الاصطناعي التوليدي – والسماح لهم بالمشاركة في الأرباح من عملهم.

كما كتبت زميلتي أماندا سيلبرلينج مؤخرًا، فإن ظهور تطبيقات مثل مجتمع استضافة الفنون Cara، الذي شهد زيادة في الاستخدام بعد أن أعلنت Meta أنها قد تقوم بتدريب الذكاء الاصطناعي التوليدي على المحتوى من Instagram، بما في ذلك محتوى الفنان، يظهر أن المجتمع الإبداعي قد وصل نقطة الانهيار. إنهم في حاجة ماسة إلى بدائل للشركات والمنصات التي يعتبرونها لصوصًا – وقد يكون Source.Plus مجرد بديل قابل للتطبيق.

ولكن إذا كانت Spawning تعمل دائمًا في مصلحة الفنانين (احتمال كبير، مع الأخذ في الاعتبار أن Spawning هي شركة مدعومة من رأس المال الاستثماري)، فأنا أتساءل عما إذا كان بإمكان Source.Plus التوسع بنجاح كما يتصور ماير. إذا علمتنا وسائل التواصل الاجتماعي أي شيء، فهو أن الاعتدال – وخاصة بالنسبة لملايين الأجزاء من المحتوى الذي ينشئه المستخدمون – يمثل مشكلة مستعصية.

سوف نكتشف قريبا بما فيه الكفاية.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى