اختر صفحة

سباق سري بين شركات التكنولوجيا لشراء بيانات تدريب الذكاء الاصطناعي

الصفحة الرئيسية » الأعمال » سباق سري بين شركات التكنولوجيا لشراء بيانات تدريب الذكاء الاصطناعي

في ذروتها في أوائل العقد الأول من القرن الحادي والعشرين، كان فوتوباكيت (Photobucket) أفضل موقع لاستضافة الصور في العالم. كانت بمثابة العمود الفقري للخدمات التي كانت رائجة في السابق مثل ماي سبيس (Myspace) وفريندستر (Friendster)، وتضم 70 مليون مستخدم وتمثل ما يقرب من نصف سوق الصور عبر الإنترنت في الولايات المتحدة.

واليوم لا يزال هناك مليوني شخص فقط يستخدمون فوتوباكيت (Photobucket)، وفقًا لمتتبع التحليلات سيمويب (Sameweb). لكن ثورة الذكاء الاصطناعي التوليدي قد تمنحها فرصة جديدة للحياة.

قال الرئيس التنفيذي لشركة فوتوباكيت (Photobucket) تيد ليونارد – الذي يدير الشركة المكونة من 40 شخصًا ومقرها إدواردز بولاية كولورادو – إنه يجري محادثات مع العديد من شركات التكنولوجيا لترخيص 13 مليار صورة ومقطع فيديو من فوتوباكيت (Photobucket) لاستخدامها في تدريب نماذج الذكاء الاصطناعي التوليدية التي يمكنها إنتاج محتوى جديد استجابةً للمطالبات النصية.

وقال إنه ناقش أسعارًا تتراوح بين 5 سنتات ودولارًا واحدًا لكل صورة وأكثر من دولار واحد لكل مقطع فيديو، مع تباين الأسعار بشكل كبير حسب المشتري وأنواع الصور المطلوبة.

وأضاف ليونارد: “لقد تحدثنا إلى الشركات التي قالت: “نحن بحاجة إلى المزيد””، حيث أخبره أحد المشترين أنهم يريدون أكثر من مليار مقطع فيديو، أكثر مما تمتلكه منصته.

ورفضت شركة فوتوباكيت (Photobucket) تحديد هوية المشترين المحتملين، بحجة السرية التجارية. تشير المفاوضات الجارية، والتي لم يتم الإبلاغ عنها سابقًا، إلى أن الشركة يمكن أن تجلس على محتوى بقيمة مليارات الدولارات وتعطي لمحة عن سوق البيانات الصاخب الذي ينشأ في الاندفاع للسيطرة على تكنولوجيا الذكاء الاصطناعي التوليدية.

استخدم عمالقة التكنولوجيا مثل غوغل (Google) وميتا (Meta) وأوبن ايه آي (OpenAI) المدعومة من مايكروسوفت (Microsoft) في البداية مجموعات من البيانات المأخوذة من الإنترنت مجانًا لتدريب نماذج الذكاء الاصطناعي التوليدية مثل تشات جي بي تي (ChatGPT) التي يمكنها محاكاة الإبداع البشري. لقد قالوا إن القيام بذلك أمر قانوني وأخلاقي، على الرغم من أنهم يواجهون دعاوى قضائية من سلسلة من أصحاب حقوق الطبع والنشر بشأن هذه الممارسة.

في الوقت نفسه، تدفع شركات التكنولوجيا هذه أيضًا بهدوء مقابل المحتوى المقفل خلف نظام حظر الاشتراك غير المدفوع وشاشات تسجيل الدخول، مما يؤدي إلى تجارة مخفية في كل شيء بدءًا من سجلات الدردشة إلى الصور الشخصية المنسية منذ فترة طويلة من تطبيقات الوسائط الاجتماعية الباهتة.

وقال إدوارد كلاريس من شركة المحاماة كلاريس لو (Klaris Law): “هناك اندفاع الآن للبحث عن أصحاب حقوق الطبع والنشر الذين لديهم مجموعات خاصة من الأشياء غير المتاحة لاستخراجها”. تقول كلاريس لو (Klaris Law) إنها تقدم المشورة لأصحاب المحتوى بشأن صفقات تبلغ قيمتها عشرات الملايين من الدولارات لترخيص أرشيفات الصور والأفلام والكتب للتدريب على الذكاء الاصطناعي

تحدثت رويترز مع أكثر من 30 شخصًا على دراية بصفقات بيانات الذكاء الاصطناعي، بما في ذلك المديرين التنفيذيين الحاليين والسابقين في الشركات المعنية، والمحامين والاستشاريين، لتقديم أول استكشاف متعمق لهذه السوق الوليدة – مع تفصيل أنواع المحتوى الذي يتم شراؤه والأسعار. تتحقق، بالإضافة إلى المخاوف الناشئة بشأن خطر وصول البيانات الشخصية إلى نماذج الذكاء الاصطناعي دون معرفة الناس أو موافقتهم الصريحة.

رفضت كل من أوبن ايه آي (OpenAI) وغوغل (Google) وميتا (Meta) ومايكروسوفت (Microsoft) وأبل (Apple) وأمازون (Amazon.com) التعليق على صفقات بيانات محددة ومناقشات لهذه المقالة، على الرغم من أن مايكروسوفت (Microsoft) وغوغل (Google) أحالت رويترز إلى قواعد سلوك الموردين التي تتضمن أحكام خصوصية البيانات.

وأضافت غوغل (Google) أنها “ستتخذ إجراءً فوريًا يصل إلى ويتضمن إنهاء” اتفاقيتها مع المورد إذا اكتشفت انتهاكًا.

تقول العديد من شركات أبحاث السوق الكبرى إنها لم تبدأ حتى في تقدير حجم سوق بيانات الذكاء الاصطناعي الغامض، حيث لا تكشف الشركات في كثير من الأحيان عن الاتفاقيات. ويقدر الباحثون الذين يفعلون ذلك – مثل بيزنس ريسيرش إنسايتس (Business Research Insights) – السوق بنحو 2.5 مليار دولار الآن ويتوقعون أنها يمكن أن تنمو بما يقرب من 30 مليار دولار في غضون عقد من الزمن.

طفرة البيانات التوليدية

يأتي الاستيلاء على البيانات في الوقت الذي يواجه فيه صانعو نماذج “أساسيات” الذكاء الاصطناعي الكبيرة ضغوطًا متزايدة لحساب الكميات الهائلة من المحتوى الذي يغذونه في أنظمتهم، وهي عملية تُعرف باسم “التدريب” والتي تتطلب قوة حاسوبية مكثفة وغالبًا ما تستغرق أشهرًا لإكمالها.

تقول شركات التكنولوجيا إن التكنولوجيا ستكون باهظة التكلفة إذا لم تتمكن من استخدام أرشيفات ضخمة من بيانات صفحات الويب المسروقة المجانية، مثل تلك التي يوفرها مستودع كومون كراول (Common Crawl) غير الربحي، والذي يصفونه بأنه “متاح للعامة”.

ومع ذلك، فقد أثار نهجهم موجة من الدعاوى القضائية المتعلقة بحقوق الطبع والنشر والضغوط التنظيمية، في حين حث الناشرين على إضافة تعليمات برمجية إلى مواقعهم الإلكترونية لمنع النسخ.

استجابةً لذلك، بدأ صانعو نماذج الذكاء الاصطناعي في التحوط ضد المخاطر وتأمين سلاسل توريد البيانات، سواء من خلال الصفقات مع مالكي المحتوى أو عبر صناعة مزدهرة من وسطاء البيانات التي ظهرت لتلبية الطلب.

في الأشهر التي تلت ظهور تشات جي بي تي (ChatGPT) لأول مرة في أواخر عام 2022، على سبيل المثال، أبرمت شركات بما في ذلك ميتا (Meta) وغوغل (Google) وأمازون (Amazon.com) وأبل (Apple) اتفاقيات مع مزود الصور شاترستوك (Shutterstock) لاستخدام مئات الملايين من الصور ومقاطع الفيديو وملفات الموسيقى في مكتبتها للتدريب، وفقًا لشخص مطلع على الترتيبات.

وقال جارود ياهيس المدير المالي لشركة شاترستوك (Shutterstock) لرويترز إن الصفقات مع شركات التكنولوجيا الكبرى تراوحت في البداية بين 25 مليون دولار و50 مليون دولار لكل منها، على الرغم من توسيع معظمها لاحقًا. وأضاف أن شركات التكنولوجيا الصغيرة حذت حذوها، مما أدى إلى “موجة جديدة من النشاط” في الشهرين الماضيين.

ورفض ياهيس التعليق على العقود الفردية. لم يتم الإعلان عن اتفاقية أبل (Apple) وحجم الصفقات الأخرى من قبل.

وقالت شركة فريبيك (Freepik) – إحدى الشركات المنافسة لشاترستوك (Shutterstock) – لرويترز إنها أبرمت اتفاقيات مع شركتين كبيرتين للتكنولوجيا لترخيص غالبية أرشيفها الذي يضم 200 مليون صورة بسعر يتراوح بين 2 إلى 4 سنتات لكل صورة. وقال خواكين كوينكا أبيلا الرئيس التنفيذي للشركة إن هناك خمس صفقات مماثلة أخرى في طور الإعداد، رافضًا تحديد المشترين.

كما وقعت شركة أوبن ايه آي (OpenAI) – وهي أحد عملاء شاترستوك (Shutterstock) الأوائل – اتفاقيات ترخيص مع أربع مؤسسات إخبارية على الأقل، بما في ذلك وكالة أسوشيتد برس (Associated Press) وأكسل سبرينغر (Axel Springer). وقالت مؤسسة تومسون رويترز – مالكة رويترز نيوز – بشكل منفصل إنها أبرمت صفقات لترخيص محتوى إخباري للمساعدة في تدريب نماذج لغوية كبيرة تعمل بالذكاء الاصطناعي، لكنها لم تكشف عن التفاصيل.

محتوى “من مصادر أخلاقية”

تظهر أيضًا صناعة شركات بيانات مخصصة للذكاء الاصطناعي، مما يضمن حقوق محتوى العالم الحقيقي مثل البودكاست ومقاطع الفيديو القصيرة والتفاعلات مع المساعدين الرقميين، بينما يقوم أيضًا ببناء شبكات من العاملين بعقود قصيرة الأجل لإنتاج مرئيات مخصصة وعينات صوتية من الصفر، على غرار اقتصاد العمل الحر الذي يشبه أوبرسك (Uber-esque) للبيانات.

وقالت دانييلا براغا الرئيس التنفيذي لشركة ديفايند (Defined.ai) ومقرها سياتل لرويترز إن شركة ديفايند (Defined.ai) تقوم بترخيص البيانات لمجموعة من الشركات بما في ذلك غوغل (Google) وميتا (Meta) وأبل (Apple) وأمازون (Amazon.com) ومايكروسوفت (Microsoft).

تختلف الأسعار حسب المشتري ونوع المحتوى، لكن براغا قالت إن الشركات مستعدة عمومًا لدفع دولار إلى دولارين لكل صورة، ومن 2 إلى 4 دولارات لكل مقطع فيديو قصير، و100 إلى 300 دولار لكل ساعة من الأفلام الطويلة. وأضافت أن سعر السوق للنص هو 0.001 دولار لكل كلمة.

وقالت إن صور العري – التي تتطلب معالجة أكثر حساسية – تباع بسعر يتراوح بين 5 إلى 7 دولارات.

وقالت براغا إن شركة ديفايند (Defined.ai) تقوم بتقسيم هذه الأرباح مع موفري المحتوى. وأضافت أنها تقوم بتسويق مجموعات البيانات الخاصة بها على أنها “من مصادر أخلاقية”، حيث تحصل على موافقة من الأشخاص الذين تستخدم بياناتهم وتحذف معلومات التعريف الشخصية.

وقال أحد موردي الشركة – وهو رجل أعمال مقيم في البرازيل – إنه يدفع لأصحاب الصور والبودكاست والبيانات الطبية التي يحصل عليها حوالي 20% إلى 30% من إجمالي مبالغ الصفقة.

وقال المورد – الذي تحدث بشرط عدم الكشف عن هويته – بسبب الحساسية التجارية، إن أغلى الصور في محفظته هي تلك المستخدمة لتدريب أنظمة الذكاء الاصطناعي التي تحظر محتوى مثل العنف التصويري الذي تحظره شركات التكنولوجيا.

ولتلبية هذه الطلبات، يحصل على صور لمسرح الجريمة وعنف الصراع والعمليات الجراحية – بشكل رئيسي من الشرطة والمصورين الصحفيين المستقلين وطلاب الطب، على التوالي – غالبًا في أماكن في أمريكا الجنوبية وأفريقيا حيث يكون توزيع الصور الرسومية أكثر شيوعًا.

وقال إنه تلقى صورًا من مصورين مستقلين في غزة منذ بدء الحرب هناك في أكتوبر / تشرين الأول، بالإضافة إلى بعض الصور من إسرائيل.

وأضاف أن شركته تقوم بتعيين ممرضات معتادات على رؤية الإصابات العنيفة لإخفاء هوية الصور والتعليق عليها، الأمر الذي يزعج العيون غير المدربة.

أمر محفوف بالمخاطر

في حين أن الترخيص يمكن أن يحل بعض القضايا القانونية والأخلاقية، فإن إحياء أرشيفات أسماء الإنترنت القديمة مثل فوتوباكيت (Photobucket) كوقود لأحدث نماذج الذكاء الاصطناعي يثير قضايا أخرى، لا سيما فيما يتعلق بخصوصية المستخدم، وفقًا للعديد من اللاعبين في الصناعة الذين تمت مقابلتهم.

لقد تم ضبط أنظمة الذكاء الاصطناعي وهي تقوم بإعادة نسخ طبق الأصل من بيانات التدريب الخاصة بها، حيث تقوم على سبيل المثال بإخراج العلامة المائية لغيتي إميجز (Getty Images) والفقرات الحرفية من مقالات صحيفة نيويورك تايمز وصور لأشخاص حقيقيين. وهذا يعني أن الصور الخاصة أو الأفكار الحميمية الخاصة بشخص ما والتي تم نشرها منذ عقود من الزمن يمكن أن تنتهي في نهاية المطاف في مخرجات الذكاء الاصطناعي دون إشعار أو موافقة صريحة.

يقول ليونارد الرئيس التنفيذي لشركة فوتوباكيت (Photobucket) إنه يقف على أساس قانوني متين، مشيرًا إلى تحديث لشروط خدمة الشركة في أكتوبر / تشرين الأول يمنحها “الحق غير المقيد” لبيع أي محتوى تم تحميله بغرض تدريب أنظمة الذكاء الاصطناعي. ويرى أن بيانات الترخيص بديل لبيع الإعلانات.

وقال: “نحن بحاجة إلى دفع فواتيرنا، وهذا قد يمنحنا القدرة على الاستمرار في دعم الحسابات المجانية”.

قالت براغا من ديفايند (Defined.ai) إنها تتجنب الحصول على محتوى من شركات “المنصة” مثل فوتوباكيت (Photobucket) وتفضل الحصول على صور وسائل التواصل الاجتماعي من الأشخاص المؤثرين الذين يقومون بإنشائها، والذين قالت إن لديهم مطالبة أكثر وضوحًا بحقوق الترخيص.

قالت براغا عن محتوى المنصة: “سأجد الأمر محفوفًا بالمخاطر للغاية. إذا كان هناك بعض الذكاء الاصطناعي الذي يولد شيئًا يشبه صورة شخص لم يوافق على ذلك مطلقًا، فهذه مشكلة”.

إن فوتوباكيت (Photobucket) ليست الوحيدة بين المنصات التي تتبنى الترخيص. لقالت شركة أوتوماتيك (Automattic) – وهي الشركة الأم لتمبلر (Tumblr) – الشهر الماضي إنها تشارك المحتوى مع “شركات مختارة تعمل في مجال الذكاء الاصطناعي”. في فبراير / شباط، ذكرت رويترز أن ريديت (Reddit) أبرمت صفقة مع غوغل (Google) لإتاحة محتواها لتدريب نماذج الذكاء الاصطناعي الخاصة بالأخيرة.

قبل طرحها العام الأولي في شهر مارس / آذار، كشفت ريديت (Reddit) أن أعمالها المتعلقة بترخيص البيانات هي موضوع تحقيق تجريه لجنة التجارة الفيدرالية الأمريكية، وأقرت بأنها قد تقع تحت طائلة لوائح الخصوصية والملكية الفكرية المتطورة.

ورفضت لجنة التجارة الفيدرالية – التي حذرت الشركات في فبراير / شباط من تغيير شروط الخدمة لاستخدام الذكاء الاصطناعي بأثر رجعي – التعليق على استفسار ريديت (Reddit) أو تحديد ما إذا كانت تبحث في صفقات بيانات تدريب أخرى.

اقرأ أيضًا بكين تدفع سينغينتا لسحب طرح عام أولي بقيمة 9 مليارات دولار في شنغهاي

المصدر: رويترز

ربما يعجبك أيضا…

0 تعليق

إرسال تعليق

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

اشترك في نشرتنا الإخبارية
اشترك في نشرتنا الإخبارية

انضم إلى قائمتنا البريدية لتلقي آخر الأخبار والتحديثات من فريقنا.

لقد تم اشتراكك بنجاح!

Share This