GPT-4

يتقدم تطوير الذكاء الاصطناعي بسرعة، ولكن الوقود الذي يقف وراء هذه التطورات، وهو بيانات التدريب عالية الجودة، أصبح من الصعب الحصول عليه بشكل متزايد، ومؤخراً، سلطت صحيفة وول ستريت جورنال الضوء على التحديات التي تواجهها شركات الذكاء الاصطناعي في الحصول على مثل هذه البيانات، واستجابة لذلك، أبحرت شركات مثل OpenAI عبر المياه العكرة لقانون حقوق الطبع والنشر لجمع البيانات التي تحتاج إليها.

وكان أحد التكتيكات البارزة التي استخدمتها OpenAI هو النسخ لأكثر من مليون ساعة من مقاطع فيديو YouTube لتدريب أحدث طراز لها، GPT-4، ووفقاً لتقرير صادر عن صحيفة نيويورك تايمز، قامت شركة OpenAI بتطوير نموذج النسخ الصوتي Whisper لنسخ محتوى YouTube لتدريب GPT-4، وهذا النهج، على الرغم من أنه مشكوك فيه من الناحية القانونية، اعتبرته شركة OpenAI يقع ضمن نطاق الاستخدام العادل، وشارك جريج بروكمان، رئيس OpenAI، بشكل مباشر في جمع مقاطع الفيديو المستخدمة في النسخ.

Message Dialog

وأوضح المتحدث باسم OpenAI، ليندساي هيلد، أن الشركة تقوم بتخصيص مجموعات البيانات لكل نموذج لتعزيز فهمها للعالم، ويتم تنظيم مجموعات البيانات هذه من مصادر مختلفة، بما في ذلك البيانات المتاحة للجمهور والشراكات للبيانات غير العامة، وتستكشف الشركة أيضاً إمكانية إنشاء بيانات تركيبية لتعزيز جهودها التدريبية.

وبحلول عام 2021، كانت OpenAI قد استنفدت العديد من مصادر البيانات التقليدية وتحولت إلى نسخ مقاطع فيديو YouTube والبودكاست والكتب الصوتية، وقبل ذلك، استخدموا مجموعات بيانات متنوعة، بما في ذلك اكواد الكمبيوتر من GitHub، وقواعد بيانات تحركات الشطرنج، والمحتوى التعليمي من Quizlet.

ومع ذلك، أعربت شركة Google، الشركة الأم لموقع YouTube، عن مخاوفها بشأن الحذف أو التنزيل غير المصرح به لمحتوى YouTube، وتحظر ملفات robots.txt وشروط الخدمة مثل هذه الأنشطة، ومع ذلك، فقد أقرت جوجل بتدريب نماذجها باستخدام محتوى يوتيوب ضمن حدود الاتفاقيات المبرمة مع منشئي المحتوى.

وبالمثل، واجهت شركة ميتا (فيسبوك سابقاً) تحديات في الحصول على بيانات التدريب المناسبة، واستكشفت الشركة استراتيجيات مختلفة، بما في ذلك إمكانية شراء تراخيص الكتب أو حتى الاستحواذ على شركة نشر كبيرة، وأدت التغييرات التي تركز على الخصوصية في أعقاب فضيحة Cambridge Analytica إلى تقييد قدرات Meta على استخدام البيانات.

ويتصارع مجتمع تدريب الذكاء الاصطناعي الأوسع مع تناقص توافر بيانات التدريب عالية الجودة، وبينما تسعى شركات مثل OpenAI وGoogle جاهدة لتحسين نماذجها، فإنها تواجه حقيقة أنها قد تتفوق على إنشاء محتوى جديد بحلول عام 2028، كما لاحظت صحيفة وول ستريت جورنال.

ولمواجهة هذا التحدي، تستكشف الشركات أساليب بديلة مثل نماذج التدريب على البيانات الاصطناعية أو توظيف المناهج التعليمية، ومع ذلك، لم يتم إثبات هذه الأساليب بعد، وتلجأ بعض الشركات إلى استخدام أي بيانات يمكنها الوصول إليها، بغض النظر عن الأذونات، مما يؤدي إلى تعقيدات قانونية ودعاوى قضائية.



إقراء إيضاً : ألآن تستطيع استخدام chatgpt بدون حساب... متابعة القراءة

,Techcrumch ,the sun ,the verge,RT ,RT arabic,أر تي ,ذا فيرج , يورو نيوز , جي إس نيوز ,أر تي بالعربية,أر تي عربي ,مدونة المحترف,تك نيوز,نيوز تك,نيوز,اخبار نيوز,جي اس نيوز, Tech Crunch, , تك كرونش, تك كرنش, نيوز,Gs news, gsneos , Gs Neos,اخبار ,اخبار التكنولوجيا اليوم, الجزيرة, اكوا ويب,يوم 7,اليوم السابع ,بي بي سي, العربية,اخبار تقنية, اخبار متنوعة, اخبار الصحة, اخبار السيارات , اخبار الطب, اخبار الفضاء, العاب, العاب اونلاين, افلام, عملات رقمية، عملات مشفرة,7 يوم,أداة جديدة من OpenAI.. تم تدريبها باستخدام مليون ساعة من مقاطع يوتيوب!,أداة جديدة من OpenAI.. تم تدريبها باستخدام مقاطع يوتيوب,قام OpenAI بنسخ أكثر من مليون ساعة من مقاطع فيديو YouTube لتدريب GPT-4,أداة جديدة من OpenAI.. مدربة على استخدام يوتيوب!,تفاصيل جديدة حول الطريقة التي تدرب بها نموذج GPT-4,ChatGPT يستغل فيديوهات يوتيوب لتعزيز قدراته,OpenAI تستخرج بيانات YouTube للتدريب على GPT-4, تحديات بيانات تدريب الذكاء الاصطناعي ومخاوف حقوق الطبع والنشر, OpenAI's GPT-4: تم التدريب على نصوص YouTube؟, الاعتبارات الأخلاقية في تطوير الذكاء الاصطناعي: الحصول على البيانات, هل إلغاء YouTube قانوني للتدريب على الذكاء الاصطناعي؟,كيف تجمع OpenAI البيانات لتدريب GPT-4, هل يسمح YouTube باستخلاص مجموعات بيانات تدريب الذكاء الاصطناعي, قانون حقوق الطبع والنشر واستخدام محتوى YouTube في الذكاء الاصطناعي, مصادر البيانات البديلة لتدريب نماذج لغوية كبيرة, تأثير ندرة البيانات على تطوير الذكاء الاصطناعي في المستقبل,قام OpenAI بسرقة البيانات من YouTube لـ GPT-4, هل استخدام OpenAI لبيانات YouTube غير قانوني, ما هي البيانات التي يستخدمها GPT-4 للتعلم, هل يمكنني استخدام بيانات YouTube لتدريب الذكاء الاصطناعي الخاص بي, كيف يتم استخدام الذكاء الاصطناعي؟, هل تتأثر التنمية بقيود البيانات؟,ضمان الحصول على البيانات الأخلاقية للذكاء الاصطناعي المسؤول, استكشاف بيانات التدريب البديلة لنماذج الذكاء الاصطناعي, تحقيق التوازن بين الابتكار وحماية حقوق النشر في عصر الذكاء الاصطناعي, بناء الثقة والشفافية في ممارسات تطوير الذكاء الاصطناعي, مستقبل جمع البيانات للذكاء الاصطناعي المتقدم,بيانات تدريب GPT-4: التركيب والتحليل, التدريب على نماذج اللغة الكبيرة: الاعتبارات الأخلاقية, تقنيات استخراج النص للحصول على بيانات الذكاء الاصطناعي, إخفاء هوية البيانات وحماية الخصوصية في الذكاء الاصطناعي, توليد البيانات الاصطناعية للتدريب على الذكاء الاصطناعي,ظهور نماذج اللغات الكبيرة واحتياجاتها من البيانات, قانون حقوق النشر في العصر الرقمي: التحديات والحلول, دور OpenAI في تطوير أبحاث الذكاء الاصطناعي وتطويره, مستقبل الذكاء الاصطناعي: الاعتبارات الأخلاقية والتنمية المسؤولة,الموازنة بين الابتكار وخصوصية المستخدم في مشهد الذكاء الاصطناعي,