تظهر أخبار مثيرة من مختبرات أبحاث شركة Apple عندما تكشف النقاب عن أحدث مشروع لها: نموذج لغوي واسع النطاق للذكاء الاصطناعي متعدد الوسائط (AI)، وفي ورقة بحثية حديثة، قام باحثو Apple بتفصيل التقدم الذي أحرزوه في تطوير القدرات المتقدمة لتعليم الأنظمة الصناعية لفهم اللغة وتحليل الصور.
ويأتي هذا المسعى الجديد من شركة Apple الأمريكية في أعقاب تلميحات الرئيس التنفيذي تيم كوك خلال مكالمات الأرباح، مما يشير إلى أن ميزات الذكاء الاصطناعي قد تكون في الأفق في وقت لاحق من هذا العام، وفقاً لما أورده موقع Gadgets360.
ووفقاً للباحثين، فإن عائلة طرازات Apple متعددة الوسائط، التي يطلق عليها اسم MM1، تضم ما يصل إلى 30 مليار معلمة، ويشار إليها باسم "LLM متعدد الوسائط (MLLM)،" تدمج هذه النماذج برامج تشفير الصور وموصل لغة الرؤية جنباً إلى جنب مع المكونات المعمارية الأخرى والبيانات المختارة بعناية لإنشاء نموذج ذكاء اصطناعي متطور قادر على معالجة مدخلات النص والصورة.
وعلى سبيل المثال، تسلط الورقة الضوء على أهمية استخدام مجموعة من التسميات التوضيحية للصور، ونصوص الصور المتداخلة، والبيانات النصية فقط للتدريب المسبق متعدد الوسائط على نطاق واسع، مع الإشارة إلى التحسينات الكبيرة في الأداء مقارنة بدرجات التدريب المسبق المنشورة الأخرى.
ومن الضروري ملاحظة أن نموذج الذكاء الاصطناعي موجود حالياً في مرحلة ما قبل التدريب، حيث يقوم الباحثون بتحسين الخوارزمية والهندسة المعمارية لتحديد سير العمل وطرق معالجة البيانات، ومن خلال دمج رؤية الكمبيوتر في النموذج واختباره باستخدام مجموعات بيانات مختلفة، بما في ذلك الصور والنصوص، حقق فريق Apple نتائج تنافسية مقارنة بالنماذج الموجودة في مراحل مماثلة.
وفي حين أن هذا الإنجاز يمثل علامة فارقة هامة، فمن المهم أن نفهم أن الورقة البحثية وحدها لا تؤكد ما إذا كانت شركة Apple ستقوم بدمج روبوت الدردشة متعدد الوسائط المزود بالذكاء الاصطناعي في نظام التشغيل الخاص بها، ولا تزال هناك أسئلة حول قدرات النموذج في معالجة المدخلات وتوليد المخرجات، وخاصة في توليد الصور المولدة بواسطة الذكاء الاصطناعي.
ومع ذلك، في انتظار تأكيد مراجعة النظراء، تمثل التطورات التي حققتها شركة Apple خطوة مهمة إلى الأمام في إنشاء نموذج أساسي أصلي للذكاء الاصطناعي، وترقبوا المزيد من التطورات مع استمرار شركة Apple في الابتكار في مجال الذكاء الاصطناعي، مما قد يعيد تشكيل مستقبل التفاعل بين الإنسان والحاسوب.