يكشف باحثو Apple عن إنجاز جديد في مجال الذكاء الاصطناعي لتدريب حاملي شهادات الماجستير على الصور والنصوص

في ورقة جديدة يكشف باحثو شركة Apple، الذين نشروا هذا الشهر، أنهم طوروا أساليب جديدة لتدريب نماذج لغوية كبيرة باستخدام المعلومات النصية والمرئية. ووفقا لباحثي شركة أبل، فإن هذا يمثل وسيلة للحصول على أحدث النتائج.

كما رصدت لأول مرة من قبل فينشربيتتتمثل فكرة البحث في توضيح “كيف يمكن أن يؤدي الجمع بعناية بين أنواع مختلفة من بيانات التدريب وبنيات النماذج إلى أداء متطور في مجموعة من معايير الذكاء الاصطناعي.”

وقد صدرت الورقة الأسبوع الماضي بعنوان “MM1: الأساليب والتحليلات والرؤى من التدريب المسبق لـ Multimodal LLM“. يشرح باحثو شركة Apple في ملخص الورقة:

في هذا العمل، نناقش بناء نماذج لغة كبيرة متعددة الوسائط (MLLMs) عالية الأداء. على وجه الخصوص، ندرس أهمية المكونات المعمارية المختلفة واختيارات البيانات. ومن خلال الاستئصال الدقيق والشامل لبرنامج تشفير الصور، وموصل لغة الرؤية، وخيارات بيانات ما قبل التدريب المختلفة، حددنا العديد من دروس التصميم المهمة.

على سبيل المثال، نوضح أنه بالنسبة للتدريب المسبق متعدد الوسائط على نطاق واسع، فإن استخدام مزيج دقيق من التسميات التوضيحية للصور ونص الصور المتداخل وبيانات النص فقط يعد أمرًا بالغ الأهمية لتحقيق لقطات قليلة حديثة (SOTA) النتائج عبر معايير متعددة، مقارنة بنتائج ما قبل التدريب المنشورة الأخرى.

توصف MM1 بأنها “عائلة من النماذج متعددة الوسائط” التي تعد حديثة ولها “خصائص جذابة مثل التعلم المعزز في السياق، والتفكير متعدد الصور، مما يتيح تحفيز سلسلة أفكار قليلة. ”

تعتبر إمكانيات التعلم في السياق لنموذج MM1 مثيرة للإعجاب بشكل خاص:

يمكن لـ MM1 إجراء تنبؤات في السياق بفضل التدريب المسبق متعدد الوسائط واسع النطاق. يسمح هذا لـ MM1 بـ (أ) حساب الكائنات واتباع التنسيق المخصص، (ب) الرجوع إلى أجزاء من الصور وإجراء التعرف الضوئي على الحروف، (ج) إظهار المعرفة السليمة والكلمات حول الأشياء اليومية، و (د) أداء وظائف الرياضيات الأساسية. الصور مأخوذة من مجموعة التحقق من صحة COCO 2014.

ويخلص الباحثون إلى أن عائلة النماذج هذه “تنتج أداءً تنافسيًا على نطاق واسع من المعايير، مع تمكين التفكير متعدد الصور والحث على لقطات قليلة”.

اقرأ أكثر:

FTC: نحن نستخدم الروابط التابعة التلقائية لكسب الدخل. أكثر.

Tommy Vercetti

يكشف باحثو Apple عن إنجاز جديد في مجال الذكاء الاصطناعي لتدريب حاملي شهادات الماجستير على الصور والنصوص

هذا الشاحن المصنوع من GaN بقوة 100 واط رقيق وقابل للطي

كو: ترقية ذاكرة الوصول العشوائي إلى 12 جيجابايت في العام المقبل ستقتصر على iPhone 17 Pro Max

تعود Verdansk أخيرًا إلى Call of Duty Warzone، والمعجبون سعداء بذلك

هيذر جراهام تتحدث عن انفصالها عن والديها لمدة 30 عامًا

المفتش العام لوكالة ناسا يصدر تقريرا قاسيا بشأن تأخير مشروع إطلاق المركبة الفضائية SLS

كلب شوهي أوتاني “يلقي” الكرة الأولى بشكل مثالي في ملعب دودجرز

هذا الشاحن المصنوع من GaN بقوة 100 واط رقيق وقابل للطي

اترك تعليقاً إلغاء الرد

More Stories

هذا الشاحن المصنوع من GaN بقوة 100 واط رقيق وقابل للطي

كو: ترقية ذاكرة الوصول العشوائي إلى 12 جيجابايت في العام المقبل ستقتصر على iPhone 17 Pro Max

تعود Verdansk أخيرًا إلى Call of Duty Warzone، والمعجبون سعداء بذلك

You may have missed

هيذر جراهام تتحدث عن انفصالها عن والديها لمدة 30 عامًا

المفتش العام لوكالة ناسا يصدر تقريرا قاسيا بشأن تأخير مشروع إطلاق المركبة الفضائية SLS

كلب شوهي أوتاني “يلقي” الكرة الأولى بشكل مثالي في ملعب دودجرز

هذا الشاحن المصنوع من GaN بقوة 100 واط رقيق وقابل للطي