في ورقة جديدة يكشف باحثو شركة Apple، الذين نشروا هذا الشهر، أنهم طوروا أساليب جديدة لتدريب نماذج لغوية كبيرة باستخدام المعلومات النصية والمرئية. ووفقا لباحثي شركة أبل، فإن هذا يمثل وسيلة للحصول على أحدث النتائج.
كما رصدت لأول مرة من قبل فينشربيتتتمثل فكرة البحث في توضيح “كيف يمكن أن يؤدي الجمع بعناية بين أنواع مختلفة من بيانات التدريب وبنيات النماذج إلى أداء متطور في مجموعة من معايير الذكاء الاصطناعي.”
وقد صدرت الورقة الأسبوع الماضي بعنوان “MM1: الأساليب والتحليلات والرؤى من التدريب المسبق لـ Multimodal LLM“. يشرح باحثو شركة Apple في ملخص الورقة:
في هذا العمل، نناقش بناء نماذج لغة كبيرة متعددة الوسائط (MLLMs) عالية الأداء. على وجه الخصوص، ندرس أهمية المكونات المعمارية المختلفة واختيارات البيانات. ومن خلال الاستئصال الدقيق والشامل لبرنامج تشفير الصور، وموصل لغة الرؤية، وخيارات بيانات ما قبل التدريب المختلفة، حددنا العديد من دروس التصميم المهمة.
على سبيل المثال، نوضح أنه بالنسبة للتدريب المسبق متعدد الوسائط على نطاق واسع، فإن استخدام مزيج دقيق من التسميات التوضيحية للصور ونص الصور المتداخل وبيانات النص فقط يعد أمرًا بالغ الأهمية لتحقيق لقطات قليلة حديثة (SOTA) النتائج عبر معايير متعددة، مقارنة بنتائج ما قبل التدريب المنشورة الأخرى.
توصف MM1 بأنها “عائلة من النماذج متعددة الوسائط” التي تعد حديثة ولها “خصائص جذابة مثل التعلم المعزز في السياق، والتفكير متعدد الصور، مما يتيح تحفيز سلسلة أفكار قليلة. ”
تعتبر إمكانيات التعلم في السياق لنموذج MM1 مثيرة للإعجاب بشكل خاص:
يمكن لـ MM1 إجراء تنبؤات في السياق بفضل التدريب المسبق متعدد الوسائط واسع النطاق. يسمح هذا لـ MM1 بـ (أ) حساب الكائنات واتباع التنسيق المخصص، (ب) الرجوع إلى أجزاء من الصور وإجراء التعرف الضوئي على الحروف، (ج) إظهار المعرفة السليمة والكلمات حول الأشياء اليومية، و (د) أداء وظائف الرياضيات الأساسية. الصور مأخوذة من مجموعة التحقق من صحة COCO 2014.
ويخلص الباحثون إلى أن عائلة النماذج هذه “تنتج أداءً تنافسيًا على نطاق واسع من المعايير، مع تمكين التفكير متعدد الصور والحث على لقطات قليلة”.
اقرأ أكثر:
“متحمس لوسائل التواصل الاجتماعي. مهووس بالجعة. متواصل شرير. عاشق لثقافة البوب. عرضة لنوبات اللامبالاة.”
More Stories
هذا الشاحن المصنوع من GaN بقوة 100 واط رقيق وقابل للطي
كو: ترقية ذاكرة الوصول العشوائي إلى 12 جيجابايت في العام المقبل ستقتصر على iPhone 17 Pro Max
تعود Verdansk أخيرًا إلى Call of Duty Warzone، والمعجبون سعداء بذلك