ديسمبر 28, 2024

مواطن دوت كوم

تقدم ArabNews أخبارًا إقليمية من أوروبا وأمريكا والهند وباكستان والفلبين ودول الشرق الأوسط الأخرى باللغة الإنجليزية لغير المتجانسين.

يكشف باحثو Apple عن إنجاز جديد في مجال الذكاء الاصطناعي لتدريب حاملي شهادات الماجستير على الصور والنصوص

يكشف باحثو Apple عن إنجاز جديد في مجال الذكاء الاصطناعي لتدريب حاملي شهادات الماجستير على الصور والنصوص

في ورقة جديدة يكشف باحثو شركة Apple، الذين نشروا هذا الشهر، أنهم طوروا أساليب جديدة لتدريب نماذج لغوية كبيرة باستخدام المعلومات النصية والمرئية. ووفقا لباحثي شركة أبل، فإن هذا يمثل وسيلة للحصول على أحدث النتائج.

كما رصدت لأول مرة من قبل فينشربيتتتمثل فكرة البحث في توضيح “كيف يمكن أن يؤدي الجمع بعناية بين أنواع مختلفة من بيانات التدريب وبنيات النماذج إلى أداء متطور في مجموعة من معايير الذكاء الاصطناعي.”

وقد صدرت الورقة الأسبوع الماضي بعنوان “MM1: الأساليب والتحليلات والرؤى من التدريب المسبق لـ Multimodal LLM“. يشرح باحثو شركة Apple في ملخص الورقة:

في هذا العمل، نناقش بناء نماذج لغة كبيرة متعددة الوسائط (MLLMs) عالية الأداء. على وجه الخصوص، ندرس أهمية المكونات المعمارية المختلفة واختيارات البيانات. ومن خلال الاستئصال الدقيق والشامل لبرنامج تشفير الصور، وموصل لغة الرؤية، وخيارات بيانات ما قبل التدريب المختلفة، حددنا العديد من دروس التصميم المهمة.

على سبيل المثال، نوضح أنه بالنسبة للتدريب المسبق متعدد الوسائط على نطاق واسع، فإن استخدام مزيج دقيق من التسميات التوضيحية للصور ونص الصور المتداخل وبيانات النص فقط يعد أمرًا بالغ الأهمية لتحقيق لقطات قليلة حديثة (SOTA) النتائج عبر معايير متعددة، مقارنة بنتائج ما قبل التدريب المنشورة الأخرى.

توصف MM1 بأنها “عائلة من النماذج متعددة الوسائط” التي تعد حديثة ولها “خصائص جذابة مثل التعلم المعزز في السياق، والتفكير متعدد الصور، مما يتيح تحفيز سلسلة أفكار قليلة. ”

تعتبر إمكانيات التعلم في السياق لنموذج MM1 مثيرة للإعجاب بشكل خاص:

يمكن لـ MM1 إجراء تنبؤات في السياق بفضل التدريب المسبق متعدد الوسائط واسع النطاق. يسمح هذا لـ MM1 بـ (أ) حساب الكائنات واتباع التنسيق المخصص، (ب) الرجوع إلى أجزاء من الصور وإجراء التعرف الضوئي على الحروف، (ج) إظهار المعرفة السليمة والكلمات حول الأشياء اليومية، و (د) أداء وظائف الرياضيات الأساسية. الصور مأخوذة من مجموعة التحقق من صحة COCO 2014.

ويخلص الباحثون إلى أن عائلة النماذج هذه “تنتج أداءً تنافسيًا على نطاق واسع من المعايير، مع تمكين التفكير متعدد الصور والحث على لقطات قليلة”.

READ  يجب أن تكون النظارات الذكية أنيقة حتى تصبح سائدة حقًا

اقرأ أكثر:

FTC: نحن نستخدم الروابط التابعة التلقائية لكسب الدخل. أكثر.