يوم الأربعاء، OpenAI أعلن DALL-E 3، أحدث إصدار من نموذج تركيب الصور AI الذي يتميز بالتكامل الكامل مع ChatGPT. يعرض DALL-E 3 الصور عن طريق متابعة الأوصاف المعقدة عن كثب والتعامل مع إنشاء النص داخل الصورة (مثل الملصقات والعلامات)، وهو ما يمثل تحديًا للنماذج السابقة. حاليًا قيد المعاينة البحثية، سيكون متاحًا لعملاء ChatGPT Plus وEnterprise في أوائل أكتوبر.
مثل سابقه، DALLE-3 عبارة عن مولد لتحويل النص إلى صورة يقوم بإنشاء صور جديدة بناءً على أوصاف مكتوبة تسمى المطالبات. على الرغم من أن OpenAI لم تصدر أي تفاصيل فنية حول DALL-E 3، إلا أن نموذج الذكاء الاصطناعي الموجود في قلب الإصدارات السابقة من DALL-E تم تدريبه على ملايين الصور التي أنشأها فنانون ومصورون بشريون، وبعضها مرخص من مواقع الأسهم مثل Shutterstock. من المحتمل أن DALL-E 3 تتبع نفس الصيغة، ولكن مع تقنيات تدريب جديدة ووقت تدريب حسابي أطول.
إذا حكمنا من خلال العينات المقدمة من OpenAI على مدونتها الترويجية، يبدو أن DALL-E 3 هو نموذج تركيب صور أكثر قدرة بشكل جذري من أي شيء آخر متاح من حيث اتباع المطالبات. في حين أن أمثلة OpenAI تم اختيارها بعناية لفعاليتها، يبدو أنها تتبع التعليمات السريعة بأمانة وبشكل مقنع لتعرض الكائنات بأقل قدر من التشوهات. بالمقارنة مع DALL-E 2، تقول OpenAI أن DALL-E 3 يعمل على تحسين التفاصيل الصغيرة مثل الأيدي بشكل أكثر فعالية، وإنشاء صور جذابة بشكل افتراضي دون الحاجة إلى اختراق أو هندسة سريعة.
بالمقارنة، فإن Midjourney، وهو نموذج منافس لتركيب الصور بالذكاء الاصطناعي من بائع آخر، يعرض تفاصيل واقعية بشكل جيد، لكنه لا يزال يتطلب قدرًا كبيرًا من الترقيع غير البديهي مع المطالبات للحصول على أي تحكم في إخراج الصورة.
يبدو أيضًا أن DALL-E 3 يتعامل مع النص داخل الصور بطريقة لم يستطع سابقتها (بعض النماذج المنافسة مثل Stable Diffusion XL و ديب فلويد يتحسنون في ذلك). على سبيل المثال، تم إنشاء صورة أفوكادو كرتونية مع اقتباس الشخصية بشكل مثالي، رسالة تتضمن الكلمات، “رسم توضيحي لثمرة أفوكادو تجلس على كرسي المعالج تقول “أشعر بالفراغ الشديد في الداخل” مع وجود ثقب بحجم الحفرة في وسطها”. مغلفة في فقاعة الكلام.
والجدير بالذكر أن OpenAI تقول أن DALL-E 3 قد تم “بنائه محليًا” على ChatGPT وسيصل كميزة متكاملة لـ ChatGPT Plus، مما يسمح بتحسينات المحادثة على الصور بطريقة تستخدم مساعد الذكاء الاصطناعي كشريك في العصف الذهني. ويعني ذلك أيضًا أن ChatGPT سيكون قادرًا على إنشاء صور بناءً على سياق المحادثة الحالية، مما قد يؤدي إلى إمكانات جديدة جديدة. تمكن مساعد Bing Chat AI من Microsoft، والمبني أيضًا على تقنية OpenAI، من إنشاء صور في المحادثة منذ شهر مارس.
إبريق الشاي الذي خلق العاصفة
النسخة الأصلية من DALL-E ظهرت في يناير 2021، وأطلقت OpenAI تكملة لها أكثر قدرة بشكل كبير في أبريل 2022، لتطلق حقبة جديدة من الصور المولدة بواسطة الذكاء الاصطناعي بضجة مذهلة أسرت مختبريها الأوليين للإصدار التجريبي المغلق. تستخدم نماذج DALL-E تقنية تسمى الانتشار الكامن التي تعمل على تحسين الضوضاء إلى صور “تتعرف عليها” من المعرفة التي اكتسبتها من التدريب على مجموعة البيانات والتوجيه من الموجه. وسمحت نفس التقنية بظهور نموذج الوزن المفتوح Stable Diffusion في أغسطس من العام الماضي.
نظرًا لكيفية تعلم DALL-E للمفاهيم حول الصور في التدريب من خلال استخراج مجموعة بيانات ضخمة من الأعمال الفنية التي أنتجها الإنسان، فقد كانت تقنية توليد الصور بالذكاء الاصطناعي مثيرة للجدل إلى حد كبير منذ طرحها العام الماضي. وقد أثارت هذه التكنولوجيا احتجاجات من الفنانين الذين يخشون أن تحل محلهم أو تكرر أساليبهم بشكل غير أخلاقي، ودعاوى قضائية حول انتهاك حقوق الطبع والنشر بناءً على صور مسروقة تستخدم كبيانات تدريب دون استشارة أصحاب حقوق الطبع والنشر، وأحكام جديدة بشأن حقوق الطبع والنشر من مكتب حقوق الطبع والنشر الأمريكي والولايات المتحدة. قاضي المحكمة الجزئية.
كإشارة إلى هذه الخلافات، تقول OpenAI أن DALL-E 3 مصمم لرفض الطلبات التي تطلب صورة بأسلوب فنان حي. OpenAI أيضًا يوفر نموذجا حيث يمكن للمبدعين إلغاء الاشتراك في استخدام صورهم لتدريب النماذج المستقبلية. يبدو من غير المرجح أن ترضي هذه التدابير الفنانين الذين يعتقدون عادةً أن تدريب الذكاء الاصطناعي يجب أن يتم الاشتراك فيه فقط بدلاً من تضمينه في مجموعات بيانات الصور افتراضيًا.
في الوقت الحالي، تنص سياسة حقوق الطبع والنشر الأمريكية على أن الأعمال الفنية التي تم إنشاؤها بواسطة الذكاء الاصطناعي فقط لا يمكن أن تحصل على حماية حقوق الطبع والنشر، لذلك من الناحية الفنية فإن أي صورة تم إنشاؤها باستخدام DALL-E 3 ستقع ضمن النطاق العام. على الرغم من أن OpenAI لا تعترف بذلك صراحة، إلا أنها تقول أن “الصور التي تنشئها باستخدام DALL-E 3 هي ملكك للاستخدام ولا تحتاج إلى إذن منا لإعادة طباعتها أو بيعها أو تسويقها.” وهذا تغيير ملحوظ عن العام الماضي عندما قامت OpenAI استخدام مقيد للصورة DALE-2 بناءً على ترخيص ينص على أن OpenAI “تمتلك جميع الأجيال”.
فيما يتعلق بالسلامة، تقول OpenAI إنها، مثل DALL-E 2، قامت بتطبيق مرشحات للكشف عن الكلمات الرئيسية والصور في DALL-E 3 للحد من قدرتها على إنتاج محتوى عنيف أو جنسي أو يحض على الكراهية. تمت برمجة النظام أيضًا لرفض الطلبات التي تولد صورًا لشخصيات عامة بالاسم، الأمر الذي تسبب في حدوث مشكلات مع منشئ الصور المنافس الذي يعمل بالذكاء الاصطناعي Midjourney عندما أنشأ صور اعتقال مزيفة لدونالد ترامب.
تقول OpenAI إنها عملت مع خبراء يُعرفون باسم “الفريق الأحمر” لتحديد المخاطر المحتملة والتخفيف منها، مثل التحيزات الضارة أو توليد الدعاية والمعلومات المضللة. لم تقدم OpenAI أي كلمة حول إمكانات أداتها للقيام بذلك ثني السجل التاريخي مع افتراءات مقنعة، على الرغم من أنها تقول إنها تقوم بتجربة أداة “مصنف المصدر” التي يمكن أن تساعد في تحديد ما إذا كانت الصورة قد تم إنشاؤها بواسطة DALL-E 3 أم لا.
في الوقت الحالي، ليس لدينا إمكانية الوصول إلى DALL-E 3 لاختباره بعد، لكن OpenAI تقول إن مولد الصور AI يخضع الآن لاختبار مغلق. وتخطط لإتاحته لعملاء ChatGPT Plus وEnterprise “في أكتوبر عبر واجهة برمجة التطبيقات وفي Labs في وقت لاحق من هذا الخريف.”
“متحمس لوسائل التواصل الاجتماعي. مهووس بالجعة. متواصل شرير. عاشق لثقافة البوب. عرضة لنوبات اللامبالاة.”
More Stories
هذا الشاحن المصنوع من GaN بقوة 100 واط رقيق وقابل للطي
كو: ترقية ذاكرة الوصول العشوائي إلى 12 جيجابايت في العام المقبل ستقتصر على iPhone 17 Pro Max
تعود Verdansk أخيرًا إلى Call of Duty Warzone، والمعجبون سعداء بذلك