نوفمبر 19, 2024

مواطن دوت كوم

تقدم ArabNews أخبارًا إقليمية من أوروبا وأمريكا والهند وباكستان والفلبين ودول الشرق الأوسط الأخرى باللغة الإنجليزية لغير المتجانسين.

مولد صور الذكاء الاصطناعي الجديد من OpenAI يدفع الحدود بالتفاصيل والدقة السريعة – Ars Technica

مولد صور الذكاء الاصطناعي الجديد من OpenAI يدفع الحدود بالتفاصيل والدقة السريعة – Ars Technica

يوم الأربعاء، OpenAI أعلن DALL-E 3، أحدث إصدار من نموذج تركيب الصور AI الذي يتميز بالتكامل الكامل مع ChatGPT. يعرض DALL-E 3 الصور عن طريق متابعة الأوصاف المعقدة عن كثب والتعامل مع إنشاء النص داخل الصورة (مثل الملصقات والعلامات)، وهو ما يمثل تحديًا للنماذج السابقة. حاليًا قيد المعاينة البحثية، سيكون متاحًا لعملاء ChatGPT Plus وEnterprise في أوائل أكتوبر.

مثل سابقه، DALLE-3 عبارة عن مولد لتحويل النص إلى صورة يقوم بإنشاء صور جديدة بناءً على أوصاف مكتوبة تسمى المطالبات. على الرغم من أن OpenAI لم تصدر أي تفاصيل فنية حول DALL-E 3، إلا أن نموذج الذكاء الاصطناعي الموجود في قلب الإصدارات السابقة من DALL-E تم تدريبه على ملايين الصور التي أنشأها فنانون ومصورون بشريون، وبعضها مرخص من مواقع الأسهم مثل Shutterstock. من المحتمل أن DALL-E 3 تتبع نفس الصيغة، ولكن مع تقنيات تدريب جديدة ووقت تدريب حسابي أطول.

إذا حكمنا من خلال العينات المقدمة من OpenAI على مدونتها الترويجية، يبدو أن DALL-E 3 هو نموذج تركيب صور أكثر قدرة بشكل جذري من أي شيء آخر متاح من حيث اتباع المطالبات. في حين أن أمثلة OpenAI تم اختيارها بعناية لفعاليتها، يبدو أنها تتبع التعليمات السريعة بأمانة وبشكل مقنع لتعرض الكائنات بأقل قدر من التشوهات. بالمقارنة مع DALL-E 2، تقول OpenAI أن DALL-E 3 يعمل على تحسين التفاصيل الصغيرة مثل الأيدي بشكل أكثر فعالية، وإنشاء صور جذابة بشكل افتراضي دون الحاجة إلى اختراق أو هندسة سريعة.

بالمقارنة، فإن Midjourney، وهو نموذج منافس لتركيب الصور بالذكاء الاصطناعي من بائع آخر، يعرض تفاصيل واقعية بشكل جيد، لكنه لا يزال يتطلب قدرًا كبيرًا من الترقيع غير البديهي مع المطالبات للحصول على أي تحكم في إخراج الصورة.

READ  الأسرة تهرب من حرائق ماوي باستخدام طوارئ iPhone SOS من Apple

يبدو أيضًا أن DALL-E 3 يتعامل مع النص داخل الصور بطريقة لم يستطع سابقتها (بعض النماذج المنافسة مثل Stable Diffusion XL و ديب فلويد يتحسنون في ذلك). على سبيل المثال، تم إنشاء صورة أفوكادو كرتونية مع اقتباس الشخصية بشكل مثالي، رسالة تتضمن الكلمات، “رسم توضيحي لثمرة أفوكادو تجلس على كرسي المعالج تقول “أشعر بالفراغ الشديد في الداخل” مع وجود ثقب بحجم الحفرة في وسطها”. مغلفة في فقاعة الكلام.

والجدير بالذكر أن OpenAI تقول أن DALL-E 3 قد تم “بنائه محليًا” على ChatGPT وسيصل كميزة متكاملة لـ ChatGPT Plus، مما يسمح بتحسينات المحادثة على الصور بطريقة تستخدم مساعد الذكاء الاصطناعي كشريك في العصف الذهني. ويعني ذلك أيضًا أن ChatGPT سيكون قادرًا على إنشاء صور بناءً على سياق المحادثة الحالية، مما قد يؤدي إلى إمكانات جديدة جديدة. تمكن مساعد Bing Chat AI من Microsoft، والمبني أيضًا على تقنية OpenAI، من إنشاء صور في المحادثة منذ شهر مارس.

إبريق الشاي الذي خلق العاصفة

صورة تم إنشاؤها بواسطة الذكاء الاصطناعي DALL-E 3 لـ
تكبير / صورة تم إنشاؤها بواسطة الذكاء الاصطناعي DALL-E 3 لـ “عرض ثلاثي الأبعاد لفنجان قهوة تم وضعه على عتبة النافذة خلال يوم عاصف. تنعكس العاصفة خارج النافذة في القهوة، مع ظهور صواعق البرق المصغرة والأمواج المضطربة داخل الكوب . الغرفة مضاءة بشكل خافت، مما يزيد من الجو الدرامي.”

OpenAI

النسخة الأصلية من DALL-E ظهرت في يناير 2021، وأطلقت OpenAI تكملة لها أكثر قدرة بشكل كبير في أبريل 2022، لتطلق حقبة جديدة من الصور المولدة بواسطة الذكاء الاصطناعي بضجة مذهلة أسرت مختبريها الأوليين للإصدار التجريبي المغلق. تستخدم نماذج DALL-E تقنية تسمى الانتشار الكامن التي تعمل على تحسين الضوضاء إلى صور “تتعرف عليها” من المعرفة التي اكتسبتها من التدريب على مجموعة البيانات والتوجيه من الموجه. وسمحت نفس التقنية بظهور نموذج الوزن المفتوح Stable Diffusion في أغسطس من العام الماضي.

READ  يساعدك تطبيق Switch To Android iOS غير المدرج من Google على الانتقال من iPhone إلى Android

نظرًا لكيفية تعلم DALL-E للمفاهيم حول الصور في التدريب من خلال استخراج مجموعة بيانات ضخمة من الأعمال الفنية التي أنتجها الإنسان، فقد كانت تقنية توليد الصور بالذكاء الاصطناعي مثيرة للجدل إلى حد كبير منذ طرحها العام الماضي. وقد أثارت هذه التكنولوجيا احتجاجات من الفنانين الذين يخشون أن تحل محلهم أو تكرر أساليبهم بشكل غير أخلاقي، ودعاوى قضائية حول انتهاك حقوق الطبع والنشر بناءً على صور مسروقة تستخدم كبيانات تدريب دون استشارة أصحاب حقوق الطبع والنشر، وأحكام جديدة بشأن حقوق الطبع والنشر من مكتب حقوق الطبع والنشر الأمريكي والولايات المتحدة. قاضي المحكمة الجزئية.

كإشارة إلى هذه الخلافات، تقول OpenAI أن DALL-E 3 مصمم لرفض الطلبات التي تطلب صورة بأسلوب فنان حي. OpenAI أيضًا يوفر نموذجا حيث يمكن للمبدعين إلغاء الاشتراك في استخدام صورهم لتدريب النماذج المستقبلية. يبدو من غير المرجح أن ترضي هذه التدابير الفنانين الذين يعتقدون عادةً أن تدريب الذكاء الاصطناعي يجب أن يتم الاشتراك فيه فقط بدلاً من تضمينه في مجموعات بيانات الصور افتراضيًا.

مقارنة بين
تكبير / مقارنة بين “لوحة زيتية معبرة للاعب كرة سلة يغطس، مصورة على أنها انفجار سديم” كما تم إنشاؤها بواسطة DALL-E 2 (يسار) وDALL-E 3 (يمين).

OpenAI

في الوقت الحالي، تنص سياسة حقوق الطبع والنشر الأمريكية على أن الأعمال الفنية التي تم إنشاؤها بواسطة الذكاء الاصطناعي فقط لا يمكن أن تحصل على حماية حقوق الطبع والنشر، لذلك من الناحية الفنية فإن أي صورة تم إنشاؤها باستخدام DALL-E 3 ستقع ضمن النطاق العام. على الرغم من أن OpenAI لا تعترف بذلك صراحة، إلا أنها تقول أن “الصور التي تنشئها باستخدام DALL-E 3 هي ملكك للاستخدام ولا تحتاج إلى إذن منا لإعادة طباعتها أو بيعها أو تسويقها.” وهذا تغيير ملحوظ عن العام الماضي عندما قامت OpenAI استخدام مقيد للصورة DALE-2 بناءً على ترخيص ينص على أن OpenAI “تمتلك جميع الأجيال”.

READ  يحصل Pixel على عناصر التحكم في مستوى صوت مجموعة السماعات مرة أخرى في Android 15

فيما يتعلق بالسلامة، تقول OpenAI إنها، مثل DALL-E 2، قامت بتطبيق مرشحات للكشف عن الكلمات الرئيسية والصور في DALL-E 3 للحد من قدرتها على إنتاج محتوى عنيف أو جنسي أو يحض على الكراهية. تمت برمجة النظام أيضًا لرفض الطلبات التي تولد صورًا لشخصيات عامة بالاسم، الأمر الذي تسبب في حدوث مشكلات مع منشئ الصور المنافس الذي يعمل بالذكاء الاصطناعي Midjourney عندما أنشأ صور اعتقال مزيفة لدونالد ترامب.

تقول OpenAI إنها عملت مع خبراء يُعرفون باسم “الفريق الأحمر” لتحديد المخاطر المحتملة والتخفيف منها، مثل التحيزات الضارة أو توليد الدعاية والمعلومات المضللة. لم تقدم OpenAI أي كلمة حول إمكانات أداتها للقيام بذلك ثني السجل التاريخي مع افتراءات مقنعة، على الرغم من أنها تقول إنها تقوم بتجربة أداة “مصنف المصدر” التي يمكن أن تساعد في تحديد ما إذا كانت الصورة قد تم إنشاؤها بواسطة DALL-E 3 أم لا.

في الوقت الحالي، ليس لدينا إمكانية الوصول إلى DALL-E 3 لاختباره بعد، لكن OpenAI تقول إن مولد الصور AI يخضع الآن لاختبار مغلق. وتخطط لإتاحته لعملاء ChatGPT Plus وEnterprise “في أكتوبر عبر واجهة برمجة التطبيقات وفي Labs في وقت لاحق من هذا الخريف.”