مولد صور الذكاء الاصطناعي الجديد من OpenAI يدفع الحدود بالتفاصيل والدقة السريعة

يوم الأربعاء، OpenAI أعلن DALL-E 3، أحدث إصدار من نموذج تركيب الصور AI الذي يتميز بالتكامل الكامل مع ChatGPT. يعرض DALL-E 3 الصور عن طريق متابعة الأوصاف المعقدة عن كثب والتعامل مع إنشاء النص داخل الصورة (مثل الملصقات والعلامات)، وهو ما يمثل تحديًا للنماذج السابقة. حاليًا قيد المعاينة البحثية، سيكون متاحًا لعملاء ChatGPT Plus وEnterprise في أوائل أكتوبر.

مثل سابقه، DALLE-3 عبارة عن مولد لتحويل النص إلى صورة يقوم بإنشاء صور جديدة بناءً على أوصاف مكتوبة تسمى المطالبات. على الرغم من أن OpenAI لم تصدر أي تفاصيل فنية حول DALL-E 3، إلا أن نموذج الذكاء الاصطناعي الموجود في قلب الإصدارات السابقة من DALL-E تم تدريبه على ملايين الصور التي أنشأها فنانون ومصورون بشريون، وبعضها مرخص من مواقع الأسهم مثل Shutterstock. من المحتمل أن DALL-E 3 تتبع نفس الصيغة، ولكن مع تقنيات تدريب جديدة ووقت تدريب حسابي أطول.

إذا حكمنا من خلال العينات المقدمة من OpenAI على مدونتها الترويجية، يبدو أن DALL-E 3 هو نموذج تركيب صور أكثر قدرة بشكل جذري من أي شيء آخر متاح من حيث اتباع المطالبات. في حين أن أمثلة OpenAI تم اختيارها بعناية لفعاليتها، يبدو أنها تتبع التعليمات السريعة بأمانة وبشكل مقنع لتعرض الكائنات بأقل قدر من التشوهات. بالمقارنة مع DALL-E 2، تقول OpenAI أن DALL-E 3 يعمل على تحسين التفاصيل الصغيرة مثل الأيدي بشكل أكثر فعالية، وإنشاء صور جذابة بشكل افتراضي دون الحاجة إلى اختراق أو هندسة سريعة.

صورة DALL-E 3 مقدمة من OpenAI مع المطالبة: “رسم توضيحي لثمرة أفوكادو تجلس على كرسي المعالج وتقول “أشعر بالفراغ الشديد في الداخل” مع وجود ثقب بحجم الحفرة في وسطها. المعالج، ملعقة، خربشات الملاحظات.”

OpenAI
صورة DALL-E 3 مقدمة من OpenAI مع المطالبة: “منظر طبيعي واسع مصنوع بالكامل من اللحوم المختلفة ينتشر أمام المشاهد. تلال اللحم البقري المشوي الرقيقة والعصرية وأشجار أفخاذ الدجاج وأنهار لحم الخنزير المقدد وصخور لحم الخنزير تخلق مشهدًا سرياليًا، “لكن المشهد فاتح للشهية. السماء مزينة بشمس البيبروني وسحب السلامي.”

OpenAI
صورة DALL-E 3 مقدمة من OpenAI مع المطالبة: “صورة مصغرة لمقهى مزين بالنباتات الداخلية. تتقاطع العوارض الخشبية في الأعلى، وتبرز محطة المشروبات الباردة مع زجاجات وكؤوس صغيرة.”

OpenAI
صورة DALL-E 3 مقدمة من OpenAI مع المطالبة: “صورة مقربة لسلطعون ناسك يقع في الرمال الرطبة، مع وجود رغوة البحر في مكان قريب وإبراز تفاصيل قشرته وملمس الرمال.”

OpenAI
صورة DALL-E 3 مقدمة من OpenAI مع المطالبة: “فن حرفة ورقية يصور فتاة تعطي قطتها عناقًا لطيفًا. كلاهما يجلسان وسط أصص نباتات، مع خرخرة القطة برضا بينما تبتسم الفتاة. المشهد مزين بأشياء مصنوعة يدويًا الزهور الورقية والأوراق.”

OpenAI
صورة DALL-E 3 مقدمة من OpenAI مع المطالبة: “مشهد فني بكسل لبرج Coit وهو يقف شاهقًا على Telegraph Hill، مع إطلالة بانورامية على المدينة بالأسفل والطيور تحلق حولها.”

OpenAI
صورة DALL-E 3 مقدمة من OpenAI مع المطالبة: “ملوك البطاطس الصغار يرتدون تيجانًا مهيبة، ويجلسون على العروش، ويشرفون على مملكة البطاطس الشاسعة المليئة بموضوعات البطاطس وقلاع البطاطس.”

OpenAI
صورة DALL-E 3 مقدمة من OpenAI مع المطالبة: “رسم توضيحي لقلب بشري مصنوع من الزجاج الشفاف، يقف على قاعدة وسط بحر عاصف. أشعة الشمس تخترق الغيوم، وتضيء القلب، وتكشف عن كون صغير بداخله”. “إن الاقتباس “ابحث عن الكون بداخلك” محفور بأحرف غامقة عبر الأفق.”

OpenAI
صورة DALL-E 3 مقدمة من OpenAI مع المطالبة: “امرأة في منتصف العمر من أصل آسيوي، يبدو شعرها الداكن مخطّطًا بالفضة، مكسورًا ومتشققًا، ومغروسًا بشكل معقد داخل بحر من الخزف المكسور. الخزف يتلألأ بطلاء متناثر. أنماط في مزيج متناغم من اللون الأزرق اللامع وغير اللامع، والأخضر، والبرتقالي، والأحمر، تلتقط رقصتها في تجاور سريالي من الحركة والسكون. ويضيف لون بشرتها، وهو لون فاتح مثل الخزف، جودة شبه غامضة إلى شكلها. ”

OpenAI

بالمقارنة، فإن Midjourney، وهو نموذج منافس لتركيب الصور بالذكاء الاصطناعي من بائع آخر، يعرض تفاصيل واقعية بشكل جيد، لكنه لا يزال يتطلب قدرًا كبيرًا من الترقيع غير البديهي مع المطالبات للحصول على أي تحكم في إخراج الصورة.

يبدو أيضًا أن DALL-E 3 يتعامل مع النص داخل الصور بطريقة لم يستطع سابقتها (بعض النماذج المنافسة مثل Stable Diffusion XL و ديب فلويد يتحسنون في ذلك). على سبيل المثال، تم إنشاء صورة أفوكادو كرتونية مع اقتباس الشخصية بشكل مثالي، رسالة تتضمن الكلمات، “رسم توضيحي لثمرة أفوكادو تجلس على كرسي المعالج تقول “أشعر بالفراغ الشديد في الداخل” مع وجود ثقب بحجم الحفرة في وسطها”. مغلفة في فقاعة الكلام.

والجدير بالذكر أن OpenAI تقول أن DALL-E 3 قد تم “بنائه محليًا” على ChatGPT وسيصل كميزة متكاملة لـ ChatGPT Plus، مما يسمح بتحسينات المحادثة على الصور بطريقة تستخدم مساعد الذكاء الاصطناعي كشريك في العصف الذهني. ويعني ذلك أيضًا أن ChatGPT سيكون قادرًا على إنشاء صور بناءً على سياق المحادثة الحالية، مما قد يؤدي إلى إمكانات جديدة جديدة. تمكن مساعد Bing Chat AI من Microsoft، والمبني أيضًا على تقنية OpenAI، من إنشاء صور في المحادثة منذ شهر مارس.

إبريق الشاي الذي خلق العاصفة

تكبير / صورة تم إنشاؤها بواسطة الذكاء الاصطناعي DALL-E 3 لـ “عرض ثلاثي الأبعاد لفنجان قهوة تم وضعه على عتبة النافذة خلال يوم عاصف. تنعكس العاصفة خارج النافذة في القهوة، مع ظهور صواعق البرق المصغرة والأمواج المضطربة داخل الكوب . الغرفة مضاءة بشكل خافت، مما يزيد من الجو الدرامي.”

OpenAI

النسخة الأصلية من DALL-E ظهرت في يناير 2021، وأطلقت OpenAI تكملة لها أكثر قدرة بشكل كبير في أبريل 2022، لتطلق حقبة جديدة من الصور المولدة بواسطة الذكاء الاصطناعي بضجة مذهلة أسرت مختبريها الأوليين للإصدار التجريبي المغلق. تستخدم نماذج DALL-E تقنية تسمى الانتشار الكامن التي تعمل على تحسين الضوضاء إلى صور “تتعرف عليها” من المعرفة التي اكتسبتها من التدريب على مجموعة البيانات والتوجيه من الموجه. وسمحت نفس التقنية بظهور نموذج الوزن المفتوح Stable Diffusion في أغسطس من العام الماضي.

نظرًا لكيفية تعلم DALL-E للمفاهيم حول الصور في التدريب من خلال استخراج مجموعة بيانات ضخمة من الأعمال الفنية التي أنتجها الإنسان، فقد كانت تقنية توليد الصور بالذكاء الاصطناعي مثيرة للجدل إلى حد كبير منذ طرحها العام الماضي. وقد أثارت هذه التكنولوجيا احتجاجات من الفنانين الذين يخشون أن تحل محلهم أو تكرر أساليبهم بشكل غير أخلاقي، ودعاوى قضائية حول انتهاك حقوق الطبع والنشر بناءً على صور مسروقة تستخدم كبيانات تدريب دون استشارة أصحاب حقوق الطبع والنشر، وأحكام جديدة بشأن حقوق الطبع والنشر من مكتب حقوق الطبع والنشر الأمريكي والولايات المتحدة. قاضي المحكمة الجزئية.

كإشارة إلى هذه الخلافات، تقول OpenAI أن DALL-E 3 مصمم لرفض الطلبات التي تطلب صورة بأسلوب فنان حي. OpenAI أيضًا يوفر نموذجا حيث يمكن للمبدعين إلغاء الاشتراك في استخدام صورهم لتدريب النماذج المستقبلية. يبدو من غير المرجح أن ترضي هذه التدابير الفنانين الذين يعتقدون عادةً أن تدريب الذكاء الاصطناعي يجب أن يتم الاشتراك فيه فقط بدلاً من تضمينه في مجموعات بيانات الصور افتراضيًا.

تكبير / مقارنة بين “لوحة زيتية معبرة للاعب كرة سلة يغطس، مصورة على أنها انفجار سديم” كما تم إنشاؤها بواسطة DALL-E 2 (يسار) وDALL-E 3 (يمين).

OpenAI

في الوقت الحالي، تنص سياسة حقوق الطبع والنشر الأمريكية على أن الأعمال الفنية التي تم إنشاؤها بواسطة الذكاء الاصطناعي فقط لا يمكن أن تحصل على حماية حقوق الطبع والنشر، لذلك من الناحية الفنية فإن أي صورة تم إنشاؤها باستخدام DALL-E 3 ستقع ضمن النطاق العام. على الرغم من أن OpenAI لا تعترف بذلك صراحة، إلا أنها تقول أن “الصور التي تنشئها باستخدام DALL-E 3 هي ملكك للاستخدام ولا تحتاج إلى إذن منا لإعادة طباعتها أو بيعها أو تسويقها.” وهذا تغيير ملحوظ عن العام الماضي عندما قامت OpenAI استخدام مقيد للصورة DALE-2 بناءً على ترخيص ينص على أن OpenAI “تمتلك جميع الأجيال”.

فيما يتعلق بالسلامة، تقول OpenAI إنها، مثل DALL-E 2، قامت بتطبيق مرشحات للكشف عن الكلمات الرئيسية والصور في DALL-E 3 للحد من قدرتها على إنتاج محتوى عنيف أو جنسي أو يحض على الكراهية. تمت برمجة النظام أيضًا لرفض الطلبات التي تولد صورًا لشخصيات عامة بالاسم، الأمر الذي تسبب في حدوث مشكلات مع منشئ الصور المنافس الذي يعمل بالذكاء الاصطناعي Midjourney عندما أنشأ صور اعتقال مزيفة لدونالد ترامب.

تقول OpenAI إنها عملت مع خبراء يُعرفون باسم “الفريق الأحمر” لتحديد المخاطر المحتملة والتخفيف منها، مثل التحيزات الضارة أو توليد الدعاية والمعلومات المضللة. لم تقدم OpenAI أي كلمة حول إمكانات أداتها للقيام بذلك ثني السجل التاريخي مع افتراءات مقنعة، على الرغم من أنها تقول إنها تقوم بتجربة أداة “مصنف المصدر” التي يمكن أن تساعد في تحديد ما إذا كانت الصورة قد تم إنشاؤها بواسطة DALL-E 3 أم لا.

في الوقت الحالي، ليس لدينا إمكانية الوصول إلى DALL-E 3 لاختباره بعد، لكن OpenAI تقول إن مولد الصور AI يخضع الآن لاختبار مغلق. وتخطط لإتاحته لعملاء ChatGPT Plus وEnterprise “في أكتوبر عبر واجهة برمجة التطبيقات وفي Labs في وقت لاحق من هذا الخريف.”

CrystalNomad

مولد صور الذكاء الاصطناعي الجديد من OpenAI يدفع الحدود بالتفاصيل والدقة السريعة – Ars Technica

إبريق الشاي الذي خلق العاصفة

هذا الشاحن المصنوع من GaN بقوة 100 واط رقيق وقابل للطي

الكاميرات وكاميرات المراقبة: تطور التكنولوجيا في خدمة الأمن والتوثيق

كو: ترقية ذاكرة الوصول العشوائي إلى 12 جيجابايت في العام المقبل ستقتصر على iPhone 17 Pro Max

المفتش العام لوكالة ناسا يصدر تقريرا قاسيا بشأن تأخير مشروع إطلاق المركبة الفضائية SLS

كلب شوهي أوتاني “يلقي” الكرة الأولى بشكل مثالي في ملعب دودجرز

هذا الشاحن المصنوع من GaN بقوة 100 واط رقيق وقابل للطي

تم إيقاف الأسهم بعد إصدار مبكر واضح

إبريق الشاي الذي خلق العاصفة

اترك تعليقاً إلغاء الرد

More Stories

هذا الشاحن المصنوع من GaN بقوة 100 واط رقيق وقابل للطي

الكاميرات وكاميرات المراقبة: تطور التكنولوجيا في خدمة الأمن والتوثيق

كو: ترقية ذاكرة الوصول العشوائي إلى 12 جيجابايت في العام المقبل ستقتصر على iPhone 17 Pro Max

You may have missed

المفتش العام لوكالة ناسا يصدر تقريرا قاسيا بشأن تأخير مشروع إطلاق المركبة الفضائية SLS

كلب شوهي أوتاني “يلقي” الكرة الأولى بشكل مثالي في ملعب دودجرز

هذا الشاحن المصنوع من GaN بقوة 100 واط رقيق وقابل للطي

تم إيقاف الأسهم بعد إصدار مبكر واضح