تتدافع المواقع لمنع زاحف الويب ChatGPT بعد ظهور التعليمات

بدون إعلان ، أضافت OpenAI مؤخرًا تفاصيل حول زاحف الويب الخاص بها ، GPTBot، إلى موقع التوثيق عبر الإنترنت. GPTBot هو اسم وكيل المستخدم الذي تستخدمه الشركة لاسترداد صفحات الويب لتدريب نماذج الذكاء الاصطناعي وراء ChatGPT ، مثل GPT-4. في وقت سابق من هذا الأسبوع ، بعض المواقع أعلنوا بسرعة عن نيتهم لمنع وصول GPTBot إلى محتواها.

في الوثائق الجديدة ، تقول OpenAI إن صفحات الويب التي تم الزحف إليها باستخدام GPTBot “قد تُستخدم على الأرجح لتحسين النماذج المستقبلية” ، وأن السماح لـ GPTBot بالوصول إلى موقعك “يمكن أن يساعد نماذج الذكاء الاصطناعي في أن تصبح أكثر دقة وتحسين قدراتها العامة وأمانها.”

تدعي OpenAI أنها نفذت عوامل تصفية تضمن عدم وصول GPTBot إلى المصادر التي تقف وراء أنظمة حظر الاشتراك غير المدفوع أو تلك التي تجمع معلومات التعريف الشخصية أو أي محتوى ينتهك سياسات OpenAI.

تأتي أخبار القدرة على منع عمليات التدريب على OpenAI (إذا كرمتهم) بعد فوات الأوان للتأثير على بيانات التدريب الحالية لـ ChatGPT أو GPT-4 ، والتي تم إلغاؤها دون إعلان منذ سنوات. قامت شركة OpenAI بجمع البيانات المنتهية في سبتمبر 2021 ، وهو القطع الحالي “المعرفي” لنماذج لغة OpenAI.

من الجدير بالذكر أن التعليمات الجديدة ربما لا منع إصدارات تصفح الويب من مكونات ChatGPT أو ChatGPT الإضافية من الوصول إلى مواقع الويب الحالية لترحيل معلومات محدثة إلى المستخدم. لم يتم توضيح هذه النقطة في الوثائق ، وتواصلنا مع OpenAI للتوضيح.

الجواب يكمن في ملف robots.txt

وفقًا لـ OpenAI’s توثيق، سيتم التعرف على GPTBot من خلال الرمز المميز لوكيل المستخدم “GPTBot ،” بسلسلته الكاملة هي “Mozilla / 5.0 AppleWebKit / 537.36 (KHTML ، مثل Gecko ؛ متوافق ؛ GPTBot / 1.0 ؛ + https: //openai.com/gptbot)” .

تقدم مستندات OpenAI أيضًا إرشادات حول كيفية منع GPTBot من الزحف إلى مواقع الويب باستخدام معايير الصناعة ملف robots.txt ملف ، وهو ملف نصي يوجد في الدليل الجذر لموقع ويب ويوجه برامج زحف الويب (مثل تلك المستخدمة بواسطة محركات البحث) بعدم فهرسة الموقع.

الأمر سهل مثل إضافة هذين السطرين إلى ملف robots.txt الخاص بالموقع:

User-agent: GPTBot
Disallow: /

تقول OpenAI أيضًا أنه يمكن للمسؤولين تقييد GPTBot من أجزاء معينة من الموقع في ملف robots.txt برموز مختلفة:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

بالإضافة إلى ذلك ، قدمت OpenAI ملف كتل عناوين IP محددة الذي سيعمل منه GPTBot ، والذي يمكن أن يتم حظره بواسطة جدران الحماية أيضًا.

على الرغم من هذا الخيار ، فإن حظر GPTBot لن يضمن أن بيانات الموقع لا تنتهي بتدريب جميع نماذج الذكاء الاصطناعي في المستقبل. بصرف النظر عن مشكلات برامج الكشط التي تتجاهل ملفات robots.txt ، هناك مجموعات بيانات كبيرة أخرى لمواقع الويب التي تم كشطها (مثل كومة) غير تابعة لـ OpenAI. تُستخدم مجموعات البيانات هذه بشكل شائع لتدريب LLMs مفتوح المصدر (أو متاح المصدر) مثل Meta’s Llama 2.

بعض المواقع تتفاعل بسرعة

في حين أن ChatGPT حققت نجاحًا كبيرًا من وجهة نظر تقنية ، إلا أنها كانت أيضًا مثيرة للجدل من خلال كيفية قيامها بإلغاء البيانات المحمية بحقوق الطبع والنشر دون إذن وتركيز هذه القيمة في منتج تجاري يتحايل على نموذج النشر عبر الإنترنت. تم اتهام OpenAI (ورفع دعوى قضائية بسبب) الانتحال على هذا المنوال.

وفقًا لذلك ، ليس من المستغرب أن ترى بعض الأشخاص يتفاعلون مع أخبار القدرة على منع المحتوى الخاص بهم من نماذج GPT المستقبلية بنوع من المكبوتة استمتع. على سبيل المثال ، يوم الثلاثاء ، VentureBeat ذُكر الذي – التي الحافةكاتب Substack كيسي نيوتن، و نيل كلارك من Clarkesworld ، قالوا جميعًا إنهم سيمنعون GPTBot بعد وقت قصير من انتشار أخبار الروبوت.

ولكن بالنسبة لمشغلي مواقع الويب الكبيرة ، فإن خيار حظر برامج زحف نماذج اللغة الكبيرة (LLM) ليس سهلاً كما قد يبدو. إن جعل بعض LLM يتجاهل بيانات معينة لمواقع الويب سوف يترك فجوات في المعرفة يمكن أن تخدم بعض المواقع بشكل جيد للغاية (مثل المواقع التي لا تريد أن تفقد الزوار إذا قدم ChatGPT معلوماتهم لهم) ، ولكنه قد يضر الآخرين أيضًا. على سبيل المثال ، يمكن أن يؤدي حظر المحتوى من نماذج الذكاء الاصطناعي المستقبلية إلى تقليل البصمة الثقافية لموقع أو علامة تجارية إذا أصبحت روبوتات الدردشة الذكية واجهة مستخدم أساسية في المستقبل. كتجربة فكرية ، تخيل شركة عبر الإنترنت تعلن عن عدم رغبتها في فهرسة موقع الويب الخاص بها بواسطة Google في عام 2002 – وهي خطوة مدمرة للذات عندما كانت هذه هي الطريقة الأكثر شيوعًا للعثور على المعلومات عبر الإنترنت.

لا يزال الوقت مبكرًا في لعبة الذكاء الاصطناعي التوليدية ، وبغض النظر عن الطريقة التي تسير بها التكنولوجيا – أو المواقع الفردية التي تحاول إلغاء الاشتراك في تدريب نموذج الذكاء الاصطناعي – على الأقل توفر OpenAI الخيار.

CrystalNomad

تتدافع المواقع لمنع زاحف الويب ChatGPT بعد ظهور التعليمات – Ars Technica

الجواب يكمن في ملف robots.txt

بعض المواقع تتفاعل بسرعة

هذا الشاحن المصنوع من GaN بقوة 100 واط رقيق وقابل للطي

الكاميرات وكاميرات المراقبة: تطور التكنولوجيا في خدمة الأمن والتوثيق

كو: ترقية ذاكرة الوصول العشوائي إلى 12 جيجابايت في العام المقبل ستقتصر على iPhone 17 Pro Max

المفتش العام لوكالة ناسا يصدر تقريرا قاسيا بشأن تأخير مشروع إطلاق المركبة الفضائية SLS

كلب شوهي أوتاني “يلقي” الكرة الأولى بشكل مثالي في ملعب دودجرز

هذا الشاحن المصنوع من GaN بقوة 100 واط رقيق وقابل للطي

تم إيقاف الأسهم بعد إصدار مبكر واضح

الجواب يكمن في ملف robots.txt

بعض المواقع تتفاعل بسرعة

اترك تعليقاً إلغاء الرد

More Stories

هذا الشاحن المصنوع من GaN بقوة 100 واط رقيق وقابل للطي

الكاميرات وكاميرات المراقبة: تطور التكنولوجيا في خدمة الأمن والتوثيق

كو: ترقية ذاكرة الوصول العشوائي إلى 12 جيجابايت في العام المقبل ستقتصر على iPhone 17 Pro Max

You may have missed

المفتش العام لوكالة ناسا يصدر تقريرا قاسيا بشأن تأخير مشروع إطلاق المركبة الفضائية SLS

كلب شوهي أوتاني “يلقي” الكرة الأولى بشكل مثالي في ملعب دودجرز

هذا الشاحن المصنوع من GaN بقوة 100 واط رقيق وقابل للطي

تم إيقاف الأسهم بعد إصدار مبكر واضح