آخر مشاركة على مدونة جوجل الأمنية تفاصيل ترقية جديدة لمرشحات البريد العشوائي في Gmail والتي تسميها Google “واحدة من أكبر ترقيات الدفاع في السنوات الأخيرة.” تأتي الترقية في شكل نظام جديد لتصنيف النصوص يسمى RETVec (ناقل النص المرن والفعال). تقول Google إن هذا يمكن أن يساعد في فهم “التلاعب بالنص العدائي” – وهي رسائل بريد إلكتروني مليئة بالأحرف الخاصة والرموز التعبيرية والأخطاء المطبعية وغيرها من الأحرف غير المرغوب فيها التي كان البشر مقروءين في السابق ولكن لا يمكن للآلات فهمها بسهولة. في السابق، كانت رسائل البريد الإلكتروني العشوائية المليئة بالأحرف الخاصة تخترق دفاعات Gmail بسهولة.
إذا كنت تريد مثالاً لما يبدو عليه “التلاعب بالنص العدائي”، فالرسالة أدناه هي شيء من مجلد الرسائل غير المرغوب فيها. تجربتي الشخصية مع Gmail مع رسائل البريد الإلكتروني هذه هي أنها كانت تمثل مشكلة كبيرة خلال النصف الأول من العام، حيث تصل رسائل البريد الإلكتروني مثل هذه بانتظام إلى صندوق الوارد الخاص بي. يبدو أن هذه الترقية التقنية لـ RETVec تعمل، لأن رسائل البريد الإلكتروني مثل هذه لم تمثل مشكلة على الإطلاق بالنسبة لي في الأشهر القليلة الماضية.
لقد كان من الصعب جدًا تصنيف رسائل البريد الإلكتروني مثل هذه، في حين أن أي مرشح للبريد العشوائي يمكنه على الأرجح أن يمسح رسالة بريد إلكتروني تقول: “تهانينا! يتوفر رصيد قدره 1000 دولار لحساب الفوز بالجائزة الكبرى الخاص بك،” وهذا ليس ما تقوله هذه الرسالة الإلكترونية في الواقع. جزء كبير من الحروف هنا هي “الحروف المتجانسة“-من خلال الغوص في الأعماق اللامتناهية لمعيار Unicode، يمكنك العثور على أحرف غامضة تبدو وكأنها جزء من الأبجدية اللاتينية العادية ولكنها في الواقع ليست كذلك.
على سبيل المثال، الموضوع “𝐂𝐡𝐞𝐜𝐤_𝐘𝐨𝐮𝐫_𝐀𝐜𝐜𝐨𝐮𝐧𝐭” يبدو غامقًا بشكل غريب ليس لأنه يحتوي على تصميم غامق ولكن لأنه يستخدم حروف رسومية Unicode مثل “الرياضيات جريئة رأس المال ج“. إنه رمز رياضي يبدو مثل الحرف “C” للأشخاص، لكن الروبوت الذي يقوم بتصفية البريد العشوائي ينظر إليه بدقة كرمز رياضي ولا يفهم المعنى المقصود باللغة الإنجليزية. كلما نظرت عن كثب إلى رسالة بريد إلكتروني مثل هذا، كلما أصبح الأمر أسوأ: يحتوي “C0NGRATULATIONS” على صفر يحل محل أحد الأحرف “O”، والأحرف التي تحتها خط في “Jᴀ̲ᴄ̲ᴋ̲pot” غريبة جدًا لدرجة أنها لا تظهر حتى في عمليات بحث Unicode، ويتم تبديل الكثير من المسافات للخروج لفترات أو الشرطة السفلية. والنتيجة هي أن مرشح البريد العشوائي ينظر إلى هذا فوضى عارمة من البريد الإلكتروني ويستسلم في الأساس. (لا أفهم لماذا يتم تعيين رسائل البريد الإلكتروني غير المقروءة على “البريد الوارد” بدلاً من “البريد العشوائي”، لكنني لست المسؤول).
تقول Google إن RETVec موجود هنا لإنقاذ الموقف: “تم تدريب RETVec ليكون مرنًا ضد التلاعب على مستوى الأحرف بما في ذلك الإدراج والحذف والأخطاء المطبعية والأحرف المتجانسة واستبدال LEET والمزيد. تم تدريب نموذج RETVec على أعلى برنامج تشفير أحرف جديد والذي “يمكنه تشفير جميع أحرف وكلمات UTF-8 بكفاءة. وبالتالي، يعمل RETVec خارج الصندوق على أكثر من 100 لغة دون الحاجة إلى جدول بحث أو حجم مفردات ثابت.”
تقول جوجل إن الكفاءة هنا تعتبر أمرًا كبيرًا. الأساليب البديلة التي تستخدم “حجم مفردات ثابت” أو “جدول بحث” للأشكال المتجانسة جعلت تشغيلها كثيف الاستخدام للموارد. تخيل قائمة بكل الأخطاء الإملائية والتهجئة المحتملة لـ “تهانينا” التي تستبدل حرفًا واحدًا أو أكثر بالأرقام أو الرموز الرياضية أو السيريلية أو العبرية أو الرموز التعبيرية، وسيكون لديك قائمة لا نهاية لها تقريبًا. تقول Google إن RETVec يبلغ 200000 فقط “بدلاً من ملايين المعلمات”، لذلك في حين أن سحابة تصفية البريد العشوائي من Google ربما تكون كبيرة بما يكفي لتشغيل أي شيء، إلا أنها صغيرة بما يكفي حتى يمكن تشغيلها على جهاز محلي. ريتفيك مفتوح المصدر، وتأمل Google أن يخلص العالم من هجمات الحروف المتماثلة، لذا حتى قسم التعليقات المحلي لديك قد يقوم بتشغيلها يومًا ما.
يبدو أن RETVec يعمل إلى حد كبير مثل الطريقة التي يقرأ بها البشر: إنه نموذج TensorFlow للتعلم الآلي يستخدم “التشابه” المرئي لتحديد معنى الكلمات بدلاً من محتوى الأحرف الفعلي. جوجل عرض التشابه يستخدم نفس التكنولوجيا للتعرف على صور القطط، لذا فإن تحويل ذلك إلى نظام التعرف البصري على الأحرف الأكثر روعة في العالم يبدو أمرًا قابلاً للتنفيذ. على ما يبدو، أدى هذا النهج إلى تحسينات كبيرة، حيث قالت جوجل: “إن استبدال ناقل النص السابق لمصنف البريد العشوائي في Gmail بـ RETVec أتاح لنا تحسين معدل اكتشاف البريد العشوائي عبر خط الأساس بنسبة 38% وتقليل المعدل الإيجابي الخاطئ بنسبة 19.4%. بالإضافة إلى ذلك، ، أدى استخدام RETVec إلى تقليل استخدام مادة TPU للنموذج بنسبة 83%، مما يجعل نشر RETVec واحدًا من أكبر الترقيات الدفاعية في السنوات الأخيرة.”
تقول Google إنها قامت باختبار RETVec داخليًا “على مدار العام الماضي”، وقد تم طرحه بالفعل على حساب Gmail الخاص بك.
“متحمس لوسائل التواصل الاجتماعي. مهووس بالجعة. متواصل شرير. عاشق لثقافة البوب. عرضة لنوبات اللامبالاة.”
More Stories
هذا الشاحن المصنوع من GaN بقوة 100 واط رقيق وقابل للطي
كو: ترقية ذاكرة الوصول العشوائي إلى 12 جيجابايت في العام المقبل ستقتصر على iPhone 17 Pro Max
تعود Verdansk أخيرًا إلى Call of Duty Warzone، والمعجبون سعداء بذلك