بفضل التقدم في الكلام ومعالجة اللغة العادية ، يمكنك أن تأمل يومًا ما أن تسأل مساعدك الافتراضي عن أفضل مكونات السلطة. حاليًا ، يمكنك أن تطلب من جهازك الذكي في المنزل تشغيل الموسيقى أو فتح الأمر الصوتي ، وهي ميزة موجودة بالفعل في بعض الأجهزة.
إذا كنت تتحدث أيًا من اللهجات المغربية أو الجزائرية أو المصرية أو السودانية أو غيرها من اللهجات العربية ، فهي مختلفة تمامًا من منطقة إلى أخرى وبعضها لا يفهم بعضها البعض ، فهذه قصة مختلفة. إذا كانت لغتك الأم هي العربية أو الفنلندية أو المنغولية أو النافاجو أو لغة ذات مستوى عالٍ من التعقيد الصرفي ، فقد تشعر بالاستبعاد.
كان أحمد علي حريصًا على إيجاد حل لهذه الإنشاءات المعقدة. وهو كبير المهندسين في لجنة تكنولوجيا اللغة العربية في معهد قطر لبحوث الحوسبة (QCRI) ، وهو جزء من جامعة حمد بن خليفة التابعة لمؤسسة قطر ، ومؤسس ArabicSpeech ، وهو مجتمع لصالح علوم الكلام وتقنية الكلام باللغة العربية. . “
استوحى علي فكرة التحدث إلى السيارات والمعدات والأدوات عندما كان يعمل في شركة IBM منذ عدة سنوات. “هل يمكننا بناء آلة قادرة على فهم اللهجات المختلفة – طبيب أطفال مصري لأتمتة الوصفة ، أو مدرس سوري لمساعدة الأطفال في الحصول على الأجزاء الرئيسية من درسهم ، أو طاهٍ مغربي لشرح أفضل وصفة للكسكس؟” يذكر. ومع ذلك ، فإن الخوارزميات التي تشغل تلك الآلات لا يمكنها تمييز ما يقرب من 30 نوعًا عربيًا ، ناهيك عن فهمها. اليوم ، تعمل معظم أدوات التعرف على الكلام باللغة الإنجليزية فقط وبعض اللغات.
عززت عدوى فيروس كورونا الثقة المتزايدة بالفعل في تقنيات الصوت ، حيث مكنت تقنيات معالجة اللغة الطبيعية الناس من الالتزام بالإرشادات وإجراءات المسافة المادية للبقاء في المنزل. ومع ذلك ، فإننا نستخدم الأوامر الصوتية للمساعدة في عمليات الشراء عبر التجارة الإلكترونية وإدارة عائلاتنا ، وسيكون هناك المزيد من التطبيقات في المستقبل.
يستخدم ملايين الأشخاص في جميع أنحاء العالم الدورات التدريبية المفتوحة على الإنترنت (MOOCs) للوصول المفتوح والمشاركة غير المحدودة. يعد التعرف على الكلام أحد الميزات الرئيسية لـ MOOC حيث يمكن للطلاب البحث في مناطق معينة من المحتوى المنطوق للموضوعات وتمكين الترجمات من خلال الترجمة. تقوم تقنية الكلام برقمنة المحاضرات لعرض الكلمات المنطوقة كنص في الفصول الدراسية بالجامعة.
وفقًا لمقال نُشر مؤخرًا في مجلة Speech Technology ، من المتوقع أن يصل سوق التعرف على الصوت والكلام إلى 26.8 مليار دولار بحلول عام 2025 ، حيث يعتمد ملايين المستهلكين والشركات في جميع أنحاء العالم على برامج الروبوت الصوتية للتواصل مع أجهزتهم أو سياراتهم. تحسين خدمة العملاء ، وتمكين ابتكارات الرعاية الصحية وتحسين الوصول والمحتوى للأشخاص الذين يعانون من إعاقات سمعية أو كلامية أو حركية.
في استطلاع عام 2019 ، توقعت Capgemini أنه بحلول عام 2022 ، سيختار أكثر من اثنين من كل ثلاثة مستهلكين المساعدين الصوتيين بدلاً من الذهاب إلى المتاجر أو فروع البنوك ؛ حياة وأعمال منزلية بعيدة جسديًا تم إجبارها على الدخول في عالم الوباء لأكثر من عام ونصف ، وهو دور يمكن أن يزداد بشكل معقول.
ومع ذلك ، فشلت هذه الأجهزة في الوصول إلى أجزاء واسعة من العالم. بالنسبة لأولئك الثلاثين نوعًا من العرب والملايين من الناس ، فإنها فرصة ضائعة بشكل كبير.
العربية للآلات
الروبوتات الصوتية الناطقة باللغة الإنجليزية أو الفرنسية ليست مثالية. ومع ذلك ، فإن تعليم الآلات لفهم اللغة العربية صعب بشكل خاص لعدد من الأسباب. هذه هي التحديات الثلاثة الأكثر شيوعًا:
- عدم وجود علامات التشكيل. اللهجات العربية هي العامية ، حيث يتم التحدث بها في المقام الأول. لا يتم فك تشفير معظم النصوص المتاحة ، مما يعني أنها لا تحتوي على ضمائر مثل (´) أو جبر (`) تشير إلى القيمة الصوتية للأحرف. لذلك ، من الصعب تحديد إلى أين تتجه الشخصيات.
- قلة الموارد. هناك نقص في البيانات المصنفة لمختلف اللهجات العربية. بشكل عام ، لا توجد قواعد أو قواعد كتابة موحدة تملي كيفية كتابة لغة ، بما في ذلك التهجئة والوصل وفواصل الكلمات والأهمية. هذه الموارد مهمة لتدريب نماذج الكمبيوتر ، وقد أدى ندرتها إلى تطوير التعرف على المتحدثين باللغة العربية.
- التشكل معقد. يشارك الكثير من المتحدثين باللغة العربية في تغيير الكود. على سبيل المثال ، في المناطق التي احتلها الفرنسيون – شمال إفريقيا والمغرب والجزائر وتونس – هناك العديد من الكلمات الفرنسية المستعارة من اللهجة. نتيجة لذلك ، هناك عدد كبير من الكلمات غير المفردات التي لا يمكن أن تفهمها تقنيات التعرف على الكلام لأنها ليست كلمات عربية.
يقول علي: “لكن المجال يتحرك بسرعة البرق”. جهد مشترك للعديد من الباحثين لتحريكه بشكل أسرع. يقود مختبر علي لتكنولوجيا اللغة العربية مشروعًا يتحدث العربية يدمج الترجمات العربية مع اللهجات التي تنتمي إلى كل منطقة. على سبيل المثال ، يمكن تقسيم اللهجات العربية إلى أربع لهجات إقليمية: شمال إفريقيا ، والمصرية ، والخليجية ، والشامية. ومع ذلك ، نظرًا لأن اللهجات لا تتوافق مع الحدود ، فيمكن أن تكون لهجة مدينة ما بشكل جيد ؛ على سبيل المثال ، يمكن تمييز اللهجة الإسكندرية للمتحدث الأصلي المصري عن لهجة مواطن آخر في أسوان (1000 كيلومتر على الخريطة).
خلق مستقبل يتمتع بالدهاء التكنولوجي للجميع
في هذه المرحلة ، تكون الآلات دقيقة تمامًا مثل النصوص البشرية ، وذلك بفضل التقدم في الشبكات العصبية العميقة ، وهي مجموعة فرعية من التعلم الآلي في الذكاء الاصطناعي الذي يعتمد على خوارزميات مستوحاة من كيفية عمل الدماغ البشري بيولوجيًا ووظيفيًا. حتى وقت قريب ، تم اختراق التعرف على الكلام قليلاً. التكنولوجيا لها تاريخ في الاعتماد على وحدات مختلفة للنمذجة الصوتية ، وإنشاء قواميس النطق ونمذجة اللغة ؛ يجب تدريب جميع الوحدات بشكل فردي. في الآونة الأخيرة ، قام الباحثون بتدريب النماذج التي تترجم مباشرة ميزات الصوت إلى نصوص نصية يمكنها تحسين جميع مجالات العمل النهائي.
على الرغم من هذه التحسينات ، لا يزال علي غير قادر على توفير الأوامر الصوتية لمعظم الأجهزة بلغته العربية الأم. وعلق قائلاً: “إنه عام 2021 ، ما زلت لا أستطيع التحدث إلى العديد من الأجهزة بلهجتي”. “أعني ، لدي الآن جهاز يمكنه فهم لغتي الإنجليزية ، لكن التعرف الميكانيكي للعديد من المتحدثين باللغة العربية العامية لم يحدث بعد.”
يعتبر تحقيق ذلك أمرًا أساسيًا لعمل علي ، والذي توج بأول محول للتعرف على الكلام العربي ولهجاته ؛ واحد حقق أداء غير مسبوق. تُستخدم هذه التقنية ، المعروفة باسم نظام النسخ المتقدم QCRI ، حاليًا لنسخ المحتوى عبر الإنترنت من قبل المذيعين مثل قناة الجزيرة و DW و BBC.
توجد حاليًا بعض الأسباب التي أدت إلى نجاح علي وفريقه في إنشاء آلات الكلام هذه. أولاً وقبل كل شيء ، كما يقول ، “يجب أن تكون هناك موارد في جميع اللهجات. نحن بحاجة إلى تطوير الموارد لتدريب النموذج. “يعني التقدم في معالجة الكمبيوتر أن التعلم الآلي المكثف على الكمبيوتر يحدث الآن في وحدة معالجة الرسومات ، والتي تنفذ الرسومات المعقدة بسرعة والمعروضات. هو.”
طور باحثون في معهد قطر لبحوث الحوسبة وكناري للذكاء الاصطناعي مؤخرًا نماذج لتحقيق المساواة الإنسانية في الأخبار المذاعة باللغة العربية. المنظمة توضح تأثير توفير ترجمات لتقارير الجزيرة اليومية. على الرغم من أن معدل الخطأ البشري في اللغة الإنجليزية (HER) يبلغ حوالي 5.6٪ ، فقد أظهرت الأبحاث أن اللغة العربية HER أعلى بكثير ويمكن أن تصل إلى 10٪ بسبب التعقيد المورفولوجي للغة وعدم وجود قواعد مكتوبة قياسية في اللهجة العربية. بفضل أحدث التطورات في التعلم العميق والهندسة الشاملة ، فإن آلة التعرف على الكلام باللغة العربية تدير بشكل أفضل من مكبرات الصوت الخاصة بها في بث الأخبار.
على الرغم من أن التعرف على الكلام العربي القياسي الحديث يبدو أنه يعمل بشكل جيد ، إلا أن الباحثين في معهد قطر لبحوث الحوسبة و Kanari AI يعملون على اختبار حدود المعالجة الجدلية وتحقيق نتائج أفضل. نظرًا لأنه لا يوجد أحد في المنزل يتحدث اللغة العربية الفصحى الحديثة ، فإن التركيز على اللهجة سيساعد مساعدي الصوت لدينا على فهمنا.
تمت كتابة هذا المحتوى بواسطة معهد قطر لبحوث الحوسبةجامعة حمد بن خليفة عضو مؤسسة قطر. لم يكتب هذا من قبل فريق التحرير في MIT Technology Review.
“مخضرم وسائل الإعلام الاجتماعية. هواة الطعام. رائد ثقافة البوب. النينجا التليفزيوني.”
More Stories
الانتقام في الشرق الأوسط: هل إيران التالية بالنسبة لحزب الله؟
البرازيل تهدد بإيقاف القاضي X عن العمل خلال 24 ساعة
تعلن المؤسسة العربية الأمريكية عن المتحدثين والفنانين، تواصل مع أمريكا العربية: قمة التمكين 25-26 أكتوبر 2024