ما هي تقنية التعرف التلقائي على الكلام Automatic Speech Recognition؟
التعرف على الكلام “تحويل الكلام إلى نص” هو حقل فرعي من اللغويات الحاسوبية computational linguistics يهتم بالتعرف على اللغة المنطوقة وترجمتها إلى نص بواسطة أجهزة الكمبيوتر. الأنظمة هي مزيج من تأثير اللغويات وعلوم الكمبيوتر والهندسة الكهربائية. يشير مصطلح “التعرف على الكلام” في حد ذاته إلى عملية أوسع نطاقًا لترجمة الكلمات المنطوقة إلى نص ، ومع ذلك فإن الحقول الفرعية مثل التعرف على الصوت وتعريف المتحدث مخصصة لتحديد كل من المحتوى المنطوق وهوية المتحدث. و هذه التقنية مكون اساسي من فرع معالجة اللغات الطبيعية.
كيف تعمل هذه التقنية؟
يتم تقسيم أنظمة التعرف التلقائي على الكلام إلى فئتين رئيسيتين. فئة غير معتمدة على المتحدث speaker independent و فئة معتمدة على المتحدث speaker dependent. يتم تنظيم الأنظمة المعتمدة على المتحدث بحيث تتطلب التدريب ، ويشار إليها أحيانًا باسم “التسجيل”. يعمل هذا من خلال وجود متحدث يقرأ نصًا ، أو سلسلة من المفردات المعزولة ، في النظام. بعد ذلك ، سيقوم النظام بمعالجة التسجيلات الصوتية وربطها بمكتبة النصوص. بعض أنظمة التعرف على الكلام لا تعتمد على التدريب الصوتي وتُعرف باسم الأنظمة المستقلة عن المتحدث speaker independent systems.
التعلم الآلي والتعرف على الكلام
يمكن استخدام الشبكات العصبية للتعامل مع مهمة التعرف التلقائي على الكلام بأداء لائق. بدأت الشبكات في البداية بمجموعة مهارات محدودة ، حيث تم استخدامها غالبًا في تصنيف الوحدات قصيرة الوقت مثل الكلمات المعزولة والصوتيات. ومع مرور الوقت ، أدت زيادة تعقيد الشبكات العصبية ، كما هو موضح في شبكات LSTM ، إلى زيادة الأداء.
شكل آخر من نماذج التعلم الآلي المستخدمة هو النموذج القائم على الانتباه (“Attention Based Model “ASR). تحاول هذه الأنظمة اتباع نهج شامل للتعرف على الكلام. على سبيل المثال ، أنشأت جامعة كارنيجي ميلون نموذجًا أطلق عليه اسم “الاستماع والحضور والتهجئة Listen, Attend and Spell (LAS). يستمع النموذج إلى الإشارة الصوتية ، ثم ينتبه إلى أجزاء مختلفة من الإشارة ، قبل أن يتهجى الإشارة عبر نص حرف واحد في كل مرة. النماذج القائمة على الانتباه قادرة على معالجة المعلومات التي لا تستطيع النماذج التقليدية معالجتها، مثل النطق. منذ البداية الأولية لنموذج LAS ، تم استكمال الإضافات لزيادة قدرات نموذج LAS. على سبيل المثال ، قام برنامج DeepMind من Google بتوسيع LAS ليصبح نموذج “المشاهدة والاستماع والحضور والتهجئة” حيث تكون الشبكة قادرة على قراءة وفك شفرات قراءة الشفاه ، وغالبًا ما تتجاوز الأداء على المستوى البشري.