تقنية التعرف التلقائي على الكلام Automatic Speech Recognition

ما هي تقنية التعرف التلقائي على الكلام Automatic Speech Recognition؟

التعرف على الكلام هو حقل فرعي من اللغويات الحاسوبية computational linguistics يهتم بالتعرف على اللغة المنطوقة وترجمتها إلى نص بواسطة أجهزة الكمبيوتر ، ويشار أحيانًا إلى العملية باسم “تحويل الكلام إلى نص”. الأنظمة هي مزيج من تأثير اللغويات وعلوم الكمبيوتر والهندسة الكهربائية. يشير مصطلح “التعرف على الكلام” في حد ذاته إلى عملية أوسع نطاقًا لترجمة الكلمات المنطوقة إلى نص ، ومع ذلك فإن الحقول الفرعية مثل التعرف على الصوت وتعريف المتحدث مخصصة لتحديد كل من المحتوى المنطوق وهوية المتحدث.

كيف تعمل تقنية التعرف التلقائي على الكلام؟

يتم تقسيم أنظمة التعرف التلقائي على الكلام إلى فئتين رئيسيتين ؛ فئة غير معتمدة على المتحدث speaker independent و فئة معتمدة  على المتحدث speaker dependent . يتم تنظيم الأنظمة المعتمدة على المتحدث بحيث تتطلب التدريب ، ويشار إليها أحيانًا باسم “التسجيل”. يعمل هذا من خلال وجود متحدث يقرأ نصًا ، أو سلسلة من المفردات المعزولة ، في النظام. بعد ذلك ، سيقوم النظام بمعالجة التسجيلات الصوتية وربطها بمكتبة النصوص. بعض أنظمة التعرف على الكلام لا تعتمد على التدريب الصوتي وتُعرف باسم الأنظمة المستقلة عن المتحدث speaker independent systems.

التعلم الآلي والتعرف على الكلام

يمكن استخدام الشبكات العصبية للتعامل مع مهمة التعرف التلقائي على الكلام بأداء لائق. بدأت الشبكات في البداية بمجموعة مهارات محدودة ، حيث تم استخدامها غالبًا في تصنيف الوحدات قصيرة الوقت مثل الكلمات المعزولة والصوتيات. ومع مرور الوقت ، أدت زيادة تعقيد الشبكات العصبية ، كما هو موضح في شبكات LSTM ، إلى زيادة الأداء.

شكل آخر من نماذج التعلم الآلي المستخدم يسمى النموذج القائم على الانتباه (“Attention Based Model “ASR ). تحاول هذه الأنظمة اتباع نهج شامل للتعرف على الكلام. على سبيل المثال ، أنشأت جامعة كارنيجي ميلون نموذجًا أطلق عليه اسم “الاستماع والحضور والتهجئة Listen, Attend and Spell (LAS). يستمع النموذج إلى الإشارة الصوتية ، ثم ينتبه إلى أجزاء مختلفة من الإشارة ، قبل أن يتهجى الإشارة عبر نص حرف واحد في كل مرة. النماذج القائمة على الانتباه قادرة على معالجة المعلومات التي لا تستطيع النماذج التقليدية معالجتها، مثل النطق. منذ البداية الأولية لنموذج LAS ، تم استكمال الإضافات لزيادة قدرات نموذج LAS. على سبيل المثال ، قام برنامج DeepMind من Google بتوسيع LAS ليصبح نموذج “المشاهدة والاستماع والحضور والتهجئة” حيث تكون الشبكة قادرة على قراءة وفك شفرات قراءة الشفاه ، وغالبًا ما تتجاوز الأداء على المستوى البشري.

 

Share on facebook
فاسبوك
Share on twitter
تويتر
Share on linkedin
لينكد إن
Share on whatsapp
واتساب

اترك تعليقاً

المشاركات الاخيرة

أحدث التعليقات

أفحص بحثك بالمجان

رفع الملف