قائمة مصطلحات التعلم الآلي (08): خوارزمية AdaGrad أو خوارزمية التدرج الفرعي التكيفي Adaptive Gradient Algorithm

تعريف خوارزمية AdaGrad

خوارزمية ال AdaGrad  هي نوع أخر من خوارزميات التحسين التابعة للتدرج العشوائي stochastic gradient حيث تقوم بتحديث معدل التعلم learning rate لكل معلمة. بدلاً من إعتماد معدل تعلم عام واحد ، تحافظ خوارزمية AdaGrad على معدل تعلم مختلف لكل معلمة ، مما يحسن الأداء بشكل كبير خاصة في المشكلات ذات التدرجات المختلفة، مثل مشكلات برمجة اللغات الطبيعية NLP أو مشكلات الرؤية الحاسوبية Computer vesion.

كيف تعمل خوارزمية AdaGrad؟

بالنسبة للمعلمات المرتبطة بالميزات التي يتم تحديثها بشكل متكرر ، تكون التحديثات نوعا ما صغيرة ، أي أن معدل التعلم learning rate يكون منخفض. بالنسبة للمعلمات ذات الميزات التي يتم تحديثها بشكل متقطع أو غير متكرر، تكون التحديثات نوعا ما كبيرة ، و يكون معدل التعلم خاصتها عالي. لذلك تتميز هذه التقنية بميزة الإسراع في التعلم لمجموعة البيانات المتنوعة. بالإضافة إلى ذلك ، تلغي خوارزمية ال Adagrad الحاجة إلى قيام المدرب بضبط معدل التعلم learning rate يدويًا.

مع ذلك ، فإن أبرز عيوب خوارزمية AdaGrad هو أن التدرجات المربعة squared gradients في المقام denominator تستمر في التراكم. كل قيمة إضافية هي قيمة موجبة، لذلك تستمر القيمة المتراكمة في النمو أثناء التدريب. مما يؤدي هذا إلى تقليل معدل التعلم حتى يصبح صغيرًا جدًا ، مما يجعل الخوارزمية في النهاية غير قادرة على اكتساب معرفة إضافية.

بدائل خوارزمية AdaGrad

تم إنشاء العديد من الخوارزميات البديلة لحل هذه المشكلات إلى جانب خوارزمية AdaGrad. فيما يلي أكثر الخوارزميات شيوعا: خوارزمية Adadelta ، خوارزمية أدام ADAM ، خوارزمية AdaMax ، خوارزمية AmsGrad ، خوارزمية RMSprop

يمكن مشاهدة الفيديوهات أدناع لتوضيح مبدأ عمل خوارزميات التحسين و خوارزمية Adagrad

Share on facebook
فيسبوك
Share on twitter
تويتر
Share on linkedin
لينكدإن
Share on whatsapp
واتساب

اترك تعليقاً

المشاركات الاخيرة

أحدث التعليقات

أفحص بحثك بالمجان

رفع الملف