تعريف خوارزمية AdaGrad
خوارزمية ال AdaGrad هي نوع أخر من خوارزميات التحسين التابعة للتدرج العشوائي stochastic gradient حيث تقوم بتحديث معدل التعلم learning rate لكل معلمة. بدلاً من إعتماد معدل تعلم عام واحد ، تحافظ خوارزمية AdaGrad على معدل تعلم مختلف لكل معلمة ، مما يحسن الأداء بشكل كبير خاصة في المشكلات ذات التدرجات المختلفة، مثل مشكلات برمجة اللغات الطبيعية NLP أو مشكلات الرؤية الحاسوبية Computer vesion.
كيف تعمل خوارزمية AdaGrad؟
بالنسبة للمعلمات المرتبطة بالميزات التي يتم تحديثها بشكل متكرر ، تكون التحديثات نوعا ما صغيرة ، أي أن معدل التعلم learning rate يكون منخفض. بالنسبة للمعلمات ذات الميزات التي يتم تحديثها بشكل متقطع أو غير متكرر، تكون التحديثات نوعا ما كبيرة ، و يكون معدل التعلم خاصتها عالي. لذلك تتميز هذه التقنية بميزة الإسراع في التعلم لمجموعة البيانات المتنوعة. بالإضافة إلى ذلك ، تلغي خوارزمية ال Adagrad الحاجة إلى قيام المدرب بضبط معدل التعلم learning rate يدويًا.
مع ذلك ، فإن أبرز عيوب خوارزمية AdaGrad هو أن التدرجات المربعة squared gradients في المقام denominator تستمر في التراكم. كل قيمة إضافية هي قيمة موجبة، لذلك تستمر القيمة المتراكمة في النمو أثناء التدريب. مما يؤدي هذا إلى تقليل معدل التعلم حتى يصبح صغيرًا جدًا ، مما يجعل الخوارزمية في النهاية غير قادرة على اكتساب معرفة إضافية.
بدائل خوارزمية AdaGrad
تم إنشاء العديد من الخوارزميات البديلة لحل هذه المشكلات إلى جانب خوارزمية AdaGrad. فيما يلي أكثر الخوارزميات شيوعا: خوارزمية Adadelta ، خوارزمية أدام ADAM ، خوارزمية AdaMax ، خوارزمية AmsGrad ، خوارزمية RMSprop
يمكن مشاهدة الفيديوهات أدناع لتوضيح مبدأ عمل خوارزميات التحسين و خوارزمية Adagrad