خوارزمية أشجار القرار Decision Trees مقدمة , مميزات و عيوب هذه الخوارزمية -1

خوارزمية أشجار القرار (DTs) هي خوارزمية تعلم الي خاضع للإشراف غير بارامترية تستخدم في مسائل التصنيف والانحدار. الهدف من هذه الخوارزمية هو إنشاء نموذج يتنبأ بقيمة المتغير المستهدف من خلال تعلم قواعد القرار البسيطة المستنبطة من ميزات البيانات. يمكن رؤية الشجرة على أنها تقريب ثابت متعدد الصيغ.

على سبيل المثال ، في المثال أدناه ، تتعلم أشجار القرار من البيانات المدرجة رسم لتقريب منحنى جيبي بمجموعة من قواعد قرار “الشرط”. كلما كانت الشجرة أعمق ، زادت تعقيد قواعد القرار وأصبح النموذج أكثر ملاءمة.

../_images/sphx_glr_plot_tree_regression_0011.png

 

مميزات و عيوب خوارزمية أشجار القرار

مزايا خوارزمية أشجار القرار 

  • سهلة الفهم والتفسير و يمكن ذلك من خلال تصور الأشجار. و ينتج عنها مجموعة من القواعد.
  • تتطلب القليل من الجهد في إعداد البيانات. غالبًا ما تتطلب التقنيات الأخرى غملية توحيد البيانات Data Normalization، ويجب إنشاء متغيرات وهمية وإزالة القيم الفارغة. لاحظ مع ذلك أن هذه الوحدة لا تدعم القيم المفقودة.
  • قادرة على التعامل مع البيانات العددية والفئوية.
  • قادرة على التعامل مع المهام التي يكون فيها عدد الإخراجات متعددة Multi-outputs.
  • يمكن التحقق من صحة النموذج باستخدام الاختبارات الإحصائية. و هذا يجعل من الممكن حساب كفائة النموذج بدقة عالية.
  • يؤدي أداءً جيدًا حتى لو تم انتهاك افتراضاته إلى حد ما بواسطة النموذج الحقيقي الذي تم إنشاء البيانات منه.
  • تتبع هذه الخوارزمية نفس النهج الذي يتبعه البشر بشكل عام أثناء اتخاذ القرارات.
  • عدد المعلمات الفائقة hyper-parameters المراد ضبطها تكاد تكون خالية.

عيوب أشجار القرار ما يلي:

  • يمكن إنشاء أشجار شديدة التعقيد لا تعمم البيانات بشكل جيد. هذا يسمى الافراط في التناسب overfitting . آليات مثل التقليم -تقليم الشجرة- ، وتحديد الحد الأدنى لعدد العينات المطلوبة في عقدة ورقية ما أو تحديد أقصى عمق للشجرة ضرورية لتجنب هذه المشكلة.
  • يمكن أن تكون أشجار القرار غير مستقرة لأن الاختلافات الصغيرة في البيانات قد تؤدي إلى إنشاء شجرة مختلفة تمامًا. يتم تخفيف هذه المشكلة باستخدام أشجار القرار خلال المجموعة.
  • تنبؤات أشجار القرار ليست سلسة ولا مستمرة ، ولكنها تقديرات تقريبية ثابتة متعددة المستويات كما هو موضح في الشكل أعلاه. لذلك ، فهذه الخوارزمية لا تجيد الاستقراء.
  • من المعروف أن مشكلة تعلم شجرة القرار المثلى هي – مشكلة كثيرة الحدود غير قطعية كاملة NP-complete problems – تحت عدة جوانب من الأمثل وحتى للمفاهيم البسيطة. وبالتالي ، فإن خوارزميات تعلم شجرة القرار العملية تستند إلى خوارزميات إرشادية heuristic algorithms مثل الخوارزمية الجشعة greedy algorithm حيث يتم اتخاذ القرارات المثلى مكانيا في كل عقدة. لا يمكن أن تضمن هذه الخوارزميات إرجاع شجرة القرار الأمثل بالعموم. يمكن التخفيف من ذلك من خلال تدريب عدة أشجار في مجموعة متعلم ، حيث يتم أخذ عينات عشوائية من الميزات والعينات مع الاستبدال.
  • هناك مفاهيم يصعب تعلمها لأن أشجار القرار لا تعبر عنها بسهولة ، مثل مشاكل XOR أو التكافؤ أو معدد الإرسال.
  • ينشئ متعلمو شجرة القرار أشجارًا متحيزة إذا كانت بعض الفئات هي المسيطرة. لذلك يوصى بموازنة مجموعة البيانات قبل ملاءمتها مع شجرة القرار.
  • خوارزمية شجرة القرار بشكل عام ، تعطي دقة تنبؤ منخفضة لمجموعة بيانات مقارنة بخوارزميات التعلم الآلي الأخرى.
  • يعطي Information gain في شجرة القرار ذات المتغيرات الفئوية استجابة متحيزة للسمات ذات العدد الأكبر من الفئات.
  • يمكن أن تصبح الحسابات معقدة عندما يكون هناك العديد من تصنيفات الفئة class labels.

 

المراجع

Share on facebook
فاسبوك
Share on twitter
تويتر
Share on linkedin
لينكد إن
Share on whatsapp
واتساب

اترك تعليقاً

المشاركات الاخيرة

أحدث التعليقات

أفحص بحثك بالمجان

رفع الملف