مصنف الانحدار اللوجستي Logistic Regression Classifier

يعتبر نموذج الانحدار اللوجستي واحد من أهم النماذج الإحصائية لنمذجة إحتمالية وجود فئة معينة أو حدث معين مثل النجاح / الفشل. وذلك نظرا لأن الانحدار اللوجستي يستخدم عدة متغيرات مُتوقَّعة والتي يمكن أن تكون مستمرة أو فئوية. يمكن توسيع هذا لنمذجة عدة فئات من الأحداث مثل تحديد ما إذا كانت الصورة تحتوي على قط أو نمر أو سمك ، وما إلى ذلك. سيتم تعيين احتمال بين 0 و 1 لكل كائن يتم اكتشافه في الصورة ، بحيث يكون المجموع الكلي يساوي واحد. يعرف الانحدار اللوجستي أيضا بتسميات أخرى كنموذج لوجيت (Logit) أو المصنف العام للأنتروبية. يندرج الانحدار اللوجستي ضمن خوارزميات التعلم الآلي الخاضع للإشراف المخصصة لمهام  التصنيف. اكتسب على مدى العقدين الماضيين إهتمام خاص خاصة في القطاع المالي بسبب قدرته البارزة في الكشف عن المختلسين. أدناه مخطط للإستخدام العام للانحدار اللوجستي وغيره من المصنفات الخطية الشائعة.

نموذج الانحدار اللوجستي
نموذج الانحدار اللوجستي و النماذج الاخرى

كيف يعمل نموذج الانحدار اللوجستي

يظهر للوهلة الاولى عند قراءة إسم النموذج التناقض عندما نقول أن النموذج يستخدم للتصنيف و في نفس الوقت يحتوي إسمه على مصطلح “الانحدار”. لكن هذا هو السبب في أن الانحدار اللوجستي هو نموذج يستحق الاهتمام. حيث أنه يستخدام معادلة الانحدار الخطي لتوقع مخرجات ثنائية منفصلة. علاوة على ذلك، يتم تصنيفه ضمن “نماذج التمييز” لطرق تعلم الآلة مثل خوارزمية الة المتجه الدعم SVM و خوارزمية Perceptron ANN حيث تستخدم جميعها المعادلات الخطية ككتلة بناء وتحاول زيادة جودة المخرجات في بيانات التدريب.

لفهم كيفية عمل خوارزمية الانحدار اللوجستي يجب في البداية الاجابة عن الأسئلة التالية:

  • ما تعريف التصنيف؟
  • لماذا لا يتم إستخدم الانحدار الخطي لحل مهام التصنيف؟
  • ماهي خوارزمية الانحدار اللوجستي؟
  • ما هي حدود القرار؟
  • كيف نتتحقق من أداء النموذج؟

ما تعريف التصنيف؟

في البداية تعرف أي مشكلة كمشكلة تصنيف عندما تكون المتغيرات المستقلة مستمرة بطبيعتها ويكون المتغير التابع على شكل فئوي. بمعنى اخر، أي في فئات مثل الفئة أ او الفئة ب. على سبيل المثال ، مهمة تصنيف البريد الإلكتروني على أنه بريد عشوائي أم لا. أيضا تصنيف الورم على أنه خبيث أو حميد ، وكذلك تصنيف المعاملة المالية على أنها احتيالية أو حقيقية. جميع إجابات هذه المشكلات تكون على شكل فئوي ، أي  ب نعم أو لا. أحيانا قد نواجه مهام تصنيف تكون النتاتج المتوقعة فيها أكثر من فئتين و تُعرف هذه الأنواع من المهام بمهام التصنيف متعددة الفئات.

لماذا لا يتم إستخدم الانحدار الخطي لحل مهام التصنيف؟

لنفترض مثلا أن لدينا بيانات عن نوع الورم (ورم حميد او ورم خبيث) و ذلك استنادا الى حجم الورم. نظرًا لأنها تعتبر مهمة تصنيف ، إذا قمنا برسم البيانات على منحنى بياني، يمكننا أن نرى أن جميع القيم على تقع اما على 0 او على 1. وإذا قمنا بملائمة أفضل خط انحدار ، بافتراض الحد الأدنى عند 0.5 ، فيمكننا القيام بعمل خط معقول.

Image for post

يمكننا تحديد النقطة الموجودة على المحور الافقي حيث تقع جميع القيم على جانبها الأيسر تعتبر فئة سالبة وجميع القيم الموجودة على جانبها الأيمن هي فئة موجبة.

Image for post

ولكن ماذا لو كان هناك قيم متطرفة في البيانات. ستصبح الأمور فوضوية جدًا. على سبيل المثال الشكل الموضح أدناه:

Image for post

إذا طبقنا أفضل خط انحدار تم العثور عليه ، فلن يكون كافياً لتحديد أي نقطة يمكننا من خلالها التمييز بين الفئات. سيضع بعض العينات ذات الصفة الإيجابية في فئة العينات ذات الصفة السلبية. الخط الأخضر المنقط (حدود القرار) في حالة وجود القيم المتطرفة حيث يقسم الأورام الخبيثة عن الأورام الحميدة مع نسبة خطأ كبيرة. و ذلك يتجلى بوضوح في مدى بعد الخط الاخضر عن الخط الأصفر الذي يقسم بوضوح العينات الإيجابية و السلبية. لذا فإن مجرد قيمة شاذة واحدة قد تخرب توقعات الانحدار الخطي بأكمله. وهذا هو الموضع الذي تظهر فيه أهمية الانحدار اللوجستي.

ماهي خوارزمية الانحدار اللوجستي؟

كما تم مناقشته سابقًا ، للتعامل مع القيم المتطرفة ، يستخدم الانحدار اللوجستي الدالة السينية. و يمكن أن يبدأ تفسير الانحدار اللوجستي بشرح الدالة اللوجستية القياسية. الدالة اللوجستية هي الدالة السينية  sigmoid function ، و التي تأخذ أي قيمة حقيقية بين صفر و واحد. يتم تعريفها رياضيا على الشكل التالي

Image for post

وإذا رسمناها بيانيا ، فسيكون الرسم البياني على شكل منحنى حرف S لذلك تسمى بالدالة السينية

Image for post

لنفكر في t كدالة خطية في نموذج الانحدار أحادي المتغير

Image for post

لذلك ستصبح المعادلة اللوجستية على الشكل التالي

Image for post

الآن ، عندما يصادف نموذج الانحدار اللوجستي بيانات شاذة ، فسوف يتعامل معها.

Image for post

لكن في بعض الأحيان ستحول محورها العمودي إلى اليسار أو اليمين اعتمادًا على كمية وجود القيم المتطرفة.

ما هي حدود القرار؟

أما فيما يتعلق بأهمية حدود القرار فهي تبرز في المساعدة على التفريق بين الاحتمالات إلى عينات موجبة و عينات سالبة.

حدود القرار الخطي

Image for post

Image for post

حدود القرار الغير خطي

Image for post

 

كيف نتتحقق من أداء نموذج الانحدار اللوجستي؟

أما بالنسبة للتحقق من اداء نموذجنا فيمكننا التأكد من ذلك باستخدام مصفوفة الارتباك confusion matrix و منحنى AUC – ROC.

مزايا و عيوب الخوارزمية

 

المزايا العيوب

الانحدار اللوجستي أسهل في التنفيذ والتفسير والتدريب الفعال للغاية

إذا كان عدد الملاحظات أقل من عدد الميزات ، فلا ينبغي استخدام الانحدار اللوجستي ، وإلا فقد يؤدي إلى فرط مشكلة فرط التخصيص

لا يقدم أي افتراضات حول توزيعات الفئات في حدود الميزة

يبني حدود خطية

يمكن أن يتوسع بسهولة إلى فئات متعددة (الانحدار متعدد الحدود)  ووجهة نظر احتمالية طبيعية للتنبؤات الفئوية

القيد الرئيسي للانحدار اللوجستي هو افتراض الخطية بين المتغير التابع و المتغيرات المستقلة

لا يوفر فقط مقياسًا لمدى ملاءمة التنبؤ (حجم المعامل) ، ولكن أيضًا إتجاه معامل إرتباطه (إيجابي أو سلبي)

يمكن استخدامه فقط للتنبؤ بالدوال غير المترابطة. ومن ثم ، فإن المتغير التابع للانحدار اللوجستي مرتبط بمجموعة الأرقام المنفصلة.

سريع جدًا في تصنيف السجلات غير المعروفة.

لا يمكن حل المسائل غير الخطية باستخدام الانحدار اللوجستي. و نادرًا ما توجد البيانات القابلة للفصل خطيًا في السيناريوهات الواقعية في الحياة اليومية

ذو كفاءة جيدة في التعامل مع البيانات البسيطة و يعمل بشكل جيد أيضا عندما تكون مجموعة البيانات قابلة للفصل بشكل خطي.

يتطلب الانحدار اللوجستي عدم وجود علاقة خطية متعددة بين المتغيرات المستقلة.

يمكنه تفسير معاملات النموذج كمؤشرات لأهمية الميزة.

من الصعب الحصول على علاقات معقدة باستخدام الانحدار اللوجستي. يمكن للخوارزميات الأكثر قوة و صغرًا مثل الشبكات العصبية أن تتفوق بسهولة على هذه الخوارزمية.

الانحدار اللوجستي لا يميل إلى الإفراط في الملاءمة التخصيص، ولكنه قد يزيد من الملاءمة في مجموعات البيانات ذو الأبعاد المتعددة، و لتفادي الإفراط في التخصيص يمكن إستخدام تقنيات الضبط (L1 و L2).

في الانحدار الخطي ، ترتبط المتغيرات المستقلة والتابعة بشكل خطي. لكن في الانحدار اللوجستي يحتاج إلى أن تكون المتغيرات المستقلة مرتبطة خطيًا ب لوغاريتم الاحتمالات

\mathrm{logit} (p)= \log (\frac {p}{1-p})

التطبيق العملي لخوارزمية الإنحدار اللوجستي سنناقشه في المقال التالي.

المراجع

1- المرجع الاول 

2- المرجع الثاني 

3- المرجع الثالث

Share on facebook
فيسبوك
Share on twitter
تويتر
Share on linkedin
لينكدإن
Share on whatsapp
واتساب

اترك تعليقاً

المشاركات الاخيرة

أحدث التعليقات

أفحص بحثك بالمجان

رفع الملف