مصنف الإنحدار اللوجستي Logistic Regression Classifier

يعتبر النموذج اللوجستي واحد من أهم النماذج الإحصائية لنمذجة إحتمالية وجود فئة أو حدث معين مثل النجاح / الفشل. حيث أن الانحدارُ اللوجستي يستخدم عدة متغيرات مُتوقَّعة والتي يمكن أن تكون رقمية أو فئوية. يمكن توسيع هذا لنمذجة عدة فئات من الأحداث مثل تحديد ما إذا كانت الصورة تحتوي على قط أو نمر أو سمك ، وما إلى ذلك. سيتم تعيين احتمال بين 0 و 1 لكل كائن يتم اكتشافه في الصورة ، بحيث يكون المجموع الكلي يساوي واحد. يعرف الانحدار اللوجستي أيضا بتسميات أخرى كنموذج لوجيت (Logit) أو المصنف العام للأنتروبية. يندرج الانحدار اللوجستي ضمن خوارزميات التعلم الآلي الخاضع للإشراف المخصصة لمهام “التصنيف” . اكتسب على مدى العقدين الماضيين سمعة طيبة خاصة في القطاع المالي بسبب قدرته البارزة في الكشف عن المختلسين. أدناه مخطط للإستخدام العام للانحدار اللوجستي وغيره من المصنفات الخطية الشائعة.

Image result for Figure-1: Linear Classifiers and their Usage

كيف يعمل الإنحدار اللوجستي

يظهر للوهلة الاولى عند قراءة إسم النموذج التناقض عندما نقول أن النموذج يستخدم للتصنيف و في نفس الوقت يحتوي إسمه على مصطلح “الانحدار”  ، ولكن هذا هو السبب في أن الانحدار اللوجستي هو نموذج رهيب: حيث أنه يستخدام معادلة الانحدار الخطي لتوقع مخرجات ثنائية منفصلة. أيضا، يتم تصنيفه ضمن “نماذج التمييزية” لطرق تعلم الآلة مثل Support Vector Machines و Perceptron حيث تستخدم جميعها المعادلات الخطية ككتلة بناء وتحاول زيادة جودة المخرجات في بيانات التدريب.

لفهم كيفية عمل الانحدار اللوجستي يجب بالبداية الاجابة عن الأسئلة التالية:

ما تعريف مشاكل -مسائل- التصنيف؟
لماذا لا يتم إستخدم الانحدار الخطي؟
خوارزمية الانحدار اللوجستي؟
ما هي حدود القرار Decision Boundary؟
كيف نتتحقق من أداء النموذج؟

في البداية تعرف أي مشكلة كمشكلة تصنيف عندما تكون المتغيرات المستقلة مستمرة بطبيعتها ويكون المتغير التابع في شكل فئوي ، أي في فئات مثل الفئة الإيجابية والفئة السلبية. سيكون المثال الواقعي في حياتنا اليومية لمثال التصنيف هو تصنيف البريد الإلكتروني على أنه بريد عشوائي أو ليس بريدًا عشوائيًا ، لتصنيف الورم على أنه خبيث أو حميد ، وتصنيف المعاملة على أنها احتيالية أو حقيقية. جميع إجابات هذه المشكلات في شكل فئوي ، أي  ب نعم أو لا ، وهذا هو سبب كونهما مشكلتين في التصنيف الطبقي. على الرغم من أننا نواجه أحيانًا أكثر من فئتين و مع ذلك لا تزال المشكلة تعتبر مشكلة تصنيف. و تُعرف هذه الأنواع من المشكلات بمشكلات التصنيف متعدد الفئات.

Image for post

ثانيا لماذا لا يتم إستخدام الإنحدار الخطي في حل مشاكل التصنيف؟ لنفترض مثلا أن لدينا بيانات عن حجم الورم مقابل الورم الخبيث. نظرًا لأنها مشكلة تصنيف ، إذا قمنا بالتخطيط ، يمكننا أن نرى ، ستقع جميع القيم على 0 و 1. وإذا قمنا بتلائم أفضل خط انحدار ، بافتراض الحد الأدنى عند 0.5 ، فيمكننا القيام بعمل خط معقول جدًا.

Image for post

يمكننا تحديد النقطة الموجودة على المحور x حيث تقع جميع القيم على جانبها الأيسر تعتبر فئة سالبة وجميع القيم الموجودة في جانبها الأيمن هي فئة موجبة.

Image for post

ولكن ماذا لو كان هناك قيم شاذة في البيانات. ستصبح الأمور فوضوية جدًا. على سبيل المثال ، لـ عتبة ال 0.5 ،

Image for post

إذا طبقنا أفضل خط انحدار تم العثور عليه ، فلن يكون كافياً لتحديد أي نقطة يمكننا من خلالها التمييز بين الفئات. سيضع بعض الأمثلة الصفية الإيجابية في فئة سلبية. الخط الأخضر المنقط (حدود القرار) يقسم الأورام الخبيثة عن الأورام الحميدة ولكن يجب أن يكون الخط في الخط الأصفر الذي يقسم بوضوح الحالات الإيجابية والسلبية. لذا فإن مجرد قيمة شاذة واحدة قد تخرب توقعات الانحدار الخطي بأكمله. وهذا هو المكان الذي تظهر فيه أهمية الانحدار اللوجستي.

خوارزمية الانحدار اللوجستي
كما تم مناقشته سابقًا ، للتعامل مع القيم المتطرفة ، يستخدم الانحدار اللوجستي دالة سيقمويد Sigmoid function. و يمكن أن يبدأ تفسير الانحدار اللوجستي بشرح الدالة اللوجستية القياسية. الدالة اللوجستية هي دالة Sigmoid ، والتي تأخذ أي قيمة حقيقية بين صفر وواحد. يتم تعريفها رياضيا على الشكل التالي

Image for post

وإذا رسمناها بيانيا ، فسيكون الرسم البياني على شكل منحنى S

Image for post

لنفكر في t كدالة خطية في نموذج الانحدار أحادي المتغير

Image for post

لذلك ستصبح المعادلة اللوجستية على الشكل التالي

Image for post

الآن ، عندما يصادف نموذج الانحدار اللوجستي بيانات شاذة ، فسوف يتعامل معها.

Image for post

لكن في بعض الأحيان ستحول محورها الصادي إلى اليسار أو اليمين اعتمادًا على كمية وجود القيم الشاذة.

أما بالنسبة لأهمية حدود القرار Decision Boundary فهي تبرز في المساعدة على التفريق بين الاحتمالات إلى فئات موجبة وفئات سالبة.

حدود القرار الخطي

Image for post

Image for post

حدود القرار الغير خطي

Image for post

 

أما بالنسبة للتحقق من اداء نموذجنا فيمكننا التأكد من ذلك باستخدام مصفوفة الارتباك confusion matrix ومنحنى AUC – ROC.

مزايا و عيوب الإنحدار اللوجستي

المزايا العيوب

الانحدار اللوجستي أسهل في التنفيذ والتفسير

والتدريب الفعال للغاية.

إذا كان عدد الملاحظات observations أقل

من عدد الميزات features، فلا ينبغي استخدام

الانحدار اللوجستي ، وإلا فقد يؤدي إلى فرط التلائم overfitting.

لا يقدم أي افتراضات حول توزيعات الفئات في

حدود الميزة.

يبني حدود خطية.

يمكن أن يتوسع بسهولة إلى فئات متعددة

(الانحدار متعدد الحدود) ووجهة نظر احتمالية

طبيعية لتنبؤات الفوئية.

القيد الرئيسي للانحدار اللوجستي هو افتراض

الخطية بين المتغير التابع والمتغيرات المستقلة.

لا يوفر فقط مقياسًا لمدى ملاءمة التنبأ

(حجم المعامل) ، ولكن أيضًا إتجاه معامل ارتباطه (إيجابي أو سلبي)

يمكن استخدامه فقط للتنبؤ بالوظائف المنفصلة.

ومن ثم ، فإن المتغير التابع للانحدار اللوجستي

مرتبط بمجموعة الأرقام المنفصلة.

سريع جدًا في تصنيف السجلات غير المعروفة.

لا يمكن حل المسائل غير الخطية باستخدام الانحدار

اللوجستي نظرًا لوجود سطح قرار خطي linear decision

surface. و نادرًا ما توجد البيانات القابلة للفصل خطيًا في

السيناريوهات الواقعية في الحياة اليومية

ذو كفاءة جيدة في التعامل مع البيانات البسيطة

وهي تعمل بشكل جيد أيضا عندما تكون مجموعة

البيانات قابلة للفصل بشكل خطي.

يتطلب الانحدار اللوجستي متوسط أو عدم وجود

علاقة خطية متعددة بين المتغيرات المستقلة.

يمكنه تفسير معاملات النموذج كمؤشرات لأهمية الميزة.

من الصعب الحصول على علاقات معقدة باستخدام

الانحدار اللوجستي. يمكن للخوارزميات الأكثر قوة

وصغرًا مثل الشبكات العصبية أن تتفوق بسهولة على

هذه الخوارزمية.

الانحدار اللوجستي لا يميل إلى الإفراط في

الملاءمة overfitting، ولكنه قد يزيد من الملاءمة

في مجموعات البيانات ذو الأبعاد العديدة،

و لتفادي الإفراط في الملاءمة overfitting

يمكن إستخدام تقنيات التنظيم

Regularization techniques (L1 و L2).

في الانحدار الخطي ، ترتبط المتغيرات المستقلة

والتابعة بشكل خطي. لكن الانحدار اللوجستي

يحتاج إلى أن تكون المتغيرات المستقلة مرتبطة

خطيًا ب لوغاريتم الاحتمالات logarithm of the odds.

\mathrm{logit} (p)= \log (\frac {p}{1-p})

 

التطبيق العملي لخوارزمية الإنحدار اللوجستي سنناقشه في المقال التالي بمشيئة الله

 

المراجع

1- المرجع الاول 

2- المرجع الثاني 

3- المرجع الثالث

Share on facebook
فاسبوك
Share on twitter
تويتر
Share on linkedin
لينكد إن
Share on whatsapp
واتساب

اترك تعليقاً

المشاركات الاخيرة

أحدث التعليقات

أفحص بحثك بالمجان

رفع الملف