التنقيب في البيانات Data mining

مقدمة

التنقيب في البيانات هي عملية إستخراج واكتشاف الأنماط في مجموعات البيانات الكبيرة التي تتضمن طرقًا عند تقاطع علوم التعلم الآلي والإحصاءات وأنظمة قواعد البيانات. يعد علم التنقيب في البيانات مجالًا فرعيًا متعدد التخصصات لعلوم الكمبيوتر والإحصاء بهدف إستخراج المعلومات (باستخدام الأساليب الذكية) من مجموعة البيانات وتحويل المعلومات إلى بنية مفهومة للاستخدام الأمثل. التنقيب عن البيانات هو خطوة التحليل لعملية “اكتشاف المعرفة في قواعد البيانات” ، أو عملية اكتشاف المعرفة في قواعد البيانات التي يختصر إسمها ب KDD.  بصرف النظر عن خطوة التحليل الأولية ، فإنه يتضمن أيضًا جوانب إدارة قواعد البيانات ، والمعالجة المسبقة للبيانات ، واعتبارات النموذج والاستدلال ، ومقاييس الاهتمام ، واعتبارات التعقيد ، والمعالجة اللاحقة للهياكل المكتشفة ، والتصور ، والتحديث عبر الإنترنت.

التنقيب في البيانات واتخاذ القرار - تجارتنا

مصطلح “التنقيب عن البيانات” تسمية خاطئة ، لأن الهدف من هذا العلم هو فقط استخراج الأنماط والمعرفة من كميات كبيرة من البيانات ، وليس استخراج (تعدين) البيانات نفسها.  إنها أيضًا كلمة طنانة ويتم تطبيقها بشكل متكرر على أي شكل من أشكال البيانات أو معالجة البيانات على نطاق واسع (الجمع والاستخراج والتخزين والتحليل والإحصاءات) بالإضافة إلى أي تطبيق لنظام دعم قرارات الكمبيوتر ، بما في ذلك الذكاء الاصطناعي ( على سبيل المثال ، التعلم الآلي ML وذكاء الأعمال  BI

مهمة التنقيب عن البيانات الفعلية هي التحليل التلقائي أو شبه التلقائي لكميات ضخمة من البيانات لاستخراج أنماط مثيرة للاهتمام لم تكن معروفة من قبل مثل مجموعات سجلات البيانات (التحليل العنقودي cluster analysis) ، والسجلات غير العادية (اكتشاف الشذوذ anomaly detection) ، والتبعيات (التنقيب في قواعد الارتباط association rule mining ، تعدين النمط المتسلسل  sequential pattern mining). يتضمن هذا عادةً استخدام تقنيات قواعد البيانات مثل المؤشرات المكانية. يمكن بعد ذلك النظر إلى هذه الأنماط كنوع من ملخص لبيانات الإدخال ، ويمكن استخدامها في مزيد من التحليل أو ، على سبيل المثال ، في التعلم الآلي والتحليلات التنبؤية. على سبيل المثال ، قد تحدد خطوة استخراج البيانات مجموعات متعددة في البيانات ، والتي يمكن استخدامها بعد ذلك للحصول على نتائج تنبؤ أكثر دقة من خلال نظام دعم القرار. لا يعد جمع البيانات أو إعداد البيانات أو تفسير النتائج وإعداد التقارير جزءًا من خطوة استخراج البيانات ، ولكنها تنتمي إلى عملية KDD الشاملة كخطوات إضافية.

الفرق بين تحليل البيانات واستخراج البيانات هو أن تحليل البيانات يستخدم لاختبار النماذج والفرضيات على مجموعة البيانات ، على سبيل المثال ، تحليل فعالية حملة تسويقية ، بغض النظر عن كمية البيانات ؛ في المقابل ، يستخدم التنقيب عن البيانات التعلم الآلي والنماذج الإحصائية للكشف عن الأنماط السرية أو الخفية في حجم كبير من البيانات.

تشير المصطلحات ذات الصلة ، تجريف البيانات ، وصيد البيانات ، وتطفل البيانات إلى استخدام طرق استخراج البيانات لأخذ عينات من مجموعة بيانات أكبر حجمًا (أو قد تكون) صغيرة جدًا بحيث لا يمكن إجراء استنتاجات إحصائية موثوقة حول صحة أي اكتشف الأنماط. ومع ذلك ، يمكن استخدام هذه الأساليب في إنشاء فرضيات جديدة لاختبارها مقابل مجموعات البيانات الأكبر.

طرق المعالجة

هناك طرق مختلفة للتنقيب في البيانات سنستعرض في هذا المقال ثلاث عمليات شائعة مختلفة في هذا المجال.

  • عملية اكتشاف المعرفة في قواعد البيانات (KDD) بشكل عام تمر هذة العملية بالمراحل التالية:
  1. إختيار البيانات Selection
  2. ما قبل معالجة البيانات Pre-processing
  3. تحويل البيانات Transformation
  4. التنقيب في البيانات Data mining
  5. التفسير / التقييم Interpretation/evaluation
  •  العملية القياسية للتنقيب في البيانات Cross-industry standard process for data mining (CRISP-DM) التي تحدد في  ست مراحل :
  1. فهم الأعمال Business understanding
  2. فهم البيانات Data understanding
  3. تحضير البيانات Data preparation
  4. النمذجة Modeling
  5. التقييم Evaluation
  6. التعيين Deployment

 

  • عملية أخرى مبسطة  تتكون من ثلاث مراحل
  1. المعالجة المسبقة
  2. التنقيب في البيانات
  3. التحقق من النتائج.

تشير استطلاعات الرأي التي أجريت في 2002 و 2004 و 2007 و 2014 إلى أن منهجية CRISP-DM هي المنهجية الرائدة المستخدمة من قبل باحثي التنقيب في البيانات مقارنة بمنهجية (SEMMA (SampleExploreModifyModel, and Assess .

المهام الرئيسية في مجال التنقيب في البيانات

يتضمن التنقيب في البيانات ستة مهام رئيسية شائعة

  1. اكتشاف الشذوذ في البيانات (الكشف عن الانحراف / التغيير Anomaly detection) – هي مهمة تحديد سجلات البيانات غير العادية ، التي قد تكون مثيرة للاهتمام أو أخطاء البيانات التي تتطلب مزيدًا من التحقيق.
  2. تعلم قواعد الارتباط (نمذجة التبعية Association rule learning) – تبحث هذه المهمة عن العلاقات بين المتغيرات. على سبيل المثال ، قد يجمع السوبر ماركت بيانات عن عادات الشراء لدى العملاء. باستخدام تعلم قواعد الارتباط ، يمكن للسوبر ماركت تحديد المنتجات التي يتم شراؤها بشكل متكرر معًا واستخدام هذه المعلومات لأغراض التسويق. يشار إلى هذا أحيانًا باسم تحليل سلة السوق.
  3. التجميع أو العنقدة Clustering – هي مهمة اكتشاف المجموعات والهياكل في البيانات التي تكون “متشابهة” بطريقة أو بأخرى ، دون استخدام الهياكل المعروفة في البيانات.
  4. التصنيف Classification – هي مهمة تعميم البنية المعروفة لتطبيقها على البيانات الجديدة. على سبيل المثال ، قد يحاول برنامج البريد الإلكتروني تصنيف بريد إلكتروني على أنه “شرعي” أو “بريد عشوائي”.
  5. الانحدار Regression – مهمة الإنحدار تحاول العثور على دالة تقوم بنمذجة البيانات بأقل خطأ ، لتقدير العلاقات بين متغيرات مجموعة البيانات.
  6. التلخيص Summarization  – توفير تمثيل أكثر إحكاما لمجموعة البيانات ، بما في ذلك التمثيل المرئي وإنشاء التقارير.
Share on facebook
فاسبوك
Share on twitter
تويتر
Share on linkedin
لينكد إن
Share on whatsapp
واتساب

اترك تعليقاً

المشاركات الاخيرة

أحدث التعليقات

أفحص بحثك بالمجان

رفع الملف