This post is also available in: English (الإنجليزية) हिन्दी (الهندية)
ما هو تحضير البيانات في التعلم الآلي؟
إعداد البيانات (يشار إليه أيضًا باسم “المعالجة المسبقة للبيانات”) هو عملية تحويل البيانات الأولية بحيث يمكن لعلماء البيانات والمحللين تشغيلها من خلال خوارزميات التعلم الآلي للكشف عن الرؤى أو إجراء التنبؤات.
خطوات تحضير البيانات
أصبح تقليل الوقت اللازم لإعداد البيانات أمرًا مهمًا بشكل متزايد ، حيث يترك المزيد من الوقت لاختبار النماذج وضبطها وتحسينها لخلق قيمة أكبر. لإعداد البيانات لكل من التحليلات ومبادرات التعلم الآلي ، يمكن للفرق تسريع مشروعات التعلم الآلي وعلوم البيانات لتقديم تجربة عمل غامرة للمستهلكين تسرع وأتمتة خط أنابيب البيانات إلى الرؤى باتباع ست خطوات حاسمة:
1. جمع البيانات
كمجتمع ، نحن ننتج البيانات بمعدل غير مسبوق. يمكن أن تكون هذه البيانات رقمية (درجة الحرارة ، ومبلغ القرض ، ومعدل الاحتفاظ بالعملاء) ، أو فئوية (الجنس ، أو اللون ، أو أعلى درجة مكتسبة) ، أو حتى نصًا مجانيًا (ملاحظات الطبيب أو استطلاعات الرأي).
Data Collection
جمع البيانات هو عملية جمع وقياس المعلومات من مصادر مختلفة لا حصر لها. من أجل استخدام البيانات التي نجمعها لتطوير حلول الذكاء الاصطناعي والتعلم الآلي العملية ، يجب جمعها وتخزينها بطريقة منطقية لمشكلة العمل المطروحة.
2. استكشاف البيانات والتنميط
يعد استكشاف البيانات نهجًا مشابهًا لتحليل البيانات الأولي ، حيث يستخدم محلل البيانات الاستكشاف المرئي لفهم ما هو موجود في مجموعة البيانات وخصائص البيانات ، بدلاً من أنظمة إدارة البيانات التقليدية.
يمكن أن تشمل هذه الخصائص حجم أو مقدار البيانات ، واكتمال البيانات ، وصحة البيانات ، والعلاقات المحتملة بين عناصر البيانات أو الملفات / الجداول في البيانات.
يتم إجراء استكشاف البيانات عادةً باستخدام مجموعة من الأنشطة الآلية واليدوية. يمكن أن تتضمن الأنشطة المؤتمتة تنميط البيانات أو تصور البيانات أو التقارير المجدولة لمنح المحلل عرضًا أوليًا للبيانات وفهمًا للخصائص الرئيسية.
Data Profiling
غالبًا ما يتبع ذلك البحث اليدوي أو تصفية البيانات لتحديد الانحرافات أو الأنماط المحددة من خلال الإجراءات الآلية. يمكن أن يتطلب استكشاف البيانات أيضًا البرمجة النصية اليدوية والاستعلامات في البيانات (على سبيل المثال ، استخدام لغات مثل SQL أو R) أو استخدام جداول البيانات أو أدوات مماثلة لعرض البيانات الأولية.
تهدف كل هذه الأنشطة إلى إنشاء نموذج عقلي وفهم البيانات في ذهن المحلل ، وتحديد البيانات الوصفية الأساسية (الإحصائيات ، والهيكل ، والعلاقات) لمجموعة البيانات التي يمكن استخدامها في مزيد من التحليل.
بمجرد الحصول على هذا الفهم الأولي للبيانات ، يمكن تقليم البيانات أو تنقيحها عن طريق إزالة الأجزاء غير القابلة للاستخدام من البيانات (تنظيف البيانات) ، وتصحيح العناصر سيئة التنسيق ، وتحديد العلاقات ذات الصلة عبر مجموعات البيانات. تُعرف هذه العملية أيضًا باسم تحديد جودة البيانات.
3. تنسيق البيانات
تتمثل الخطوة التالية في إعداد البيانات في التأكد من تنسيق بياناتك بطريقة تناسب نموذج التعلم الآلي الخاص بك. إذا كنت تقوم بتجميع البيانات من مصادر مختلفة ، أو إذا تم تحديث مجموعة البيانات يدويًا من قبل أكثر من شخص واحد ، فمن المحتمل أن تكتشف حالات شاذة في كيفية تنسيق البيانات (على سبيل المثال USD5.50 مقابل 5.50 دولارات أمريكية).
بنفس الطريقة ، توحيد القيم في عمود ، على سبيل المثال ستضمن أسماء الدول التي يمكن توضيحها أو اختصارها) تجميع بياناتك بشكل صحيح. يزيل تنسيق البيانات المتسق هذه الأخطاء بحيث تستخدم مجموعة البيانات بأكملها نفس بروتوكولات تنسيق الإدخال.
4. تحسين جودة البيانات
هنا ، تبدأ العملية من خلال وجود إستراتيجية للتعامل مع البيانات الخاطئة والقيم المفقودة والقيم القصوى والقيم المتطرفة في بياناتك. يمكن أن تساعد أدوات إعداد بيانات الخدمة الذاتية إذا كانت لديها مرافق ذكية مضمنة للمساعدة في مطابقة سمات البيانات من مجموعات البيانات المتباينة لدمجها بذكاء. على سبيل المثال ، إذا كان لديك أعمدة لـ FIRST NAME و LAST NAME في مجموعة بيانات واحدة ومجموعة بيانات أخرى بها عمود يسمى CUSTOMER يبدو أنه يحتوي على FIRST و LAST NAME معًا ، فيجب أن تكون الخوارزميات الذكية قادرة على تحديد طريقة لمطابقتها والانضمام إلى مجموعات البيانات للحصول على عرض فريد للعميل.
بالنسبة للمتغيرات المستمرة ، تأكد من استخدام الرسوم البيانية لمراجعة توزيع بياناتك وتقليل الانحراف. تأكد من فحص السجلات خارج نطاق القيمة المقبول. يمكن أن يكون هذا “الخارج” خطأ إدخالاً ، أو قد يكون نتيجة حقيقية وذات مغزى يمكن أن تُعلم الأحداث المستقبلية حيث يمكن أن تحمل القيم المكررة أو المماثلة نفس المعلومات ويجب إزالتها. وبالمثل ، توخ الحذر قبل الحذف التلقائي لجميع السجلات ذات القيمة المفقودة ، حيث يمكن أن تؤدي عمليات الحذف الكثيرة إلى تحريف مجموعة البيانات الخاصة بك بحيث لا تعكس مواقف العالم الحقيقي مرة أخرى.
5. هندسة الخصائص
هندسة الميزات هي عملية استخدام معرفة المجال لاستخراج الميزات (الخصائص ، الخصائص ، السمات) من البيانات الأولية. الميزة هي خاصية مشتركة من قبل وحدات مستقلة يجب إجراء التحليل أو التنبؤ عليها. يتم استخدام الميزات من خلال النماذج التنبؤية والتأثير على النتائج.
يلعب اختيار الميزات دورًا حيويًا في بناء نموذج التعلم الآلي الذي يؤثر على أداء ودقة النموذج. هذه العملية هي التي تساهم في الغالب في التنبؤات أو المخرجات التي نحتاجها عن طريق اختيار الميزات تلقائيًا أو يدويًا. إذا كانت لدينا بيانات غير ذات صلة من شأنها أن تتسبب في زيادة ملاءمة النموذج أو عدم ملاءمته.
- مزايا اختيار الميزة هي:
- التقليل من التركيب الزائد / غير المناسب
- يحسن الدقة
- تقليل وقت التدريب / الاختبار
- يحسن الأداء
6. تقسيم البيانات إلى مجموعات التدريب والتقييم
الخطوة الأخيرة هي تقسيم بياناتك إلى مجموعتين ؛ واحد لتدريب الخوارزمية الخاصة بك والآخر لأغراض التقييم. تأكد من تحديد مجموعات فرعية غير متداخلة من بياناتك لمجموعات التدريب والتقييم من أجل ضمان الاختبار المناسب. استثمر في الأدوات التي توفر إصدارًا وفهرسة لمصدرك الأصلي بالإضافة إلى بياناتك المعدة للإدخال في خوارزميات التعلم الآلي ، والنسب بينها. بهذه الطريقة ، يمكنك تتبع نتيجة التنبؤات الخاصة بك إلى بيانات الإدخال لتنقيح النماذج وتحسينها بمرور الوقت.
العوامل المؤثرة في جودة البيانات في تحضير البيانات
يمكن أن تكون عملية إعداد البيانات معقدة بسبب مشكلات مثل:
1. السجلات المفقودة أو غير المكتملة
من الصعب الحصول على كل نقطة بيانات لكل سجل في مجموعة بيانات. تظهر البيانات المفقودة أحيانًا كخلايا أو قيم فارغة (على سبيل المثال ، NULL أو N / A) ، أو حرف معين ، مثل علامة الاستفهام. على سبيل المثال:
سن | وزن |
50 – 60 | ? |
20 – 30 | 50 – 75 |
80 – 90 | NULL |
50 – 60 | N/A |
50 – 60 | ? |
70 – 80 | 60 – 70 |
2. القيم المتطرفة أو الشذوذ
غالبًا ما تظهر القيم غير المتوقعة في توزيع القيم ، خاصة عند العمل مع بيانات من مصادر غير معروفة تفتقر إلى ضوابط التحقق من صحة البيانات الضعيفة.
3. البيانات المنسقة / المنظمة بشكل غير صحيح
تحتاج البيانات أحيانًا إلى استخراجها بتنسيق أو موقع مختلف. هناك طريقة جيدة لمعالجة هذا الأمر وهي استشارة خبراء المجال أو الانضمام إلى البيانات من مصادر أخرى.
4. القيم غير المتسقة والمتغيرات الفئوية غير المعيارية
في كثير من الأحيان عند دمج البيانات من مصادر متعددة ، يمكن أن ينتهي بنا الأمر بتغيرات في المتغيرات مثل أسماء الشركات أو الدول. على سبيل المثال ، يمكن أن تكون ولاية في نظام ما “تكساس” ، بينما في نظام آخر يمكن أن تكون “TX”. سيؤدي العثور على جميع الاختلافات والتوحيد بشكل صحيح إلى تحسين دقة النموذج بشكل كبير.
5. ميزات / سمات محدودة أو متفرقة
غالبًا ما يتطلب إثراء الميزات أو بناء الميزات في بياناتنا دمج مجموعات البيانات من مصادر متنوعة. غالبًا ما يتم إعاقة ربط الملفات من أنظمة مختلفة عندما لا توجد أعمدة سهلة أو دقيقة لمطابقة مجموعات البيانات. يتطلب هذا بعد ذلك القدرة على إجراء مطابقة غامضة ، والتي يمكن أن تستند أيضًا إلى دمج أعمدة متعددة لتحقيق التطابق. على سبيل المثال ، قد يكون من السهل دمج مجموعتي بيانات في معرّف العميل (موجودان في مجموعتي بيانات البيانات). يصبح دمج مجموعة البيانات التي تحتوي على أعمدة منفصلة للاسم الأول للعميل والاسم الأول للعميل مع مجموعة بيانات أخرى مع عمود الاسم الكامل للعميل ، والذي يحتوي على “اسم العائلة ، الاسم الأول” أكثر صعوبة.