• Home
  • /
  • Blog
  • /
  • شرح 6 خطوات أساسية في مناقشة البيانات للأطفال

شرح 6 خطوات أساسية في مناقشة البيانات للأطفال

data wrangling

This post is also available in: English (الإنجليزية) हिन्दी (الهندية)

ما هي مشاحنات البيانات؟

البيانات تغير العالم كل يوم. تعتمد معظم التطبيقات على هذه البيانات. غالبًا ما تكون بيانات العالم الحقيقي فوضوية وغير منظمة. يقضي علماء البيانات ما يقرب من 70 في المائة من الوقت في تنظيف البيانات وإعدادها لأنه لا يمكن أن تكون جميع البيانات المتاحة مفيدة في تنسيقها الخام. واحدة من أهم المهارات التي يجب أن يتمتع بها عالم البيانات هي القدرة على استخراج البيانات وتنظيفها. يشار إلى هذا عادةً باسم Wrangling Data أو Munching Data .

Data Wrangling هي عملية تحويل البيانات وتخطيطها من شكلها الأولي إلى تنسيق آخر بهدف جعلها أكثر قيمة ومناسبة للمهام المتقدمة مثل تحليلات البيانات وتعلم الآلة.

أهمية الجدل حول البيانات

تعد الخلافات حول البيانات مهمة للغاية لأنها الطريقة الوحيدة للاستفادة من البيانات الأولية. في إعدادات العمل في العالم الحقيقي ، تأتي معلومات المستخدم في أجزاء مختلفة من خلفيات مختلفة في أوقات مختلفة. في بعض الأحيان ، نقوم بتخزين هذه المعلومات عبر أجهزة كمبيوتر مختلفة عبر جداول بيانات مختلفة يمكن أن تؤدي إلى تكرار البيانات أو البيانات غير الصحيحة أو البيانات المفقودة. لإنشاء نظام شفاف وفعال لإدارة البيانات ، فإن أفضل حل هو أن تكون جميع البيانات في موقع مركزي حتى يمكن استخدامها بسهولة.

سيوضح المثال التالي أهمية Wrangling البيانات:

يريد موقع بيع الكتب عرض الكتب الأكثر مبيعًا في المجالات المختلفة ، وفقًا لتفضيلات المستخدم. على سبيل المثال ، يبحث مستخدم جديد عن كتب تحفيزية ، ويريد موقع الويب عرض تلك الكتب الأكثر بيعًا أو التي تتمتع بتصنيف عالٍ ، وما إلى ذلك.

CodingHero - شرح 6 خطوات أساسية في مناقشة البيانات للأطفال 1 6 Basic Steps in Data Wrangling Explained to Kids 952

ولكن على موقع الويب الخاص بهم ، قد يكون هناك الكثير من البيانات الأولية. يأتي الجدل حول البيانات للإنقاذ في هذه المرحلة وهو ما يقوم به علماء البيانات. سيقوم عالم البيانات بمناقشة البيانات بطريقة يتم فيها فرز الكتب التحفيزية لإظهار الكتب التي تم بيعها أكثر أو الحصول على تصنيفات عالية في أعلى القائمة. على أساس ذلك ، يختار المستخدم الجديد.

الخطوات الأساسية في مجادلة البيانات

تعد مشاحنات البيانات جزءًا من عملية تحليل البيانات مثلها مثل النتائج النهائية. يمنحك التجادل ، الذي يتم إجراؤه بشكل صحيح ، رؤى حول طبيعة بياناتك التي تتيح لك بعد ذلك طرح أسئلة أفضل عنها. الجدل ليس شيئًا يتم القيام به في ضربة واحدة ، ولكن بشكل تكراري. تكشف كل خطوة في عملية الخلاف عن طرق محتملة جديدة يمكن أن “تتم إعادة الخلاف” في البيانات ، وكل ذلك يقود نحو هدف إنشاء بيانات مركزية جيدة.

فيما يلي الخطوات الست الأساسية المتضمنة في مشاحنات البيانات:

1. الاكتشاف

خلال هذه الخطوة ، ستتعلم ما هو موجود في بياناتك وما قد يكون أفضل نهج للاستكشافات التحليلية التنبؤية. على سبيل المثال ، إذا كانت لديك مجموعة بيانات عميل ، وعلمت أن معظم المتسوقين ينتمون إلى جزء واحد من البلد ، فستضع ذلك في الاعتبار أثناء متابعة عمل البيانات الخاصة بك. سوف تضع في اعتبارك الطقس والظروف الجغرافية لتلك المنطقة أثناء الترويج لمنتجاتك.

2. الهيكلة

الهيكلة ضرورية لأن البيانات تأتي في جميع الأشكال والأحجام. على سبيل المثال ، قد يكون لديك سجل معاملات حيث قد يحتوي كل إدخال على عنصر واحد أو أكثر مرتبط به. لإجراء تحليل للمخزون ، ستحتاج على الأرجح إلى توسيع كل معاملة إلى سجلات فردية لكل عنصر تم شراؤه. بدلاً من ذلك ، قد ترغب في تحليل المنتجات التي يتم شراؤها غالبًا معًا. في هذه الحالة ، قد يكون من المناسب توسيع كل معاملة في كل زوج من العناصر المشتراة.

3. التنظيف

يتضمن التنظيف أخذ البيانات التي قد تشوه التحليل. قد تؤدي القيمة الخالية ، على سبيل المثال ، إلى إيقاف حزمة تحليلية بشكل صارخ. لذلك ، قد ترغب في استبدالها بصفر أو سلسلة فارغة. قد ترغب في توحيد حقل معين ، واستبدال العديد من الطرق المختلفة التي قد يتم بها كتابة حالة – مثل CA و Cal و Cf – بتنسيق قياسي واحد.

يتطلب التنظيف معرفة بجودة البيانات واتساقها – معرفة كيف يمكن أن تؤثر قيم البيانات المختلفة على تحليلك النهائي.

4. إثراء

يتيح لك الإثراء الاستفادة من المشاحنات التي قمت بها بالفعل لتسأل نفسك: “الآن بعد أن أصبح لدي إحساس ببياناتي ، ما هي البيانات الأخرى التي قد تكون مفيدة في هذا التحليل”. أو ، “ما هي أنواع البيانات الجديدة التي يمكنني استخلاصها من البيانات التي أمتلكها بالفعل؟”.

بمعنى آخر ، الإثراء هو تلميع البيانات. على سبيل المثال ، إضافة بعض العناصر ذات الصلة في قاعدة البيانات الخاصة بك والتي تشبه العناصر التي بحث عنها المستخدمون كثيرًا.

5. التحقق من صحة

التحقق من الصحة هو النشاط الذي يبرز مشكلات جودة البيانات والاتساق ، أو يتحقق من أنه تمت معالجتها بشكل صحيح من خلال عمليات التحويل المطبقة. يجب إجراء عمليات التحقق على طول أبعاد متعددة. كحد أدنى ، تقييم ما إذا كانت قيم السمة / الحقل تلتزم بالقيود النحوية. على سبيل المثال ، الحقول المنطقية المشفرة على أنها “صواب” / “خطأ” على عكس بعض القيم الأخرى. قد تتضمن عمليات التحقق الإضافية عمليات التحقق عبر السمات / الحقول مثل التأكد من أن جميع المعاملات المصرفية السلبية لها نوع المعاملة المناسب (على سبيل المثال ، “سحب” أو “دفع فاتورة” أو “شيك”).

6. النشر

يشير النشر إلى التخطيط وتقديم مخرجات جهودك في معالجة البيانات لاحتياجات المشروع النهائية أو لاحتياجات المشروع المستقبلية. عبر المشاريع ، غالبًا ما يكون من المنطقي تكرار مجموعة من خطوات مشاحنات البيانات لإعادة استخدامها في مجموعات البيانات الأخرى. يحتفظ محللو البيانات المتمرسون بمكتبة (غالبًا ما تكون شخصية ، وأحيانًا مشتركة) من منطق التحول الشائع بحيث يمكنهم الاستفادة من المشاريع الجديدة. على سبيل المثال ، في إعداد الطعام ، هناك إجراءات يمكن اتخاذها لتسريع عناصر الطهي أو تحسين النكهة أو تطوير قوام الطبق النهائي.

{"email":"Email address invalid","url":"Website address invalid","required":"Required field missing"}
>