4 المفاهيم الأساسية للإحصاء المستخدمة في علم البيانات

This post is also available in: English (الإنجليزية) हिन्दी (الهندية)

علم البيانات هو مجال متعدد التخصصات يستخدم الأساليب والعمليات والخوارزميات والأنظمة العلمية لاستخراج المعرفة والرؤى من البيانات المنظمة وغير المهيكلة ، وتطبيق المعرفة والرؤى القابلة للتنفيذ من البيانات عبر مجموعة واسعة من المجالات. يرتبط علم البيانات باستخراج البيانات والتعلم الآلي والبيانات الضخمة.

يستخدم علماء البيانات مزيجًا من الأدوات والخوارزميات ومبادئ التعلم الآلي المختلفة بهدف اكتشاف الأنماط المخفية من البيانات الأولية. تلعب الأساليب والتقنيات الإحصائية أدوارًا مهمة في تنفيذ هذه المهام.

المفاهيم الأساسية للإحصاء المستخدمة في علم البيانات

الإحصاء هو مجال تحليل البيانات. على هذا النحو ، يتقاطع بشكل كبير مع علوم البيانات والتعلم الآلي. فيما يلي المفاهيم الأساسية الأربعة للإحصاء المستخدمة في علم البيانات.

1. الإحصاء الوصفي

الإحصاء الوصفي يلخص البيانات الموجودة من خلال أرقام معينة مثل المتوسط ​​والوسيط والوضع والتباين والانحراف المعياري وما إلى ذلك لتسهيل فهم البيانات. لا ينطوي على أي تعميم أو استدلال يتجاوز ما هو متاح. هذا يعني أن الإحصاء الوصفي هو مجرد تمثيل للبيانات (العينة) المتاحة ولا يعتمد على أي نظرية احتمالية.

في مجال الأعمال ، يوفر للمحلل عرضًا للمقاييس والمقاييس الرئيسية (المذكورة أعلاه) داخل الأعمال. تشمل الإحصاءات الوصفية تحليل البيانات الاستكشافية والتعلم غير الخاضع للإشراف والتجميع وملخصات البيانات الأساسية. عادة ما تكون الإحصائيات الوصفية نقطة البداية لأي تحليل. في كثير من الأحيان ، تساعدنا الإحصائيات الوصفية في الوصول إلى فرضيات يتم اختبارها لاحقًا باستدلال أكثر رسمية.

Basic Concepts of Statistics Used in Data Science

تعتبر الإحصائيات الوصفية مهمة جدًا لأنه إذا قدمنا ​​بياناتنا الأولية ببساطة ، فسيكون من الصعب تصور ما تعرضه البيانات ، خاصةً إذا كان هناك الكثير منها. وبالتالي ، فإن الإحصاء الوصفي يمكّننا من تقديم البيانات بطريقة أكثر وضوحا.

لفهم دور الإحصاء الوصفي ، دعنا نفكر في المثال التالي. لديك علامات حصل عليها 100000 طالب في اختبار معين وقد تكون مهتمًا بالأداء العام لهؤلاء الطلاب. الإحصائيات الوصفية تسمح لنا بالقيام بذلك

يعطي متوسط ​​البيانات متوسط ​​درجات الطلاب. يساعد المتوسط ​​والربيع في العثور على الدرجة المئوية للطلاب (أي المكان الذي يقف معه طالب معين) ، ويظهر الانحراف المعياري والتباين انتشار البيانات ، وما إلى ذلك.

2. الإحصاء الاستنتاجي

في الإحصاء الاستدلالي ، نستنتج من عينة عن السكان. الهدف الرئيسي للإحصاءات الاستنتاجية هو استخلاص بعض الاستنتاجات من العينة وتعميمها على بيانات السكان. على سبيل المثال ، تريد العثور على متوسط ​​الراتب لمحلل البيانات عبر البلد. هناك خياران متاحان لك:

  • الخيار الأول هو النظر في راتب محللي البيانات في جميع أنحاء البلاد والحصول على متوسط.
  • الخيار الثاني هو أخذ عينة من راتب محللي البيانات من مدن تكنولوجيا المعلومات الرئيسية في بلد ما وأخذ متوسطهم واعتبار ذلك للبلد بأكمله.

Basic Concepts of Statistics Used in Data Science

الخيار الأول غير ممكن لأنه من الصعب جدًا جمع جميع بيانات محللي البيانات في جميع أنحاء البلد. إنها مضيعة للوقت ومكلفة. لذلك ، للتغلب على هذه المشكلات ، سننظر في الخيار الثاني لجمع عينة صغيرة من رواتب محللي البيانات ونأخذ متوسطهم كمتوسط ​​للبلد. هذه هي الإحصائيات الاستنتاجية حيث نستنتج من عينة عن السكان.

المنهجيات الأكثر شيوعًا في الإحصاء الاستدلالي هي اختبارات الفرضيات وفترات الثقة وتحليل الانحدار.

3. التنبؤ

يتداخل التنبؤ قليلاً مع الاستدلال ، لكن التنبؤ الحديث يميل إلى أن يكون له عقلية مختلفة. التوقع هو عملية محاولة تخمين نتيجة في ضوء مجموعة من الإدراك للنتيجة وبعض المتنبئين. التعلم الآلي ، والتراجع ، والتعلم العميق ، والتعزيز ، والغابات العشوائية ، والانحدار اللوجستي كلها خوارزميات تنبؤ.

تستخدم التحليلات التنبؤية البيانات التاريخية للتنبؤ بالأحداث المستقبلية. عادةً ما يتم استخدام البيانات التاريخية لبناء نموذج رياضي يلتقط الاتجاهات المهمة. ثم يتم استخدام هذا النموذج التنبئي في البيانات الحالية للتنبؤ بما سيحدث بعد ذلك أو لاقتراح الإجراءات التي يجب اتخاذها لتحقيق النتائج المثلى.

CodingHero - 4 المفاهيم الأساسية للإحصاء المستخدمة في علم البيانات 1 4 Basic Concepts of Statistics Used in Data Science 952 02

تلقت التحليلات التنبؤية الكثير من الاهتمام في السنوات الأخيرة بسبب التقدم في دعم التكنولوجيا ، لا سيما في مجالات البيانات الضخمة والتعلم الآلي.

4. التصميم التجريبي

يوجد في قلب كل مشروع لعلوم البيانات تخطيط التجارب وتصميمها وتنفيذها. تهدف هذه التجارب إلى فهم البيانات وإمكانية تنظيفها وإجراء تحليل البيانات اللازمة لاكتشاف المعرفة واتخاذ القرار. بدون معرفة عمليات التصميم التجريبية المستخدمة في الممارسة ، قد لا يتمكن الباحثون من اكتشاف ما هو مخفي حقًا في بياناتهم.

التصميم التجريبي هو عملية التحكم في العملية التجريبية لتحسين فرصة الوصول إلى استنتاجات سليمة. وأبرز مثال على التصميم التجريبي هو التوزيع العشوائي. في التوزيع العشوائي ، يتم اختيار العلاج بشكل عشوائي عبر الوحدات التجريبية لجعل مجموعات العلاج قابلة للمقارنة قدر الإمكان. التجارب السريرية هي أفضل مثال يستخدم التوزيع العشوائي.

CodingHero - 4 المفاهيم الأساسية للإحصاء المستخدمة في علم البيانات 1 4 Basic Concepts of Statistics Used in Data Science 952 03

في أخذ العينات العشوائية ، يحاول المرء أخذ عينة عشوائية من السكان المعنيين للحصول على تعميم أفضل للنتائج على السكان.

أضف تعليق