4 सांख्यिकी विज्ञान में प्रयुक्त सांख्यिकी की मूल अवधारणाएं

This post is also available in: English العربية (Arabic)

डेटा विज्ञान एक अंतःविषय क्षेत्र है जो संरचित और असंरचित डेटा से ज्ञान और अंतर्दृष्टि निकालने के लिए वैज्ञानिक तरीकों, प्रक्रियाओं, एल्गोरिदम और प्रणालियों का उपयोग करता है, और डोमेन की एक विस्तृत श्रृंखला में डेटा से ज्ञान और कार्रवाई योग्य अंतर्दृष्टि लागू करता है। डेटा साइंस डाटा माइनिंग, मशीन लर्निंग और बिग डेटा से संबंधित है।

डेटा वैज्ञानिक रॉ डेटा से छिपे हुए पैटर्न की खोज करने के लक्ष्य के साथ विभिन्न उपकरणों, एल्गोरिदम और मशीन लर्निंग सिद्धांतों के मिश्रण का उपयोग करते हैं। सांख्यिकीय तरीके और तकनीक इन कार्यों को करने में महत्वपूर्ण भूमिका निभाते हैं।

डेटा विज्ञान में प्रयुक्त सांख्यिकी की मूल अवधारणाएं

सांख्यिकी आंकड़ों के विश्लेषण के अध्ययन का विषय है। यह डेटा साइंस और मशीन लर्निंग दोनों में उपयोग होता है। डेटा विज्ञान में उपयोग किए जाने वाले सांख्यिकी की 4 बुनियादी अवधारणाएं निम्नलिखित हैं।

1. वर्णनात्मक सांख्यिकी (डिस्क्रिप्टिव स्टेटिस्टिक्स)

वर्णनात्मक सांख्यिकी निश्चित संख्याओं जैसे मध्यवर्ती, माध्य, मोड, वैरिअन्स, स्टैण्डर्ड डेविएशन इत्यादि के माध्यम से डेटा को संक्षेप में प्रस्तुत कर रही है ताकि डेटा की समझ को आसान बनाया जा सके। इसमें जो उपलब्ध है उससे परे कोई सामान्यीकरण या अनुमान शामिल नहीं है। इसका मतलब यह है कि वर्णनात्मक सांख्यिकी केवल उपलब्ध डेटा (नमूना) का प्रतिनिधित्व करते हैं और संभाव्यता के किसी भी सिद्धांत पर आधारित नहीं होते हैं।

व्यापार में, यह विश्लेषक को व्यापार के भीतर मुख्य मैट्रिक्स और उपायों (उपरोलिखित) का एक दृश्य प्रदान करता है। वर्णनात्मक सांख्यिकी में खोजपूर्ण डेटा विश्लेषण, अनुपयोगी शिक्षण, क्लस्टरिंग और बुनियादी डेटा सारांश शामिल हैं। वर्णनात्मक सांख्यिकी आमतौर पर किसी भी विश्लेषण के लिए प्रारंभिक बिंदु होते हैं। अक्सर, वर्णनात्मक सांख्यिकी हमें परिकल्पना पर पहुंचने में मदद करते हैं ताकि बाद में अधिक औपचारिक निष्कर्ष के साथ परीक्षण किया जा सके।

Basic Concepts of Statistics Used in Data Science

वर्णनात्मक सांख्यिकी बहुत महत्वपूर्ण हैं क्योंकि यदि हम अपना कच्चा डेटा प्रस्तुत करते हैं, तो यह कल्पना करना कठिन होगा कि डेटा क्या दिखा रहा है, खासकर यदि इसमें बहुत कुछ है। इसलिए, वर्णनात्मक सांख्यिकी हमें डेटा को अधिक सार्थक तरीके से प्रस्तुत करने में सक्षम बनाते हैं।

वर्णनात्मक सांख्यिकी की भूमिका को समझने के लिए, निम्नलिखित उदाहरण पर विचार करें। आपके पास एक विशेष परीक्षा में १००,००० छात्रों द्वारा प्राप्त अंक हैं और आप इन छात्रों के समग्र प्रदर्शन को जानना चाहते हैं। वर्णनात्मक सांख्यिकी हमें ऐसा करने में मदद करता है।

डेटा का मीन छात्रों के औसत अंक देता है। मीडियन और चतुर्थक (क्वार्टाइल) छात्रों के प्रतिशत अंक (यानी, जहां एक विशेष छात्र की अन्य की तुलना में क्या है) को खोजने में मदद करते हैं, स्टैंडर्ड डेविएशन और वैरिअन्स डेटा के प्रसार को दिखाते हैं।

2. अनुमानित सांख्यिकी (इन्फ्रेंशिअल स्टेटिस्टिक्स)

अनुमानित सांख्यिकी में, हम जनसंख्या के बारे में एक नमूने से अनुमान लगाते हैं। अनुमानित सांख्यिकी का मुख्य उद्देश्य नमूने से कुछ निष्कर्ष निकालना और उन्हें जनसंख्या डेटा के लिए सामान्यीकृत करना है। उदाहरण के लिए, आप पूरे देश में डेटा विश्लेषक का औसत वेतन ज्ञात करना चाहते हैं। आपके लिए दो विकल्प उपलब्ध हैं:

  • पहला विकल्प देश भर के डेटा विश्लेषकों के वेतन के आंकड़ों को एकत्रित करना और इसका औसत लेना है।
  • दूसरा विकल्प देश के प्रमुख आईटी शहरों के डेटा विश्लेषकों के वेतन का एक नमूना लेना और उनका औसत लेना और पूरे देश के लिए उसे मानना।

Basic Concepts of Statistics Used in Data Science

पहला विकल्प संभव नहीं है क्योंकि पूरे देश में डेटा विश्लेषकों के सभी डेटा एकत्र करना बहुत मुश्किल है। यह समय के साथ-साथ महंगा भी है। इसलिए, इन मुद्दों को दूर करने के लिए, हम डेटा विश्लेषकों के वेतन का एक छोटा सा नमूना एकत्र करने और देश के औसत के रूप में उनका औसत लेने के लिए दूसरे विकल्प पर गौर करेंगे। यह आनुमानिक सांख्यिकी ही है जहाँ हम जनसंख्या के बारे में एक नमूने से निष्कर्ष निकालते हैं।

अनुमानित सांख्यिकी में सबसे आम कार्यप्रणाली हाइपोथिसिस टेस्ट,कॉन्फिडेंस इंटरवल और रिग्रेशन एनालिसिस हैं।

3. पूर्वानुमान

पूर्वानुमान आनुमानिक सांख्यिकी का प्रमुख हिस्सा है। पूर्वानुमान एक परिणाम का अनुमान लगाने की कोशिश करने की प्रक्रिया है। मशीन लर्निंग, रिग्रेशन, डीप लर्निंग, बूस्टिंग, रैंडम फॉरेस्ट और लॉजिस्टिक रिग्रेशन सभी पूर्वानुमान के एल्गोरिदम हैं।

भविष्य की घटनाओं का पूर्वानुमान लगाने के लिए ऐतिहासिक डेटा का उपयोग करता है। आमतौर पर, ऐतिहासिक डेटा का उपयोग एक गणितीय मॉडल बनाने के लिए किया जाता है जो महत्वपूर्ण रुझानों को कैप्चर करता है। फिर उस पूर्वानुमान मॉडल का उपयोग वर्तमान डेटा पर यह अनुमान लगाने के लिए किया जाता है कि इष्टतम परिणामों के लिए कार्रवाई करने के लिए आगे क्या होगा या क्या होगा।

CodingHero - 4 सांख्यिकी विज्ञान में प्रयुक्त सांख्यिकी की मूल अवधारणाएं 1 4 Basic Concepts of Statistics Used in Data Science 952 02

हाल ही के वर्षों में, विशेष रूप से बड़े डेटा और मशीन सीखने के क्षेत्रों में अग्रिम प्रौद्योगिकी के कारण पूर्वानुमान लगाने वाले विश्लेषणों पर बहुत ध्यान दिया गया है।

4. प्रायोगिक डिजाइन

हर डेटा साइंस प्रोजेक्ट का मुख्य केंद्र प्रयोगों की योजना, डिजाइन और निष्पादन होते हैं। इस तरह के प्रयोगों का उद्देश्य डेटा को समझना, संभवतः इसकी सफाई करना और ज्ञान की खोज और निर्णय लेने के लिए आवश्यक डेटा विश्लेषण करना है। प्रायोगिक डिजाइन प्रक्रियाओं को जानने के बिना जो अभ्यास में उपयोग किए जाते हैं, शोधकर्ता यह पता लगाने में सक्षम नहीं हो सकते हैं कि वास्तव में उनके डेटा में क्या छिपा है।

प्रायोगिक डिजाइन ध्वनि निष्कर्ष पर पहुंचने की संभावना का अनुकूलन करने के लिए अपनी प्रयोगात्मक प्रक्रिया को नियंत्रित करने का कार्य है। प्रयोगात्मक डिजाइन का सबसे उल्लेखनीय उदाहरण यादृच्छिकरण (राँडोमाइज़ेशन) है। रैंडमाइजेशन में, उपचार समूहों को संभव के रूप में तुलनीय बनाने के लिए एक उपचार को प्रायोगिक इकाइयों में यादृच्छिक किया जाता है। क्लिनिकल परीक्षण सबसे अच्छा उदाहरण है जो यादृच्छिककरण को अपनाता है।

CodingHero - 4 सांख्यिकी विज्ञान में प्रयुक्त सांख्यिकी की मूल अवधारणाएं 1 4 Basic Concepts of Statistics Used in Data Science 952 03

यादृच्छिक नमूनाकरण में, कोई व्यक्ति जनसंख्या के परिणामों के लिए बेहतर सामान्यता प्राप्त करने के लिए ब्याज की आबादी से यादृच्छिक रूप से नमूना लेने की कोशिश करता है।

Leave a Comment