This post is also available in: English العربية (Arabic)
डेटा विज्ञान एक अंतःविषय क्षेत्र है जो संरचित और असंरचित डेटा से ज्ञान और अंतर्दृष्टि निकालने के लिए वैज्ञानिक तरीकों, प्रक्रियाओं, एल्गोरिदम और प्रणालियों का उपयोग करता है, और डोमेन की एक विस्तृत श्रृंखला में डेटा से ज्ञान और कार्रवाई योग्य अंतर्दृष्टि लागू करता है। डेटा साइंस डाटा माइनिंग, मशीन लर्निंग और बिग डेटा से संबंधित है।
डेटा वैज्ञानिक रॉ डेटा से छिपे हुए पैटर्न की खोज करने के लक्ष्य के साथ विभिन्न उपकरणों, एल्गोरिदम और मशीन लर्निंग सिद्धांतों के मिश्रण का उपयोग करते हैं। सांख्यिकीय तरीके और तकनीक इन कार्यों को करने में महत्वपूर्ण भूमिका निभाते हैं।
डेटा विज्ञान में प्रयुक्त सांख्यिकी की मूल अवधारणाएं
सांख्यिकी आंकड़ों के विश्लेषण के अध्ययन का विषय है। यह डेटा साइंस और मशीन लर्निंग दोनों में उपयोग होता है। डेटा विज्ञान में उपयोग किए जाने वाले सांख्यिकी की 4 बुनियादी अवधारणाएं निम्नलिखित हैं।
1. वर्णनात्मक सांख्यिकी (डिस्क्रिप्टिव स्टेटिस्टिक्स)
वर्णनात्मक सांख्यिकी निश्चित संख्याओं जैसे मध्यवर्ती, माध्य, मोड, वैरिअन्स, स्टैण्डर्ड डेविएशन इत्यादि के माध्यम से डेटा को संक्षेप में प्रस्तुत कर रही है ताकि डेटा की समझ को आसान बनाया जा सके। इसमें जो उपलब्ध है उससे परे कोई सामान्यीकरण या अनुमान शामिल नहीं है। इसका मतलब यह है कि वर्णनात्मक सांख्यिकी केवल उपलब्ध डेटा (नमूना) का प्रतिनिधित्व करते हैं और संभाव्यता के किसी भी सिद्धांत पर आधारित नहीं होते हैं।
व्यापार में, यह विश्लेषक को व्यापार के भीतर मुख्य मैट्रिक्स और उपायों (उपरोलिखित) का एक दृश्य प्रदान करता है। वर्णनात्मक सांख्यिकी में खोजपूर्ण डेटा विश्लेषण, अनुपयोगी शिक्षण, क्लस्टरिंग और बुनियादी डेटा सारांश शामिल हैं। वर्णनात्मक सांख्यिकी आमतौर पर किसी भी विश्लेषण के लिए प्रारंभिक बिंदु होते हैं। अक्सर, वर्णनात्मक सांख्यिकी हमें परिकल्पना पर पहुंचने में मदद करते हैं ताकि बाद में अधिक औपचारिक निष्कर्ष के साथ परीक्षण किया जा सके।
वर्णनात्मक सांख्यिकी बहुत महत्वपूर्ण हैं क्योंकि यदि हम अपना कच्चा डेटा प्रस्तुत करते हैं, तो यह कल्पना करना कठिन होगा कि डेटा क्या दिखा रहा है, खासकर यदि इसमें बहुत कुछ है। इसलिए, वर्णनात्मक सांख्यिकी हमें डेटा को अधिक सार्थक तरीके से प्रस्तुत करने में सक्षम बनाते हैं।
वर्णनात्मक सांख्यिकी की भूमिका को समझने के लिए, निम्नलिखित उदाहरण पर विचार करें। आपके पास एक विशेष परीक्षा में १००,००० छात्रों द्वारा प्राप्त अंक हैं और आप इन छात्रों के समग्र प्रदर्शन को जानना चाहते हैं। वर्णनात्मक सांख्यिकी हमें ऐसा करने में मदद करता है।
डेटा का मीन छात्रों के औसत अंक देता है। मीडियन और चतुर्थक (क्वार्टाइल) छात्रों के प्रतिशत अंक (यानी, जहां एक विशेष छात्र की अन्य की तुलना में क्या है) को खोजने में मदद करते हैं, स्टैंडर्ड डेविएशन और वैरिअन्स डेटा के प्रसार को दिखाते हैं।
2. अनुमानित सांख्यिकी (इन्फ्रेंशिअल स्टेटिस्टिक्स)
अनुमानित सांख्यिकी में, हम जनसंख्या के बारे में एक नमूने से अनुमान लगाते हैं। अनुमानित सांख्यिकी का मुख्य उद्देश्य नमूने से कुछ निष्कर्ष निकालना और उन्हें जनसंख्या डेटा के लिए सामान्यीकृत करना है। उदाहरण के लिए, आप पूरे देश में डेटा विश्लेषक का औसत वेतन ज्ञात करना चाहते हैं। आपके लिए दो विकल्प उपलब्ध हैं:
- पहला विकल्प देश भर के डेटा विश्लेषकों के वेतन के आंकड़ों को एकत्रित करना और इसका औसत लेना है।
- दूसरा विकल्प देश के प्रमुख आईटी शहरों के डेटा विश्लेषकों के वेतन का एक नमूना लेना और उनका औसत लेना और पूरे देश के लिए उसे मानना।
पहला विकल्प संभव नहीं है क्योंकि पूरे देश में डेटा विश्लेषकों के सभी डेटा एकत्र करना बहुत मुश्किल है। यह समय के साथ-साथ महंगा भी है। इसलिए, इन मुद्दों को दूर करने के लिए, हम डेटा विश्लेषकों के वेतन का एक छोटा सा नमूना एकत्र करने और देश के औसत के रूप में उनका औसत लेने के लिए दूसरे विकल्प पर गौर करेंगे। यह आनुमानिक सांख्यिकी ही है जहाँ हम जनसंख्या के बारे में एक नमूने से निष्कर्ष निकालते हैं।
अनुमानित सांख्यिकी में सबसे आम कार्यप्रणाली हाइपोथिसिस टेस्ट,कॉन्फिडेंस इंटरवल और रिग्रेशन एनालिसिस हैं।
3. पूर्वानुमान
पूर्वानुमान आनुमानिक सांख्यिकी का प्रमुख हिस्सा है। पूर्वानुमान एक परिणाम का अनुमान लगाने की कोशिश करने की प्रक्रिया है। मशीन लर्निंग, रिग्रेशन, डीप लर्निंग, बूस्टिंग, रैंडम फॉरेस्ट और लॉजिस्टिक रिग्रेशन सभी पूर्वानुमान के एल्गोरिदम हैं।
भविष्य की घटनाओं का पूर्वानुमान लगाने के लिए ऐतिहासिक डेटा का उपयोग करता है। आमतौर पर, ऐतिहासिक डेटा का उपयोग एक गणितीय मॉडल बनाने के लिए किया जाता है जो महत्वपूर्ण रुझानों को कैप्चर करता है। फिर उस पूर्वानुमान मॉडल का उपयोग वर्तमान डेटा पर यह अनुमान लगाने के लिए किया जाता है कि इष्टतम परिणामों के लिए कार्रवाई करने के लिए आगे क्या होगा या क्या होगा।
हाल ही के वर्षों में, विशेष रूप से बड़े डेटा और मशीन सीखने के क्षेत्रों में अग्रिम प्रौद्योगिकी के कारण पूर्वानुमान लगाने वाले विश्लेषणों पर बहुत ध्यान दिया गया है।
4. प्रायोगिक डिजाइन
हर डेटा साइंस प्रोजेक्ट का मुख्य केंद्र प्रयोगों की योजना, डिजाइन और निष्पादन होते हैं। इस तरह के प्रयोगों का उद्देश्य डेटा को समझना, संभवतः इसकी सफाई करना और ज्ञान की खोज और निर्णय लेने के लिए आवश्यक डेटा विश्लेषण करना है। प्रायोगिक डिजाइन प्रक्रियाओं को जानने के बिना जो अभ्यास में उपयोग किए जाते हैं, शोधकर्ता यह पता लगाने में सक्षम नहीं हो सकते हैं कि वास्तव में उनके डेटा में क्या छिपा है।
प्रायोगिक डिजाइन ध्वनि निष्कर्ष पर पहुंचने की संभावना का अनुकूलन करने के लिए अपनी प्रयोगात्मक प्रक्रिया को नियंत्रित करने का कार्य है। प्रयोगात्मक डिजाइन का सबसे उल्लेखनीय उदाहरण यादृच्छिकरण (राँडोमाइज़ेशन) है। रैंडमाइजेशन में, उपचार समूहों को संभव के रूप में तुलनीय बनाने के लिए एक उपचार को प्रायोगिक इकाइयों में यादृच्छिक किया जाता है। क्लिनिकल परीक्षण सबसे अच्छा उदाहरण है जो यादृच्छिककरण को अपनाता है।
यादृच्छिक नमूनाकरण में, कोई व्यक्ति जनसंख्या के परिणामों के लिए बेहतर सामान्यता प्राप्त करने के लिए ब्याज की आबादी से यादृच्छिक रूप से नमूना लेने की कोशिश करता है।