This post is also available in: English العربية (Arabic)
डेटा सभी डेटा एनालिटिक्स, मशीन लर्निंग और आर्टिफिशियल इंटेलिजेंस का सबसे महत्वपूर्ण हिस्सा है। डेटा के बिना, हम किसी भी मॉडल को प्रशिक्षित नहीं कर सकते हैं और सभी आधुनिक शोध और स्वचालन व्यर्थ हो जाएंगे। बड़े उद्यम ज्यादा से ज्यादा डेटा इकट्ठा करने के लिए बहुत सारा पैसा खर्च करते हैं। विभिन्न प्रकार के प्रायिकता बंटन पर जाने से पहले, आइए देखें कि प्रायिकता बंटन क्या है।
प्रायिकता वितरण क्या है?
एक प्रायिकता वितरण एक सांख्यिकीय कार्य है जो सभी संभावित मूल्यों और संभावनाओं का वर्णन करता है जो एक यादृच्छिक चर एक निश्चित सीमा के भीतर ले सकता है। यह सीमा न्यूनतम और अधिकतम संभव मानों के बीच सीमित होती है, लेकिन जहां संभावित मान को संभाव्यता वितरण पर प्लॉट किए जाने की संभावना है, वह कई कारकों पर निर्भर करता है। इन कारकों में वितरण का माध्य (औसत), मानक विचलन, तिरछापन और कर्टोसिस शामिल हैं।
प्रायिकता वितरण मशीन लर्निंग का एक अभिन्न अंग है क्योंकि यह डेटा का विश्लेषण और कल्पना करने में मदद करता है।
असतत और सतत चर
विभिन्न प्रकार की प्रायिकता पर आगे बढ़ने से पहले, आइए विषय से जुड़े कुछ बुनियादी शब्दों को समझते हैं। प्रायिकता वितरण प्रकार इस बात पर निर्भर करता है कि चर में असतत मान हैं या निरंतर मान हैं।
एक असतत चर केवल दी गई श्रेणी के मानों से मूल्यों का एक सीमित सेट ले सकता है। उदाहरण के लिए, एक कक्षा में छात्रों की संख्या, एक परीक्षा पत्र में प्रश्नों की संख्या, एक परिवार में बच्चों की संख्या आदि सभी असतत चर हैं।
एक सतत चर किसी दिए गए मान श्रेणी से कोई भी मान ले सकता है। उदाहरण के लिए, किसी व्यक्ति की ऊंचाई, किसी व्यक्ति का वजन, तापमान आदि सभी निरंतर चर हैं।
प्रायिकता वितरण के प्रकार
विभिन्न अनुप्रयोगों में उपयोग किए जाने वाले सबसे सामान्य प्रायिकता वितरण निम्नलिखित हैं।
1. बर्नौली वितरण
बर्नौली वितरण एक असतत प्रायिकता वितरण है, जिसका अर्थ है कि यह असतत यादृच्छिक चर से संबंधित है। बर्नौली वितरण उन घटनाओं पर लागू होता है जिनमें एक परीक्षण और दो संभावित परिणाम होते हैं। ऐसे प्रयोगों के कुछ उदाहरण निम्नलिखित हैं (बर्नौली प्रयोग के रूप में जाना जाता है)।
- सिक्का उछालने पर क्या वह हेड (चित्त) पर गिरेगा? यहाँ, चूँकि सिक्के को केवल एक बार उछाला जाता है, परीक्षणों की संख्या एक होती है और इसके दो संभावित परिणाम होते हैं। ‘हेड’ (चित्त) और ‘टेल’ (पट) (‘हेड’ प्राप्त करना एक सफलता है और ‘टेल’ प्राप्त करना एक विफलता है)।
- क्या मैं पासे के साथ छक्का लगाऊंगा? यहां, पासे को एक बार फ़्लिप किया जाता है, इसलिए परीक्षणों की संख्या एक है और इसके दो संभावित परिणाम हैं। 6 या ‘6 नहीं’ (6 प्राप्त करना एक सफलता है और ‘6 नहीं’ प्राप्त करना विफलता है)।
- क्या कोई छात्र परीक्षा पास करेगा? चूंकि परीक्षा केवल एक बार ली जाती है, यहां भी परीक्षणों की संख्या एक है और इसके दो संभावित परिणाम हैं। सफल या असफल।
सभी बर्नौली परीक्षणों में, “सफलता” या “विफलता” के संदर्भ में दो संभावित परिणामों के बारे में सोचा जा सकता है।
बर्नौली वितरण अनिवार्य रूप से एक गणना है जो आपको बर्नौली परीक्षण के संभावित परिणामों के सेट के लिए एक मॉडल बनाने की अनुमति देता है। इसलिए, जब भी आपके पास कोई ऐसी घटना होती है जिसमें केवल दो संभावित परिणाम होते हैं, तो बर्नौली का वितरण आपको प्रत्येक परिणाम की संभावना की गणना करने में सक्षम बनाता है।
आइए अब समझते हैं कि किसी घटना की प्रायिकता की गणना कैसे की जाती है। एक बर्नौली वितरण में केवल दो संभावित परिणाम होते हैं, अर्थात् 1 (सफलता) और 0 (विफलता), और एक एकल परीक्षण। आइए मान लें कि यादृच्छिक चर X प्रायिकता p के साथ मान 1 और प्रायिकता q के साथ मान 0 ले सकता है (जहाँ q = 1 – p)।
प्रायिकता द्रव्यमान फलन द्वारा दिया जाता है: px(1 – p)1 – x, जहाँ x मान 0 या 1 ले सकता है।
Bernoulli Distribution
डेटा एनालिटिक्स, डेटा साइंस और मशीन लर्निंग में बर्नौली वितरण की महत्वपूर्ण भूमिका है। कुछ उदाहरण हैं
- एक स्पैम फ़िल्टर जो यह पता लगाता है कि किसी ईमेल को “स्पैम” या “स्पैम नहीं” के रूप में वर्गीकृत किया जाना चाहिए या नहीं।
- एक मॉडल जो पूर्वानुमान लगा सकता है कि ग्राहक एक निश्चित कार्रवाई करेगा या नहीं।
2. समान वितरण
समान वितरण एक शब्द है जिसका उपयोग संभाव्यता वितरण के एक रूप का वर्णन करने के लिए किया जाता है जहां हर संभावित परिणाम के होने की समान संभावना होती है। प्रायिकता स्थिर होती है क्योंकि प्रत्येक चर के परिणाम होने की समान संभावना होती है।
उदाहरण के लिए, यदि आप एक सड़क के किनारे पर खड़े हैं और किसी भी भाग्यशाली व्यक्ति को बेतरतीब ढंग से $ 100 का बिल देना शुरू करते हैं, तो प्रत्येक राहगीर के पास पैसे दिए जाने का समान मौका होगा। प्रायिकता का प्रतिशत 1 को परिणामों की कुल संख्या (यात्रियों की संख्या) से विभाजित किया जाता है। हालाँकि, यदि आप छोटे लोगों या महिलाओं का पक्ष लेते हैं, तो उनके पास अन्य राहगीरों की तुलना में $ 100 का बिल दिए जाने की अधिक संभावना होगी। इसे एक समान संभावना के रूप में वर्णित नहीं किया जाएगा।
एकसमान वितरण का घनत्व फलन f(x) = 1/(b – a), a x by b द्वारा दिया जाता है
Uniform Distribution
निम्नलिखित उदाहरण पर विचार करें।
एक फूल की दुकान पर प्रतिदिन बेचे जाने वाले गुलदस्ते की संख्या समान रूप से अधिकतम 40 और न्यूनतम 10 के साथ वितरित की जाती है।
आइए इस संभावना की गणना करने का प्रयास करें कि दैनिक बिक्री 15 से 30 के बीच गिर जाएगी।
दैनिक बिक्री 15 और 30 के बीच घटने की प्रायिकता (30 – 15)/(40 – 10) = 0.5 है।
x1 और x2 के बीच होने वाली घटना की प्रायिकता (x2 – x1)/(b – a) है। उपरोक्त उदाहरण में x1 = 15, x2 = 30 और a = 10, b = 40।
इसी तरह, दैनिक बिक्री के 20 से अधिक होने की प्रायिकता (40 – 20)/(40 – 10) = 0.667 है।
और दैनिक बिक्री 25 से कम होने की प्रायिकता (25 – 10)/(40 – 10) = 0.5 है।
3. द्विपद वितरण
आइए क्रिकेट के मामले पर विचार करें। मान लीजिए कि आपने आज टॉस जीता और यह एक सफल आयोजन का संकेत देता है। आप फिर से टॉस करते हैं लेकिन आप इस बार हार जाते हैं। यदि आप आज टॉस जीतते हैं, तो यह जरूरी नहीं है कि आप कल टॉस जीतेंगे।
द्विपद वितरण एक असतत प्रायिकता वितरण है, जिसका अर्थ है कि यह असतत यादृच्छिक चर से संबंधित है। इसे कई बार दोहराए जाने वाले प्रयोग में “सफलता” या “विफलता” परिणाम की संभावना के रूप में सोचा जा सकता है। सामान्य तौर पर, एक द्विपद प्रयोग एक बर्नौली प्रयोग होता है जिसे ‘n’ बार-बार दोहराया जाता है।
आइए अब समझते हैं कि किसी घटना की प्रायिकता की गणना कैसे की जाती है। एक द्विपद बंटन में केवल दो संभावित परिणाम होते हैं, अर्थात् 1 (सफलता) और 0 (विफलता), और परीक्षणों की ‘एन’ संख्या। आइए मान लें कि यादृच्छिक चर X प्रायिकता p के साथ मान 1 और प्रायिकता q के साथ मान 0 ले सकता है (जहाँ q = 1 – p)।
प्रायिकता द्रव्यमान फलन द्वारा दिया जाता है: nCxpx(1 – p)n – x, जहाँ nCx = n!/(x!(n – x)!)।
Binomial Distribution
निम्नलिखित उदाहरण पर विचार करें।
एक टीम के एक मैच जीतने की प्रायिकता 0.8 (80%) है। यदि यह 5 मैच खेलती है और आप जानना चाहते हैं कि क्या संभावना है कि वह इनमें से 3 मैच जीतेगी।
यहाँ, p = 0.8, q = 1 – 0.8 = 0.2, n = 5 और x = 3इसलिए, 5 में से 3 मैच जीतने की संभावना होगी (5!/(3!(5 – 3)!)(0.83) (0.2)5-3 = 0.2048 (20.48%)।
4. सामान्य वितरण (नार्मल डिस्ट्रीब्यूशन)
एक सामान्य वितरण, जिसे कभी-कभी बेल्ल कर्व कहा जाता है, एक वितरण है जो कई स्थितियों में स्वाभाविक रूप से होता है। यह एक सतत वितरण है। उदाहरण के लिए, बेल्ल कर्व SAT और GRE जैसे परीक्षणों में देखा जाता है। अधिकांश छात्र औसत स्कोर करेंगे, जबकि कम संख्या में छात्र बी या डी स्कोर करेंगे।
छात्रों का एक छोटा प्रतिशत भी F या A स्कोर करता है। यह एक वितरण बनाता है जो घंटी जैसा दिखता है। बेल्ल कर्व सममित है यानी वक्र के केंद्र में रेखा (जो वितरण के माध्य, माध्य और मोड का प्रतिनिधित्व करती है) वक्र को दो बराबर हिस्सों में विभाजित करती है। आधा डेटा माध्य के बाईं ओर होगा; आधा दाईं ओर।
Normal Distribution Curve
अनुभवजन्य नियम आपको बताता है कि आपके डेटा का कितना प्रतिशत माध्य से मानक विचलन की एक निश्चित संख्या में आता है:
- 68.3% डेटा माध्य के एक मानक विचलन के अंतर्गत आता है।
- 95.5% डेटा माध्य के दो मानक विचलनों के अंतर्गत आता है।
- 99.7% डेटा माध्य के तीन मानक विचलन के अंतर्गत आता है।
5. पॉइसन वितरण
पॉइसन वितरण एक असतत वितरण है जो एक निर्दिष्ट समय अवधि में होने वाली घटनाओं की एक निश्चित संख्या की संभावना को मापता है। वित्त में, पॉइसन वितरण का उपयोग बाजार में प्रवेश किए गए नए खरीद या बिक्री ऑर्डर के आगमन या निर्दिष्ट व्यापारिक स्थानों पर ऑर्डर के अपेक्षित आगमन के मॉडल के लिए किया जा सकता है। पॉइसन वितरण स्मार्ट ऑर्डर राउटर और एल्गोरिथम ट्रेडिंग के लिए बहुत उपयोगी हैं।
यादृच्छिक चर X का प्रायिकता द्रव्यमान फलन निम्न द्वारा दिया जाता है: P(X = x) = e-𝜇(𝜇x/x!),
जहां घटनाओं की औसत संख्या है और x उस अंतराल में घटनाओं की संख्या है।
Poisson Distribution
आइए इसे बेहतर ढंग से समझने के लिए निम्नलिखित उदाहरण पर विचार करें। एक ग्राहक सेवा केंद्र को हर घंटे दस ईमेल प्राप्त होते हैं और आप इस संभावना को खोजने में रुचि रखते हैं कि ग्राहक सेवा केंद्र को अगले घंटे में छह ईमेल प्राप्त होंगे। यहाँ, 𝜇 = 10 और x = 6, इसलिए अभीष्ट प्रायिकता P(X = 6) = e-10(106/6!) = 0.0631 = 6.31% होगी।