This post is also available in: English العربية (Arabic)
समाश्रयण विश्लेषण क्या है?
समाश्रयण विश्लेषण (रिग्रेशन एनालिसिस) डेटा में रुझान खोजने का एक तरीका है। उदाहरण के लिए, आप जानना चाहते हैं कि आप कितना खाते हैं और कितना वजन करते हैं, इसके बीच कोई संबंध है या नहीं; समाश्रयण विश्लेषण आपको इसे खोजने में मदद कर सकता है।
समाश्रयण विश्लेषण आपको ग्राफ़ के लिए एक समीकरण प्रदान करेगा ताकि आप अपने डेटा के बारे में पूर्वानुमान लगा सकें। इस समाश्रयण समीकरण को समाश्रयण मॉडल कहा जाता है। परिणाम चर (आमतौर पर ‘y’ द्वारा दर्शाया जाता है) को प्रतिक्रिया या आश्रित चर कहा जाता है, और अनुमानित चर (आमतौर पर ‘x’ द्वारा दर्शाया जाता है) को व्याख्यात्मक या स्वतंत्र चर कहा जाता है)।
उदाहरण के लिए, यदि कोई पिछले कुछ वर्षों में वजन बढ़ा रहा है, तो यह अनुमान लगा सकता है कि अगले पांच वर्षों या दस वर्षों में उसका वजन कितना होगा यदि यही प्रवृत्ति जारी रहती है। यहां वर्षों की संख्या को व्याख्यात्मक या स्वतंत्र चर कहा जाता है और भार को प्रतिक्रिया या आश्रित चर कहा जाता है।
समाश्रयण मॉडल और मशीन लर्निंग
समाश्रयण विश्लेषण एक आश्रित और एक या अधिक स्वतंत्र चर के बीच भविष्य की घटनाओं का पूर्वानुमान लगाने का एक तरीका है। यह मशीन लर्निंग के सबसे आम मॉडलों में से एक है। यह वर्गीकरण मॉडल से अलग है क्योंकि यह एक संख्यात्मक मान का अनुमान लगाता है, जबकि वर्गीकरण मॉडल यह पहचानते हैं कि अवलोकन किस श्रेणी का है। समाश्रयण विश्लेषण के मुख्य उपयोग पूर्वानुमान, समय श्रृंखला मॉडलिंग, और चर के बीच कारण और प्रभाव संबंध का पता लगाना है।
समाश्रयण मॉडल के प्रकार
कई प्रकार के समाश्रयण मॉडल हैं जिनका आप उपयोग कर सकते हैं। चुनाव अक्सर निर्भर करता है कि आपके पास डेटा का प्रकार और मॉडल का प्रकार क्या है। सबसे अधिक इस्तेमाल किए जाने वाले समाश्रयण मॉडल नीचे चर्चा की गई है:
1. रैखिक समाश्रयण
यह पूर्वानुमान लगाने वाले विश्लेषण के लिए उपयोग किया जाने वाला सबसे सरल समाश्रयण मॉडल है। इसमें एक पूर्वानुमान लगाने वाले चर और एक लीनियर फैशन में एक दूसरे से संबंधित आश्रित चर शामिल होते हैं।
एक रैखिक समाश्रयण समीकरण का सामान्य रूप y = ax + b है, जहां y एक आश्रित चर है और x एक स्वतंत्र चर है जिसमें b ढलान (या ढाल) के रूप में है और c y-अवरोधन (वह बिंदु जहां रेखा रेखा को पार करती है)।
Linear Regression
आपको रैखिक समाश्रयण का उपयोग करना चाहिए जहां आपके चर रैखिक रूप से संबंधित हैं। उदाहरण के लिए, यदि आप बिक्री पर बढ़े हुए विज्ञापन व्यय के प्रभाव का पूर्वानुमान लगा रहे हैं।
2. लॉजिस्टिक रिग्रेशन
जब आपके आश्रित चर का असतत मान होता है, तो एक लॉजिस्टिक समाश्रयण मॉडल का उपयोग किया जाता है। एक असतत चर वह है जिसमें दो मानों में से एक हो सकता है (या तो 0 या 1, सही या गलत, काला या सफेद, स्पैम या स्पैम नहीं, और इसी तरह)।
लॉजिस्टिक रिग्रेशन आश्रित चर और स्वतंत्र चर के बीच संबंध दिखाने के लिए एक सिग्मॉइड वक्र का उपयोग करता है। हालांकि, लॉजिस्टिक रिग्रेशन बड़े डेटा सेट के साथ सबसे अच्छा काम करता है, जिसमें आश्रित चर में मूल्यों की लगभग समान घटना होती है। लॉजिस्टिक रिग्रेशन समीकरण का सामान्य रूप P = 1/(1 + e-(a + bx)) है।
Logistic Regression
लॉजिस्टिक मॉडल का उपयोग किसी निश्चित वर्ग या घटना की संभावना को मॉडल करने के लिए किया जाता है जैसे कि पास / असफल, जीत / हार, जीवित / मृत, या स्वस्थ / बीमार। इसे घटनाओं के कई वर्गों के मॉडल के लिए बढ़ाया जा सकता है जैसे कि यह निर्धारित करना कि किसी छवि में बिल्ली, कुत्ता, शेर आदि है या नहीं। छवि में प्रत्येक वस्तु का पता लगाया जाता है जिसे 0 और 1 के बीच एक प्रायिकता सौंपी जाएगी।
3. रिज रिग्रेशन
रिज रिग्रेशन कई रिग्रेशन डेटा के विश्लेषण के लिए लागू किया गया है। जब बहुसंरेखण (मल्टी कोलिनारिटी) होता है, कम से कम वर्ग की गणना निष्पक्ष हो जाती है, तो प्रतिगमन गणना के लिए एक पूर्वाग्रह की डिग्री चिपका दी जाती है जो रिज प्रतिगमन के माध्यम से मानक त्रुटियों में कमी लाती है।
सरल शब्दों में, कभी-कभी समाश्रयण मॉडल बहुत जटिल हो जाता है और ओवरफिट हो जाता है, इसलिए मॉडल में भिन्नता को कम करना और इसे ओवरफिटिंग से बचाना सार्थक है। तो रिज रिग्रेशन गुणांक के आकार को सही करता है।
रिज समाश्रयण एक उपचारात्मक उपाय के रूप में कार्य करता है जिसका उपयोग मॉडल के पूर्वानुमानों के बीच संपार्श्विकता को कम करने के लिए किया जाता है क्योंकि मॉडल में सहसंबद्ध विशेष रुप से प्रदर्शित चर शामिल होते हैं, इसलिए अंतिम मॉडल की पुष्टि की जाती है और इसके अधिकतम दृष्टिकोण में कठोर होता है।
4. लासो रिग्रेशन
रिज रिग्रेशन की तरह, लैस्सो (लीस्ट अब्सोल्युट श्रीनकेज सिलेक्टर ऑपरेटर) रिग्रेशन एक और नियमितीकरण तकनीक है जो मॉडल की जटिलता को कम करती है। यह समाश्रयण गुणांक के निरपेक्ष आकार को प्रतिबंधित करके ऐसा करता है। इससे गुणांक मान शून्य के करीब हो जाता है, जो रिज समाश्रयण के साथ नहीं होता है।
इस मॉडल का लाभ यह है कि यह फीचर चयन का उपयोग कर सकता है, जिससे आप मॉडल बनाने के लिए डेटासेट से सुविधाओं का एक सेट चुन सकते हैं। केवल आवश्यक सुविधाओं का उपयोग करके – और बाकी को शून्य के रूप में सेट करके – लैस्सो रिग्रेशन ओवरफिटिंग से बचा जाता है।
5. बहुपद समाश्रयण
बहुपद समाश्रयण एक रैखिक मॉडल का उपयोग करके एक गैर-रेखीय डेटासेट मॉडल करता है। यह एक चौकोर खूंटी को गोल छेद में फिट करने के बराबर है। यह कई रैखिक समाश्रयण के समान तरीके से काम करता है (जो सिर्फ एक रैखिक समाश्रयण है लेकिन कई स्वतंत्र चर के साथ है) लेकिन एक गैर-रेखीय वक्र का उपयोग करता है। इसका उपयोग तब किया जाता है जब डेटा बिंदु गैर-रेखीय फैशन में मौजूद होते हैं।
Polynomial Regression
मॉडल इन डेटा बिंदुओं को एक दी गई डिग्री के बहुपद विशेषताओं में बदल देता है और एक रैखिक मॉडल का उपयोग करके उन्हें मॉडल करता है। इसमें एक बहुपद रेखा का उपयोग करके उन्हें सर्वोत्तम रूप से फिट करना शामिल है, जो रैखिक समाश्रयण में देखी जाने वाली सीधी रेखा के बजाय घुमावदार है।