मशीन लर्निंग में 5 प्रकार के समाश्रयण मॉडल जिन्हें आपको जानना चाहिए

This post is also available in: English العربية (Arabic)

समाश्रयण विश्लेषण क्या है?

समाश्रयण विश्लेषण (रिग्रेशन एनालिसिस) डेटा में रुझान खोजने का एक तरीका है। उदाहरण के लिए, आप जानना चाहते हैं कि आप कितना खाते हैं और कितना वजन करते हैं, इसके बीच कोई संबंध है या नहीं; समाश्रयण विश्लेषण आपको इसे खोजने में मदद कर सकता है।

समाश्रयण विश्लेषण आपको ग्राफ़ के लिए एक समीकरण प्रदान करेगा ताकि आप अपने डेटा के बारे में पूर्वानुमान लगा सकें। इस समाश्रयण समीकरण को समाश्रयण मॉडल कहा जाता है। परिणाम चर (आमतौर पर ‘y’ द्वारा दर्शाया जाता है) को प्रतिक्रिया या आश्रित चर कहा जाता है, और अनुमानित चर (आमतौर पर ‘x’ द्वारा दर्शाया जाता है) को व्याख्यात्मक या स्वतंत्र चर कहा जाता है)।

उदाहरण के लिए, यदि कोई पिछले कुछ वर्षों में वजन बढ़ा रहा है, तो यह अनुमान लगा सकता है कि अगले पांच वर्षों या दस वर्षों में उसका वजन कितना होगा यदि यही प्रवृत्ति जारी रहती है। यहां वर्षों की संख्या को व्याख्यात्मक या स्वतंत्र चर कहा जाता है और भार को प्रतिक्रिया या आश्रित चर कहा जाता है।

समाश्रयण मॉडल और मशीन लर्निंग

समाश्रयण विश्लेषण एक आश्रित और एक या अधिक स्वतंत्र चर के बीच भविष्य की घटनाओं का पूर्वानुमान लगाने का एक तरीका है। यह मशीन लर्निंग के सबसे आम मॉडलों में से एक है। यह वर्गीकरण मॉडल से अलग है क्योंकि यह एक संख्यात्मक मान का अनुमान लगाता है, जबकि वर्गीकरण मॉडल यह पहचानते हैं कि अवलोकन किस श्रेणी का है। समाश्रयण विश्लेषण के मुख्य उपयोग पूर्वानुमान, समय श्रृंखला मॉडलिंग, और चर के बीच कारण और प्रभाव संबंध का पता लगाना है।

समाश्रयण मॉडल के प्रकार

कई प्रकार के समाश्रयण मॉडल हैं जिनका आप उपयोग कर सकते हैं। चुनाव अक्सर निर्भर करता है कि आपके पास डेटा का प्रकार और मॉडल का प्रकार क्या है। सबसे अधिक इस्तेमाल किए जाने वाले समाश्रयण मॉडल नीचे चर्चा की गई है:

1. रैखिक समाश्रयण

यह पूर्वानुमान लगाने वाले विश्लेषण के लिए उपयोग किया जाने वाला सबसे सरल समाश्रयण मॉडल है। इसमें एक पूर्वानुमान लगाने वाले चर और एक लीनियर फैशन में एक दूसरे से संबंधित आश्रित चर शामिल होते हैं।

एक रैखिक समाश्रयण समीकरण का सामान्य रूप y = ax + b है, जहां y एक आश्रित चर है और x एक स्वतंत्र चर है जिसमें b ढलान (या ढाल) के रूप में है और c y-अवरोधन (वह बिंदु जहां रेखा रेखा को पार करती है)।

what is regression analysisLinear Regression

आपको रैखिक समाश्रयण का उपयोग करना चाहिए जहां आपके चर रैखिक रूप से संबंधित हैं। उदाहरण के लिए, यदि आप बिक्री पर बढ़े हुए विज्ञापन व्यय के प्रभाव का पूर्वानुमान लगा रहे हैं।

2. लॉजिस्टिक रिग्रेशन

जब आपके आश्रित चर का असतत मान होता है, तो एक लॉजिस्टिक समाश्रयण मॉडल का उपयोग किया जाता है। एक असतत चर वह है जिसमें दो मानों में से एक हो सकता है (या तो 0 या 1, सही या गलत, काला या सफेद, स्पैम या स्पैम नहीं, और इसी तरह)।

लॉजिस्टिक रिग्रेशन आश्रित चर और स्वतंत्र चर के बीच संबंध दिखाने के लिए एक सिग्मॉइड वक्र का उपयोग करता है। हालांकि, लॉजिस्टिक रिग्रेशन बड़े डेटा सेट के साथ सबसे अच्छा काम करता है, जिसमें आश्रित चर में मूल्यों की लगभग समान घटना होती है। लॉजिस्टिक रिग्रेशन समीकरण का सामान्य रूप P = 1/(1 + e-(a + bx)) है।

what is regression analysisLogistic Regression

लॉजिस्टिक मॉडल का उपयोग किसी निश्चित वर्ग या घटना की संभावना को मॉडल करने के लिए किया जाता है जैसे कि पास / असफल, जीत / हार, जीवित / मृत, या स्वस्थ / बीमार। इसे घटनाओं के कई वर्गों के मॉडल के लिए बढ़ाया जा सकता है जैसे कि यह निर्धारित करना कि किसी छवि में बिल्ली, कुत्ता, शेर आदि है या नहीं। छवि में प्रत्येक वस्तु का पता लगाया जाता है जिसे 0 और 1 के बीच एक प्रायिकता सौंपी जाएगी।

3. रिज रिग्रेशन

रिज रिग्रेशन कई रिग्रेशन डेटा के विश्लेषण के लिए लागू किया गया है। जब बहुसंरेखण (मल्टी कोलिनारिटी) होता है, कम से कम वर्ग की गणना निष्पक्ष हो जाती है, तो प्रतिगमन गणना के लिए एक पूर्वाग्रह की डिग्री चिपका दी जाती है जो रिज प्रतिगमन के माध्यम से मानक त्रुटियों में कमी लाती है।

सरल शब्दों में, कभी-कभी समाश्रयण मॉडल बहुत जटिल हो जाता है और ओवरफिट हो जाता है, इसलिए मॉडल में भिन्नता को कम करना और इसे ओवरफिटिंग से बचाना सार्थक है। तो रिज रिग्रेशन गुणांक के आकार को सही करता है।

रिज समाश्रयण एक उपचारात्मक उपाय के रूप में कार्य करता है जिसका उपयोग मॉडल के पूर्वानुमानों के बीच संपार्श्विकता को कम करने के लिए किया जाता है क्योंकि मॉडल में सहसंबद्ध विशेष रुप से प्रदर्शित चर शामिल होते हैं, इसलिए अंतिम मॉडल की पुष्टि की जाती है और इसके अधिकतम दृष्टिकोण में कठोर होता है।

4. लासो रिग्रेशन

रिज रिग्रेशन की तरह, लैस्सो (लीस्ट अब्सोल्युट श्रीनकेज सिलेक्टर ऑपरेटर) रिग्रेशन एक और नियमितीकरण तकनीक है जो मॉडल की जटिलता को कम करती है। यह समाश्रयण गुणांक के निरपेक्ष आकार को प्रतिबंधित करके ऐसा करता है। इससे गुणांक मान शून्य के करीब हो जाता है, जो रिज समाश्रयण के साथ नहीं होता है।

इस मॉडल का लाभ यह है कि यह फीचर चयन का उपयोग कर सकता है, जिससे आप मॉडल बनाने के लिए डेटासेट से सुविधाओं का एक सेट चुन सकते हैं। केवल आवश्यक सुविधाओं का उपयोग करके – और बाकी को शून्य के रूप में सेट करके – लैस्सो रिग्रेशन ओवरफिटिंग से बचा जाता है।

5. बहुपद समाश्रयण

बहुपद समाश्रयण एक रैखिक मॉडल का उपयोग करके एक गैर-रेखीय डेटासेट मॉडल करता है। यह एक चौकोर खूंटी को गोल छेद में फिट करने के बराबर है। यह कई रैखिक समाश्रयण के समान तरीके से काम करता है (जो सिर्फ एक रैखिक समाश्रयण है लेकिन कई स्वतंत्र चर के साथ है) लेकिन एक गैर-रेखीय वक्र का उपयोग करता है। इसका उपयोग तब किया जाता है जब डेटा बिंदु गैर-रेखीय फैशन में मौजूद होते हैं।

what is regression analysisPolynomial Regression

मॉडल इन डेटा बिंदुओं को एक दी गई डिग्री के बहुपद विशेषताओं में बदल देता है और एक रैखिक मॉडल का उपयोग करके उन्हें मॉडल करता है। इसमें एक बहुपद रेखा का उपयोग करके उन्हें सर्वोत्तम रूप से फिट करना शामिल है, जो रैखिक समाश्रयण में देखी जाने वाली सीधी रेखा के बजाय घुमावदार है।

Leave a Comment