This post is also available in: English العربية (Arabic)
मशीन लर्निंग आर्टिफिशियल इंटेलिजेंस (एआई) का एक अनुप्रयोग (Application) है जो सिस्टम को स्पष्ट रूप से प्रोग्राम किए बिना अनुभव से स्वचालित रूप से सीखने और बेहतर बनाने की क्षमता प्रदान करता है। मशीन लर्निंग कंप्यूटर प्रोग्राम के विकास पर केंद्रित है जो डेटा तक पहुंच सकता है और इसका उपयोग स्वयं सीखने (self learning) के लिए कर सकता है।
सीखने की प्रक्रिया अवलोकन या डेटा से शुरू होती है, जैसे उदाहरण, प्रत्यक्ष अनुभव, या निर्देश, डेटा में पैटर्न देखने और भविष्य में हमारे द्वारा प्रदान किए गए उदाहरणों के आधार पर बेहतर निर्णय लेने के लिए। प्राथमिक उद्देश्य कंप्यूटर को मानवीय हस्तक्षेप या सहायता के बिना स्वचालित रूप से सीखने और उसके अनुसार कार्यों को समायोजित करने की अनुमति देना है।
लेकिन, मशीन लर्निंग के क्लासिक एल्गोरिदम का उपयोग करते हुए, टेक्स्ट को कीवर्ड के अनुक्रम के रूप में माना जाता है; इसके बजाय, शब्दार्थ विश्लेषण पर आधारित एक दृष्टिकोण किसी पाठ के अर्थ को समझने की मानवीय क्षमता की नकल करता है।
मशीन लर्निंग एल्गोरिदम
मशीन लर्निंग में एक “एल्गोरिदम” एक ऐसी प्रक्रिया है जो मशीन लर्निंग “मॉडल” बनाने के लिए डेटा पर चलती है। मशीन लर्निंग एल्गोरिदम “पैटर्न पहचान” करते हैं। एल्गोरिदम डेटा से “सीखते हैं“, या किसी डेटासेट पर “फिट” होते हैं। कई मशीन लर्निंग एल्गोरिदम हैं। उदाहरण के लिए, हमारे पास वर्गीकरण के लिए एल्गोरिदम हैं, जैसे k-निकटतम पड़ोसी। हमारे पास प्रतिगमन के लिए एल्गोरिदम हैं, जैसे कि रैखिक प्रतिगमन, और हमारे पास क्लस्टरिंग के लिए एल्गोरिदम हैं, जैसे के-मीन्स (k-means)।
मशीन लर्निंग में “मॉडल” क्या है?
मशीन लर्निंग में एक “मॉडल” डेटा पर चलने वाले मशीन लर्निंग एल्गोरिदम का आउटपुट है।
एक मॉडल मशीन लर्निंग एल्गोरिदम द्वारा सीखी गई बातों का प्रतिनिधित्व करता है।
मॉडल “वस्तु” है जिसे प्रशिक्षण डेटा पर मशीन लर्निंग एल्गोरिदम चलाने के बाद सहेजा जाता है और भविष्यवाणी करने के लिए आवश्यक नियमों, संख्याओं और किसी भी अन्य एल्गोरिदम-विशिष्ट डेटा स्ट्रक्चर्स का प्रतिनिधित्व करता है।
निम्नलिखित उदाहरण इसे स्पष्ट करते हैं:
- रैखिक प्रतिगमन एल्गोरिथ्म (Linear Regression Model) एक मॉडल में परिणाम देता है जिसमें विशिष्ट मूल्यों के साथ गुणांक के वेक्टर शामिल होते हैं।
- डिसीजन ट्री एल्गोरिथम (Decision Tree Algorithm) एक ऐसे मॉडल में परिणत होता है जिसमें विशिष्ट मूल्यों के साथ यदि-तब बयानों का एक ट्री शामिल होता है।
- न्यूरल नेटवर्क (Neural Network)/बैकप्रोपेगेशन (Back Propagation)/ग्रेडिएंट डिसेंट एल्गोरिदम (Gradient Descent Algorithm) एक साथ एक मॉडल में परिणत होते हैं जिसमें विशिष्ट मूल्यों के साथ वैक्टर (Vector) या भार (Weight) के मैट्रिक्स के साथ एक ग्राफ संरचना (Graph structure) शामिल होती है।
एक मशीन लर्निंग मॉडल एक शुरूआती के लिए अधिक चुनौतीपूर्ण है क्योंकि कंप्यूटर विज्ञान में अन्य एल्गोरिदम के साथ एक स्पष्ट सादृश्य नहीं है।
उदाहरण के लिए, सॉर्टिंग एल्गोरिदम का सॉर्ट किया गया सूची आउटपुट वास्तव में एक मॉडल नहीं है।
मशीन लर्निंग मॉडल को “प्रोग्राम” के रूप में सोचना सबसे अच्छा सादृश्य है।
मशीन लर्निंग मॉडल “प्रोग्राम” में डेटा और पूर्वानुमान लगाने के लिए डेटा का उपयोग करने की प्रक्रिया दोनों शामिल हैं।
रैखिक प्रतिगमन एल्गोरिथ्म और परिणामी मॉडल पर विचार करें। मॉडल में गुणांक (डेटा) का एक वेक्टर शामिल होता है जिसे पूर्वानुमान (पूर्वानुमान प्रक्रिया) के लिए इनपुट के रूप में लिए गए नए डेटा की एक पंक्ति के साथ गुणा और सारांशित किया जाता है।
हम बाद में उपयोग के लिए मशीन लर्निंग मॉडल के लिए डेटा सहेजते हैं।
मशीन लर्निंग लाइब्रेरी द्वारा प्रदान किए गए मशीन लर्निंग मॉडल के लिए पूर्वानुमान प्रक्रिया का उपयोग करते हैं। कभी-कभी हम अपने आवेदन के हिस्से के रूप में पूर्वानुमान प्रक्रिया को स्वयं लागू कर सकते हैं। यह अक्सर करना आसान होता है, क्योंकि अधिकांश पूर्वानुमान प्रक्रियाएं काफी सरल होती हैं।
आमतौर पर प्रयुक्त मशीन लर्निंग एल्गोरिदम
यहां आमतौर पर उपयोग किए जाने वाले मशीन लर्निंग एल्गोरिदम की सूची दी गई है। ये एल्गोरिदम लगभग किसी भी डेटा समस्या पर लागू किए जा सकते हैं:
- रेखीय (लीनियर) रिग्रेसन
- रसद (लोगिस्टिक) रिग्रेसन
- डिसिशन ट्री
- एस वी एम
- नैवे बाएस
- के एन एन
- के-मीन्स
- रैंडम फॉरेस्ट
- आयामी रिडक्शन अल्गोरिथ्म्स
- ग्रेडिएंट बूस्टिंग एल्गोरिदम
1. रैखिक रिग्रेसन
इसका उपयोग निरंतर चर के आधार पर वास्तविक मूल्यों (घरों की लागत, कॉलों की संख्या, कुल बिक्री, आदि) का अनुमान लगाने के लिए किया जाता है। यहां, हम सबसे अच्छी रेखा को फिट करके स्वतंत्र और आश्रित चर के बीच संबंध स्थापित करते हैं। इस सर्वोत्तम फिट लाइन (Best Fit Line) को रिग्रेसन रेखा के रूप में जाना जाता है और इसे एक रैखिक समीकरण द्वारा दर्शाया जाता है – Y = a × X + b.
रेखीय रिग्रेसन को समझने का सबसे अच्छा तरीका बचपन के इस अनुभव को फिर से जीना है। मान लीजिए, आप पाँचवीं कक्षा के एक बच्चे से कहते हैं कि लोगों से उनका वज़न पूछे बिना उनकी कक्षा में वज़न का क्रम बढ़ाकर उन्हें व्यवस्थित करें! आपको क्या लगता है कि बच्चा क्या करेगा? वह संभवतः ऊंचाई और लोगों के निर्माण को देखेगा (विश्लेषण करेगा) और इन दृश्यमान मापदंडों के संयोजन का उपयोग करके उन्हें व्यवस्थित करेगा। यह वास्तविक जीवन में रैखिक रिग्रेसन है! बच्चे ने वास्तव में यह पता लगा लिया है कि ऊंचाई और निर्माण एक रिश्ते से वजन से संबंधित होंगे, जो ऊपर के समीकरण की तरह दिखता है।
इस समीकरण में:
- Y – आश्रित चर
- a – ढाल
- X – स्वतंत्र चर
- b – इंटरसेप्ट
ये गुणांक a और b डेटा बिंदुओं और रिग्रेसन रेखा के बीच की दूरी के वर्ग अंतर के योग को कम करने के आधार पर प्राप्त किए जाते हैं। नीचे दिए गए उदाहरण को देखें। यहां हमने रैखिक समीकरण वाली सबसे अच्छी फिट लाइन की पहचान की है y=0.0.3874x+15.87. अब इस समीकरण का उपयोग करके, हम किसी व्यक्ति की ऊंचाई जानकर वजन ज्ञात कर सकते हैं।
रैखिक रिग्रेसन मुख्य रूप से दो प्रकार के होते हैं:
- सरल रैखिक रिग्रेसन (Simple Linear Regression)
- एकाधिक रेखीय रिग्रेसन (Multiple Linear Regression)
सरल रैखिक रिग्रेसन एक स्वतंत्र चर की विशेषता है। और, मल्टीपल लीनियर रिग्रेशन (जैसा कि नाम से पता चलता है) की विशेषता कई (1 से अधिक) स्वतंत्र चर है। सबसे अच्छी फिट लाइन खोजने के दौरान, आप एक बहुपद या वक्रीय प्रतिगमन फिट कर सकते हैं। और इन्हें बहुपद या वक्रीय प्रतीपगमन के रूप में जाना जाता है।
2. लॉगिस्टिक रिग्रेशन
सांख्यिकी में, लॉगिस्टिक मॉडल (या लॉगिट मॉडल) का उपयोग किसी निश्चित वर्ग या घटना की संभावना को मॉडल करने के लिए किया जाता है जैसे कि पास / असफल, जीत / हार, जीवित / मृत, या स्वस्थ / बीमार। इसे घटनाओं के कई वर्गों के मॉडल के लिए बढ़ाया जा सकता है जैसे कि यह निर्धारित करना कि किसी छवि में बिल्ली, कुत्ता, शेर आदि है या नहीं। छवि में पाए जाने वाले प्रत्येक ऑब्जेक्ट को 0 और 1 के बीच एक प्रायिकता दी जाएगी, जिसमें एक का योग होगा।
लॉगिस्टिक रिग्रेशन एक सांख्यिकीय मॉडल है जो अपने मूल रूप में बाइनरी आश्रित चर को मॉडल करने के लिए लॉगिस्टिक फ़ंक्शन का उपयोग करता है, हालांकि कई और जटिल एक्सटेंशन मौजूद हैं। रिग्रेशन विश्लेषण में, लॉगिस्टिक रिग्रेशन (या लॉगिट रिग्रेशन) एक लॉगिस्टिक मॉडल (बाइनरी रिग्रेशन का एक रूप) के मापदंडों का आकलन कर रहा है। गणितीय रूप से, एक बाइनरी लॉगिस्टिक मॉडल में दो संभावित मानों के साथ एक आश्रित चर होता है, जैसे पास/फेल जिसे एक संकेतक चर द्वारा दर्शाया जाता है, जहां दो मानों को “0” और “1” लेबल किया जाता है। लॉगिस्टिक मॉडल में, “1” लेबल वाले मान के लिए लॉग-ऑड्स (ऑड्स का लॉगरिदम) एक या अधिक स्वतंत्र चर (“पूर्वानुमानों”) का एक रैखिक संयोजन है; स्वतंत्र चर प्रत्येक एक द्विआधारी चर या एक सतत चर (कोई वास्तविक मूल्य) हो सकते हैं।
“1” लेबल वाले मान की संगत प्रायिकता 0 (निश्चित रूप से मान “0”) और 1 (निश्चित रूप से मान “1”) के बीच भिन्न हो सकती है, इसलिए लेबलिंग; लॉग-ऑड्स को प्रायिकता में बदलने वाला फ़ंक्शन लॉगिस्टिक फ़ंक्शन है, इसलिए नाम। लॉग-ऑड्स स्केल के लिए माप की इकाई को लॉगिस्टिक यूनिट से लॉगिट कहा जाता है, इसलिए वैकल्पिक नाम।
लॉगिस्टिक फ़ंक्शन के बजाय एक अलग सिग्मॉइड फ़ंक्शन वाले अनुरूप मॉडल का भी उपयोग किया जा सकता है, जैसे कि प्रोबिट मॉडल; लॉगिस्टिक मॉडल की परिभाषित विशेषता यह है कि स्वतंत्र चरों में से एक को बढ़ाने से दिए गए परिणाम की बाधाओं को गुणा किया जाता है स्थिर दर, प्रत्येक स्वतंत्र चर का अपना पैरामीटर होता है; बाइनरी आश्रित चर के लिए, यह ऑड्स अनुपात को सामान्य करता है।
बाइनरी लॉगिस्टिक रिग्रेशन मॉडल में, आश्रित चर के दो स्तर (श्रेणीबद्ध) होते हैं। दो से अधिक मानों वाले आउटपुट को लॉगिस्टिक रिग्रेशन द्वारा मॉडल किया जाता है और, यदि कई श्रेणियों का आदेश दिया जाता है, तो ऑर्डिनल लॉगिस्टिक रिग्रेशन (उदाहरण के लिए आनुपातिक ऑड्स ऑर्डिनल लॉगिस्टिक मॉडल) द्वारा।
लॉगिस्टिक रिग्रेशन मॉडल केवल इनपुट के संदर्भ में आउटपुट की संभावना को मॉडल करता है और सांख्यिकीय वर्गीकरण नहीं करता है (यह क्लासिफायरियर नहीं है), हालांकि इसका उपयोग क्लासिफायर बनाने के लिए किया जा सकता है, उदाहरण के लिए कटऑफ वैल्यू चुनकर और इनपुट को वर्गीकृत करके एक वर्ग के रूप में कटऑफ से अधिक होने की संभावना, दूसरे के रूप में कटऑफ के नीचे; यह बाइनरी क्लासिफायरियर बनाने का एक सामान्य तरीका है।
3. डिसिशन ट्री
शन ट्री एक पर्यवेक्षित शिक्षण तकनीक है जिसका उपयोग वर्गीकरण और प्रतिगमन समस्याओं दोनों के लिए किया जा सकता है, लेकिन ज्यादातर इसे वर्गीकरण समस्याओं को हल करने के लिए पसंद किया जाता है। यह एक ट्री-स्ट्रक्चर्ड क्लासिफायरियर है, जहां आंतरिक नोड्स डेटासेट की विशेषताओं का प्रतिनिधित्व करते हैं, शाखाएं निर्णय नियमों का प्रतिनिधित्व करती हैं और प्रत्येक लीफ नोड परिणाम का प्रतिनिधित्व करता है।
डिसीजन ट्री में दो नोड होते हैं, जो डिसीजन नोड और लीफ नोड हैं। निर्णय नोड्स का उपयोग किसी भी निर्णय लेने के लिए किया जाता है और इसकी कई शाखाएँ होती हैं, जबकि लीफ नोड्स उन निर्णयों के आउटपुट होते हैं और इसमें कोई और शाखाएँ नहीं होती हैं।
निर्णय या परीक्षण दिए गए डेटासेट की विशेषताओं के आधार पर किया जाता है।
यह दी गई शर्तों के आधार पर किसी समस्या/निर्णय के सभी संभावित समाधान प्राप्त करने के लिए एक ग्राफिकल प्रतिनिधित्व है।
इसे डिसिशन ट्री कहा जाता है क्योंकि एक पेड़ के समान, यह रूट नोड से शुरू होता है, जो आगे की शाखाओं पर फैलता है और एक पेड़ जैसी संरचना का निर्माण करता है। एक पेड़ बनाने के लिए, हम कार्ट (CART) एल्गोरिथ्म का उपयोग करते हैं, जो वर्गीकरण और प्रतिगमन ट्री एल्गोरिथ्म के लिए है। एक डिसिशन ट्री केवल एक प्रश्न पूछता है और उत्तर (हां/नहीं) के आधार पर, यह ट्री को सबट्री में विभाजित करता है।
नीचे दिया गया चित्र डिसिशन ट्री की सामान्य संरचना की व्याख्या करता है:
4. एस वी एम
सपोर्ट वेक्टर मशीन या एसवीएम सबसे लोकप्रिय सुपरवाइज्ड लर्निंग एल्गोरिदम में से एक है, जिसका उपयोग वर्गीकरण के साथ-साथ रिग्रेशन समस्याओं के लिए भी किया जाता है। हालाँकि, मुख्य रूप से इसका उपयोग मशीन लर्निंग में वर्गीकरण समस्याओं के लिए किया जाता है।
एस वी एम एल्गोरिथ्म का लक्ष्य सर्वोत्तम रेखा या निर्णय सीमा बनाना है जो n-आयामी स्थान को कक्षाओं में अलग कर सकता है ताकि हम भविष्य में नए डेटा बिंदु को सही श्रेणी में आसानी से रख सकें। इस सर्वोत्तम निर्णय सीमा को हाइपरप्लेन कहा जाता है।
एसवीएम उन चरम बिंदुओं/वैक्टरों को चुनता है जो हाइपरप्लेन बनाने में मदद करते हैं। इन चरम मामलों को सपोर्ट वैक्टर कहा जाता है, और इसलिए एल्गोरिदम को सपोर्ट वेक्टर मशीन कहा जाता है। नीचे दिए गए आरेख पर विचार करें जिसमें दो अलग-अलग श्रेणियां हैं जिन्हें निर्णय सीमा या हाइपरप्लेन का उपयोग करके वर्गीकृत किया गया है:
निम्नलिखित उदाहरण पर विचार करें। एस वी एम को उस उदाहरण से समझा जा सकता है जिसका उपयोग हमने के एन एन क्लासिफायरियर में किया है। मान लीजिए हम एक अजीब बिल्ली देखते हैं जिसमें कुत्तों की कुछ विशेषताएं भी हैं, इसलिए यदि हम ऐसा मॉडल चाहते हैं जो सटीक रूप से पहचान सके कि यह बिल्ली है या कुत्ता, तो ऐसा मॉडल एसवीएम एल्गोरिदम का उपयोग करके बनाया जा सकता है। हम पहले अपने मॉडल को बिल्लियों और कुत्तों की बहुत सारी छवियों के साथ प्रशिक्षित करेंगे ताकि वह बिल्लियों और कुत्तों की विभिन्न विशेषताओं के बारे में जान सके, और फिर हम इस अजीब प्राणी के साथ इसका परीक्षण करेंगे। इसलिए चूंकि समर्थन वेक्टर इन दो डेटा (बिल्ली और कुत्ते) के बीच एक निर्णय सीमा बनाता है और चरम मामलों (समर्थन वैक्टर) को चुनता है, यह बिल्ली और कुत्ते के चरम मामले को देखेगा। सपोर्ट वैक्टर के आधार पर इसे बिल्ली के रूप में वर्गीकृत करेगा।
5. नैवे बाएस
नैवे बाएस एल्गोरिथ्म एक पर्यवेक्षित शिक्षण एल्गोरिथ्म है, जो बाएस प्रमेय पर आधारित है और वर्गीकरण समस्याओं को हल करने के लिए उपयोग किया जाता है। यह मुख्य रूप से पाठ वर्गीकरण में उपयोग किया जाता है जिसमें एक उच्च-आयामी प्रशिक्षण डेटासेट शामिल होता है।
नैवे बाएस क्लास्सिफ़िएर सरल और सबसे प्रभावी वर्गीकरण एल्गोरिदम में से एक है जो तेज़ मशीन लर्निंग मॉडल बनाने में मदद करता है जो त्वरित पूर्वानुमान लगा सकता है। यह एक संभाव्य क्लासिफायरियर है, जिसका अर्थ है कि यह किसी वस्तु की संभावना के आधार पर भविष्यवाणी करता है।
नैवे बाएस अल्गोरिथम के कुछ लोकप्रिय उदाहरण स्पैम निस्पंदन, भावनात्मक विश्लेषण और वर्गीकृत लेख हैं।
नैवे बाएस एल्गोरिथ्म दो शब्दों नैवे और बाएस से मिलकर बना है, जिसे इस प्रकार वर्णित किया जा सकता है:
- नैवे: इसे नैवे कहा जाता है क्योंकि यह मानता है कि एक निश्चित विशेषता की घटना अन्य विशेषताओं की घटना से स्वतंत्र है। जैसे कि रंग, आकार और स्वाद के आधार पर फल की पहचान की जाती है, तो लाल, गोलाकार और मीठे फल सेब के रूप में पहचाने जाते हैं। इसलिए प्रत्येक विशेषता व्यक्तिगत रूप से यह पहचानने में योगदान देती है कि यह एक दूसरे पर निर्भर किए बिना एक सेब है।
- बेयस: इसे बेयस कहा जाता है क्योंकि यह बेयस प्रमेय के सिद्धांत पर निर्भर करता है।
- बेयस के प्रमेय को बेयस के नियम के रूप में भी जाना जाता है, जिसका उपयोग पूर्व ज्ञान के साथ एक परिकल्पना की संभावना को निर्धारित करने के लिए किया जाता है। यह कंडीशनल प्रोबेबिलिटी पर निर्भर करता है।
- बेयस प्रमेय का सूत्र इस प्रकार दिया गया है:
जहाँ,
P(A|B) पश्च प्रायिकता है: प्रेक्षित घटना पर परिकल्पना A की प्रायिकता B.P(B|A) संभाव्यता प्रायिकता है: दिए गए साक्ष्य की प्रायिकता कि परिकल्पना की प्रायिकता सत्य है।
6. के एन एन
के-एनएन (K-Nearest Neighbour) पर्यवेक्षित शिक्षण तकनीक पर आधारित सबसे सरल मशीन लर्निंग एल्गोरिदम में से एक है। के-एनएन एल्गोरिदम नए मामले/डेटा और उपलब्ध मामलों के बीच समानता मानता है और नए मामले को उस श्रेणी में रखता है जो उपलब्ध श्रेणियों के समान है।
K-NN एल्गोरिथ्म सभी उपलब्ध डेटा को संग्रहीत करता है और समानता के आधार पर एक नए डेटा बिंदु को वर्गीकृत करता है। इसका अर्थ है कि जब नया डेटा दिखाई देता है तो इसे आसानी से के-एनएन एल्गोरिथम का उपयोग करके एक अच्छी सूट श्रेणी में वर्गीकृत किया जा सकता है। इस एल्गोरिथ्म का उपयोग प्रतिगमन के साथ-साथ वर्गीकरण के लिए भी किया जा सकता है लेकिन ज्यादातर इसका उपयोग वर्गीकरण समस्याओं के लिए किया जाता है।
यह एक गैर-पैरामीट्रिक एल्गोरिथम है, जिसका अर्थ है कि यह अंतर्निहित डेटा पर कोई धारणा नहीं बनाता है। इसे आलसी लर्नर एल्गोरिथम भी कहा जाता है क्योंकि यह प्रशिक्षण सेट से तुरंत नहीं सीखता है बल्कि यह डेटासेट को स्टोर करता है और वर्गीकरण के समय यह डेटासेट पर एक क्रिया करता है।
प्रशिक्षण चरण में केएनएन एल्गोरिथ्म केवल डेटासेट को संग्रहीत करता है और जब उसे नया डेटा मिलता है, तो वह उस डेटा को एक श्रेणी में वर्गीकृत करता है जो नए डेटा के समान होता है।
उदाहरण के लिए मान लीजिए, हमारे पास एक ऐसे प्राणी की छवि है जो एक बिल्ली और कुत्ते के समान दिखता है, लेकिन हम जानना चाहते हैं कि यह बिल्ली है या कुत्ता। तो इस पहचान के लिए, हम KNN एल्गोरिथम का उपयोग कर सकते हैं, क्योंकि यह एक समानता माप पर काम करता है। हमारे केएनएन मॉडल को नए डेटा सेट की समान विशेषताओं को बिल्लियों और कुत्तों की छवियों में मिलेगा और सबसे समान विशेषताओं के आधार पर इसे बिल्ली या कुत्ते की श्रेणी में रखा जाएगा।
7. के-मीन्स
यह एक प्रकार का अनुपयोगी एल्गोरिथम है जो क्लस्टरिंग समस्या को हल करता है। इसकी प्रक्रिया एक निश्चित संख्या में समूहों के माध्यम से दिए गए डेटा सेट को वर्गीकृत करने के लिए एक सरल और आसान तरीके का अनुसरण करती है (मान लें k क्लस्टर)। एक क्लस्टर के अंदर डेटा बिंदु सजातीय और सहकर्मी समूहों के लिए विषम हैं।
इंकब्लॉट्स से आकृतियों का पता लगाना याद रखें? के मीन्स कुछ हद तक इस गतिविधि के समान है। आप आकार को देखते हैं और यह समझने के लिए फैलते हैं कि कितने अलग-अलग समूह/आबादी मौजूद हैं!
के-मीन्स निम्नलिखित चरणों का उपयोग करता है:
- के-मीन्स प्रत्येक क्लस्टर के लिए k अंक चुनता है जिसे सेंट्रोइड्स के रूप में जाना जाता है।
- प्रत्येक डेटा बिंदु निकटतम सेंट्रोइड्स यानी k क्लस्टर के साथ एक क्लस्टर बनाता है।
- मौजूदा क्लस्टर सदस्यों के आधार पर प्रत्येक क्लस्टर का केंद्रक ढूँढता है। यहां हमारे पास नए सेंट्रोइड हैं।
- जैसा कि हमारे पास नए केन्द्रक हैं, चरण 2 और 3 दोहराएं। नए सेंट्रोइड्स से प्रत्येक डेटा बिंदु के लिए निकटतम दूरी का पता लगाएं और नए के-क्लस्टर से जुड़ें। इस प्रक्रिया को तब तक दोहराएं जब तक कि अभिसरण न हो जाए यानी सेंट्रोइड्स नहीं बदलते।
के-मीन्स में, हमारे पास क्लस्टर होते हैं और प्रत्येक क्लस्टर का अपना सेंट्रोइड होता है। एक क्लस्टर के भीतर केंद्रक और डेटा बिंदुओं के बीच अंतर के वर्ग का योग उस क्लस्टर के वर्ग मान के योग के भीतर बनता है। साथ ही, जब सभी समूहों के लिए वर्ग मानों का योग जोड़ा जाता है, तो यह क्लस्टर समाधान के वर्ग मान के योग के भीतर कुल हो जाता है।
हम जानते हैं कि जैसे-जैसे समूहों की संख्या बढ़ती है, यह मान घटता जाता है, लेकिन यदि आप परिणाम को प्लॉट करते हैं तो आप देख सकते हैं कि वर्ग दूरी का योग k के कुछ मान तक तेजी से घटता है, और उसके बाद बहुत धीरे-धीरे। यहां, हम क्लस्टर की इष्टतम संख्या पा सकते हैं।
8. रैंडम फॉरेस्ट
रैंडम फ़ॉरेस्ट एक लोकप्रिय मशीन लर्निंग एल्गोरिथम है जो पर्यवेक्षित शिक्षण तकनीक से संबंधित है। इसका उपयोग एमएल में वर्गीकरण और प्रतिगमन समस्याओं दोनों के लिए किया जा सकता है। यह पहनावा सीखने की अवधारणा पर आधारित है, जो एक जटिल समस्या को हल करने और मॉडल के प्रदर्शन को बेहतर बनाने के लिए कई क्लासिफायर के संयोजन की प्रक्रिया है।
जैसा कि नाम सुझाव देता है, “रैंडम फ़ॉरेस्ट एक क्लासिफायरियर है जिसमें दिए गए डेटासेट के विभिन्न सबसेट पर कई निर्णय ट्री होते हैं और उस डेटासेट की पूर्वानुमान में सटीकता में सुधार करने के लिए औसत लेते हैं।” एक डिसिशन ट्री पर भरोसा करने के बजाय, यादृच्छिक वन प्रत्येक ट्री से पूर्वानुमान लेता है और पूर्वानुमानों के बहुमत के वोटों के आधार पर, और यह अंतिम आउटपुट की भविष्यवाणी करता है।
फॉरेस्ट में ट्रीज़ की अधिक संख्या उच्च सटीकता की ओर ले जाती है और ओवरफिटिंग की समस्या को रोकती है।
नीचे दिया गया चित्र रैंडम फ़ॉरेस्ट एल्गोरिथम के कार्य की व्याख्या करता है:
9. आयामी रिडक्शन एल्गोरिदम
आयाम में कमी एक अनुपयोगी शिक्षण तकनीक है।
फिर भी, इसका उपयोग पर्यवेक्षित शिक्षण एल्गोरिदम के साथ वर्गीकरण और प्रतिगमन भविष्य कहनेवाला मॉडलिंग डेटासेट पर मशीन लर्निंग एल्गोरिदम के लिए डेटा परिवर्तन पूर्व-प्रसंस्करण चरण के रूप में किया जा सकता है।
चुनने के लिए कई आयामी कमी एल्गोरिदम हैं और सभी मामलों के लिए कोई भी सर्वश्रेष्ठ एल्गोरिदम नहीं है। इसके बजाय, प्रत्येक एल्गोरिथम के लिए आयामीता में कमी एल्गोरिदम और विभिन्न कॉन्फ़िगरेशन की एक श्रृंखला का पता लगाना एक अच्छा विचार है।
आयामी कमी प्रशिक्षण डेटा में इनपुट चर की संख्या को कम करने के लिए तकनीकों को संदर्भित करता है।
उच्च-आयामीता का अर्थ सैकड़ों, हजारों या लाखों इनपुट चर हो सकता है।
कम इनपुट आयामों का मतलब अक्सर कम पैरामीटर या मशीन लर्निंग मॉडल में एक सरल संरचना होती है, जिसे स्वतंत्रता की डिग्री कहा जाता है। बहुत अधिक स्वतंत्रता वाला मॉडल प्रशिक्षण डेटासेट को ओवरफिट कर सकता है और नए डेटा पर अच्छा प्रदर्शन नहीं कर सकता है।
यह वांछनीय है कि सरल मॉडल हों जो अच्छी तरह से सामान्यीकृत हों, और बदले में, कुछ इनपुट चर के साथ इनपुट डेटा। यह रैखिक मॉडल के लिए विशेष रूप से सच है जहां इनपुट की संख्या और मॉडल की स्वतंत्रता की डिग्री अक्सर निकटता से संबंधित होती है।
आयाम में कमी एक डेटा तैयार करने की तकनीक है जो मॉडलिंग से पहले डेटा पर की जाती है। यह डेटा सफाई और डेटा स्केलिंग के बाद और एक भविष्य कहनेवाला मॉडल के प्रशिक्षण से पहले किया जा सकता है।
जैसे, प्रशिक्षण डेटा पर किए गए किसी भी आयामी कमी को नए डेटा पर भी किया जाना चाहिए, जैसे परीक्षण डेटासेट, सत्यापन डेटासेट, और अंतिम मॉडल के साथ पूर्वानुमान लगाते समय।
कई एल्गोरिदम हैं जिनका उपयोग आयामीता में कमी के लिए किया जा सकता है।
विधियों के दो मुख्य वर्ग हैं जो रैखिक बीजगणित से तैयार किए गए हैं और वे जो कई गुना सीखने से तैयार किए गए हैं।
रैखिक बीजगणित मॉडल
रैखिक बीजगणित के क्षेत्र से खींची गई मैट्रिक्स गुणन विधि का उपयोग विमा के लिए किया जा सकता है।
अधिक लोकप्रिय तरीकों में से कुछ में शामिल हैं:
- प्रमुख घटक विश्लेषण
- विलक्षण मान अपघटन
- गैर-नकारात्मक मैट्रिक्स फैक्टराइजेशन
मैनिफॉल्ड लर्निंग मेथड्स
मैनिफॉल्ड लर्निंग मेथड्स उच्च-आयामी इनपुट के निम्न-आयामी प्रक्षेपण की तलाश करते हैं जो इनपुट डेटा के मुख्य गुणों को कैप्चर करता है।
अधिक लोकप्रिय तरीकों में से कुछ में शामिल हैं:
- आइसोमैप एम्बेडिंग
- स्थानीय रूप से रैखिक एम्बेडिंग
- बहुआयामी स्केलिंग
- वर्णक्रमीय एम्बेडिंग
- टी-वितरित स्टोकेस्टिक नेबर एम्बेडिंग
प्रत्येक एल्गोरिथ्म निम्न आयामों पर डेटा में प्राकृतिक संबंधों की खोज की चुनौती के लिए एक अलग दृष्टिकोण प्रदान करता है।
कोई सर्वोत्तम आयामीता कमी एल्गोरिदम नहीं है, और नियंत्रित प्रयोगों का उपयोग किए बिना आपके डेटा के लिए सर्वोत्तम एल्गोरिदम खोजने का कोई आसान तरीका नहीं है।
10. ग्रेडिएंट बूस्टिंग एल्गोरिदम
ग्रेडिएंट बूस्टिंग शब्द में दो उप-शब्द, ग्रेडिएंट और बूस्टिंग शामिल हैं। हम पहले से ही जानते हैं कि ग्रेडिएंट बूस्टिंग एक बूस्टिंग तकनीक है। आइए देखें कि ‘ग्रेडिएंट’ शब्द यहां कैसे संबंधित है।
ग्रैडिएंट बूस्टिंग एक संख्यात्मक अनुकूलन समस्या के रूप में बूस्टिंग को फिर से परिभाषित करता है, जहां उद्देश्य ग्रेडिएंट डिसेंट का उपयोग करके कमजोर शिक्षार्थियों को जोड़कर मॉडल के नुकसान फ़ंक्शन को कम करना है। ग्रैडिएंट डिसेंट एक स्थानीय न्यूनतम डिफरेंशियल फंक्शन खोजने के लिए एक प्रथम-क्रम पुनरावृत्त अनुकूलन एल्गोरिथ्म है। चूंकि ग्रेडिएंट बूस्टिंग एक नुकसान फ़ंक्शन को कम करने पर आधारित है, विभिन्न प्रकार के नुकसान कार्यों का उपयोग किया जा सकता है जिसके परिणामस्वरूप एक लचीली तकनीक होती है जिसे प्रतिगमन, बहु-वर्ग वर्गीकरण आदि पर लागू किया जा सकता है।
सहज रूप से, ग्रेडिएंट बूस्टिंग एक चरण-वार योगात्मक मॉडल है जो सीखने की प्रक्रिया के दौरान शिक्षार्थियों को उत्पन्न करता है (यानी, ट्री एक बार में जोड़े जाते हैं, और मॉडल में मौजूदा ट्री नहीं बदले जाते हैं)। पहनावा में कमजोर शिक्षार्थी का योगदान ग्रेडिएंट डिसेंट ऑप्टिमाइज़ेशन प्रक्रिया पर आधारित है। प्रत्येक ट्री का परिकलित योगदान मजबूत शिक्षार्थी की समग्र त्रुटि को कम करने पर आधारित है।
ग्रेडिएंट बूस्टिंग नमूना वितरण को संशोधित नहीं करता है क्योंकि कमजोर शिक्षार्थी एक मजबूत शिक्षार्थी (यानी, छद्म-अवशिष्ट) की शेष अवशिष्ट त्रुटियों पर प्रशिक्षण देते हैं। मॉडल के अवशेषों पर प्रशिक्षण द्वारा, गलत वर्गीकृत टिप्पणियों को अधिक महत्व देने का एक वैकल्पिक साधन है। सहज रूप से, नए कमजोर शिक्षार्थियों को उन क्षेत्रों पर ध्यान केंद्रित करने के लिए जोड़ा जा रहा है जहां मौजूदा शिक्षार्थी खराब प्रदर्शन कर रहे हैं। अंतिम पूर्वानुमान के लिए प्रत्येक कमजोर शिक्षार्थी का योगदान मजबूत शिक्षार्थी की समग्र त्रुटि को कम करने के लिए एक ढाल अनुकूलन प्रक्रिया पर आधारित है।