मशीन लर्निंग में 7 बेसिक चरण

This post is also available in: English العربية (Arabic)

मशीन लर्निंग कृत्रिम बुद्धिमत्ता (आर्टिफिशियल इंटेलिजेंस) (एआई) का एक एप्लीकेशन है जो सिस्टम को स्पष्ट रूप से प्रोग्राम किए बिना अनुभव से स्वचालित रूप से सीखने और सुधरने की क्षमता प्रदान करता है। मशीन लर्निंग कंप्यूटर प्रोग्राम के विकास पर ध्यान केंद्रित करता है जो डेटा तक पहुंच सके और इसका उपयोग खुद के लिए सीखने के लिए कर सके।

सीखने की प्रक्रिया डेटा से शुरू होती है, जैसे कि उदाहरण, प्रत्यक्ष अनुभव, या निर्देश। डेटा में पैटर्न देखने के लिए और हमारे द्वारा प्रदान किए जाने वाले उदाहरणों पर भविष्य में बेहतर निर्णय लेने के लिए। प्राथमिक उद्देश्य कंप्यूटर को मानवीय हस्तक्षेप या सहायता के बिना स्वचालित रूप से सीखने और तदनुसार कार्यों को समायोजित करने के लिए तैयार करना है।

मशीन लर्निंग में बुनियादी चरण

मशीन लर्निंग की प्रक्रिया को 7 चरणों में बांटा जा सकता है। इन चरणों को समझने के लिए आइए एक मॉडल पर विचार करें जिसे फल के बीच अंतर करने के लिए प्रशिक्षित किया जाता है जैसे कि सेब या नारंगी। वास्तविक दुनिया में मशीन लर्निंग बहुत अधिक जटिल कार्यों को सीखने में सक्षम है। हालांकि, प्रक्रिया को समझाने के लिए, उपरोक्त उदाहरण को लिया गया है।

1. डेटा संग्रह (डाटा कलेक्शन)

डेटा संग्रह विभिन्न स्रोतों से जानकारी एकत्र करने और मापने की प्रक्रिया है। व्यावहारिक आर्टिफिशियल इंटेलिजेंस (एआई) और मशीन लर्निंग समाधान विकसित करने के लिए हमारे द्वारा एकत्र किए गए डेटा का उपयोग करने के लिए, उसे इस तरह से संग्रहित किया जाना चाहिए जो व्यापार की समस्याओं को हल करने में मददगार साबित हो सके।

एक मॉडल जो फलों के बीच अंतर जैसे सेब या नारंगी बताने में सक्षम के लिए विभिन्न मापदंडों का उपयोग किया जाता है। चीजों को सरल रखने के लिए, हम केवल 2 विशेषताओं को लेते हैं जो हमारा मॉडल उपयोग करेगा – रंग और आकार। इन विशेषताओं का उपयोग करते हुए, हम आशा करेंगे कि हमारा मॉडल इन 2 फलों के बीच सटीक अंतर कर सकता है।

इस प्रकार, इसमें एकत्रित आंकड़ों को संक्षेप में प्रस्तुत किया जा सकता है:

रंगआकारफल
लालगोल शंक्वाकारसेब
नारंगीगोलनारंगी

हमारे 2 चुनी हुई विशेषताओं के लिए डेटा एकत्र करने के लिए एक तंत्र ((मैकेनिज्म)) की आवश्यकता होगी। उदाहरण के लिए, रंग पर डेटा एकत्र करने के लिए, हम एक स्पेक्ट्रोमीटर का उपयोग कर सकते हैं और आकार के लिए, हम फल के चित्रों का उपयोग कर सकते हैं। डेटा एकत्र करने के लिए, हम अपनी सुविधाओं के लिए एक सेट बनाने के लिए यथासंभव विभिन्न प्रकार के सेब और संतरे प्राप्त करने का प्रयास करेंगे।

डेटा एकत्र करना आपको पिछली घटनाओं के रिकॉर्ड को कैप्चर करने की अनुमति देता है ताकि हम आवर्ती पैटर्न को खोजने के लिए डेटा विश्लेषण का उपयोग कर सकें। इन पैटर्नों से, आप मशीन लर्निंग एल्गोरिदम का उपयोग करके पूर्वानुमान लगाने वाला मॉडल बनाते हैं जो रुझानों की तलाश करते हैं और भविष्य के परिवर्तनों की भविष्यवाणी करते हैं।

प्रिडिक्टिव मॉडल केवल उतने ही अच्छे होते हैं, जितना डाटा, इसलिए उच्च प्रदर्शन वाले मॉडल को विकसित करने के लिए अच्छे डेटा संग्रह महत्वपूर्ण होता है। डेटा को त्रुटि-रहित होना चाहिए और कार्य के लिए प्रासंगिक। उदाहरण के लिए, डाटा यदि आकार लिया जाये तो वह उचित नहीं होगा, क्योंकि सेब और नारंगी का आकार एक जैसा हो सकता है।

2. डेटा तैयारी

किसी भी मशीन लर्निंग प्रोजेक्ट में डेटा तैयार करना सबसे कठिन चरणों में से एक हो सकता है। कारण यह है कि प्रत्येक डेटासेट प्रत्येक एप्लीकेशन के लिए अलग और विशिष्ट होता है।

डेटा तैयार करना (“डेटा प्रीप्रोसेसिंग” के रूप में भी जाना जाता है) रॉ डेटा को बदलने की प्रक्रिया है ताकि यह पूर्वानुमान करने के लिए मशीन लर्निंग एल्गोरिदम के माध्यम से चल सके।

CodingHero - मशीन लर्निंग में 7 बेसिक चरण 1 11 Basic Machine Learning Terms Kids Should Know 952 31

हमारे उदाहरण के लिए, एक बार जब हम दो प्रमुख विशेषताओं के लिए डेटा एकत्र कर लेते हैं, तो हमारा अगला कदम आगे के चरणों के लिए डेटा तैयार करना होगा। इस चरण का एक प्रमुख ध्यान 2 सुविधाओं के लिए हमारे डेटा सेट में किसी भी संभावित पूर्वाग्रह को पहचानना और कम करना है। ऐसा इसलिए है क्योंकि हम नहीं चाहते कि मॉडल के चयन पर कोई असर पड़े। इसके अलावा, हम किसी विशेष फल के लिए किसी भी विषमता (स्केवनेस्स) के लिए हमारे डेटा सेट की जांच करेंगे। यह फिर से एक संभावित पूर्वाग्रह को पहचानने और सुधारने में मदद करेगा क्योंकि इसका मतलब होगा कि मॉडल एक फल की सही पहचान करने में माहिर होगा लेकिन दूसरे फल के साथ संघर्ष कर सकता है।

डेटा तैयारी प्रक्रिया इन मुद्दों के कारण जटिल हो सकती है:

  • नामौजूद या अधूरा रिकॉर्ड: डेटासेट में हर रिकॉर्ड के लिए हर डेटा पॉइंट को हासिल करना मुश्किल होता है। नामौजूद डेटा कभी-कभी खाली कोशिकाओं, मूल्यों या किसी विशेष चरित्र के रूप में प्रकट होता है।
  • आउटलायर्स या विसंगतियाँ: मानों के वितरण में अप्रत्याशित मूल्य अक्सर सतह पर होते हैं, खासकर जब अज्ञात स्रोतों से डेटा के साथ काम करते हैं जिसमें खराब डेटा सत्यापन नियंत्रण का अभाव होता है।
  • बेहतर स्वरूपित / संरचित डेटा: डेटा को कभी-कभी एक अलग प्रारूप या स्थान में निकालने की आवश्यकता होती है। इसके लिए का एक अच्छा तरीका डोमेन विशेषज्ञों से परामर्श करना या अन्य स्रोतों से डेटा जोड़ना है।
  • असंगत मूल्य और गैर-मानकीकृत श्रेणीबद्ध चर: अक्सर जब कई स्रोतों से डेटा मिलाते हैं, तो हम “राउंड” के स्थान पर दर्ज हमारे उदाहरण “आर डी (RD)” जैसे चर (वेरिएबल) में भिन्नता के साथ समाप्त हो सकते हैं।

3. एक मॉडल चुनना

डेटा-केंद्रित चरणों के साथ किए जाने के बाद मॉडल प्रकार का चयन हमारा अगला चरण है। मॉडल चयन एक प्रशिक्षण डाटासेट के लिए उम्मीदवार मशीन लर्निंग मॉडल के संग्रह में से एक अंतिम मशीन लर्निंग मॉडल का चयन करने की प्रक्रिया है। मॉडल चयन वह है जो विभिन्न प्रकार के मॉडल (जैसे, लॉजिस्टिक रिग्रेशन, एस वी एम, के एन एन, आदि) और विभिन्न मॉडल हाइपरपरमेटर्स (जैसे एक एस वी एम में अलग-अलग कर्नल्स) के साथ कॉन्फ़िगर किए गए मॉडल के दोनों पर लागू किया जा सकता है।

इन मॉडलों को विभिन्न लक्ष्यों को ध्यान में रखकर बनाया गया है। उदाहरण के लिए, कुछ मॉडल टेक्स्ट के लिए अधिक अनुकूल हैं, जबकि अन्य मॉडल चित्रों को संभालने के लिए बेहतर हो सकते हैं। हमारे मॉडल के बारे में, एक साधारण लीनियर रिग्रेशन मॉडल फल के बीच अंतर करने के लिए उपयुक्त होगा। इस मामले में, फल का प्रकार हमारा आश्रित चर (डिपेंडेंट वेरिएबल) होगा जबकि फल का रंग और फल का आकार 2 प्रेडिक्टर या अन्य चर होंगे।

4. एक मॉडल का प्रशिक्षण

एक मॉडल का प्रशिक्षण मशीन सीखने की प्रक्रिया का एक प्रमुख हिस्सा है। मशीन की अधिकाँश “लर्निंग” इसी स्टेज में होती है। यहां हम अपने मॉडल को भविष्यवाणी करने के लिए सिखाने के लिए प्रशिक्षण के लिए आवंटित डेटा सेट के हिस्से का उपयोग करते हैं।

हमारे उदाहरण में, हमारे मॉडल को 2 फलों के बीच अंतर करना सिखाने के लिए पहले के चरणों में एकत्र किए गए डेटा सेट को प्रशिक्षण के लिए आवंटित किया गया है। यदि हम अपने मॉडल को गणितीय दृस्टि से देखें, तो इनपुट्स, यानी हमारी 2 विशेषताओं में गुणांक (कोएफ़िशिएंट्स) होंगे। इन वेइट्स ऑफ़ फीचर्स का भार कहा जाता है। मूल्यों को निर्धारित करने की प्रक्रिया ट्रायल और एरर है। प्रारंभ में, हम उनके लिए यादृच्छिक मान चुनते हैं और इनपुट प्रदान करते हैं। प्राप्त आउटपुट की तुलना वास्तविक आउटपुट से की जाती है और विभिन्न मूल्यों को आज़माकर अंतर को कम किया जाता है। हमारे प्रशिक्षण डेटा सेट से विभिन्न प्रविष्टियों का उपयोग करके पुनरावृत्तियों को दोहराया जाता है जब तक कि मॉडल सटीकता के वांछित स्तर तक नहीं पहुंचता।

5. मॉडल का मूल्यांकन

प्रशिक्षित मॉडल के साथ, यह देखने के लिए परीक्षण किया जाना चाहिए कि क्या यह वास्तविक दुनिया की स्थितियों में अच्छा काम करेगा। यही कारण है कि मूल्यांकन के लिए बनाए गए डेटा सेट का हिस्सा मॉडल की दक्षता की जांच करने के लिए उपयोग किया जाता है। यह मॉडल को एक ऐसे परिदृश्य में डालता है जहां यह उन परिस्थितियों का सामना कर सकता है जो इसके प्रशिक्षण का हिस्सा नहीं थे।

हमारे मामले में, इसका मतलब होगा कि एक प्रकार का सेब या एक नारंगी जो मॉडल के लिए पूरी तरह से नया है। हालांकि, अपने प्रशिक्षण के माध्यम से, मॉडल को यह अनुमान लगाने में सक्षम होना चाहिए कि फल एक सेब है या नारंगी।

वाणिज्यिक अनुप्रयोगों (कमर्शियल ऍप्लिकेशन्स) की बात आती है तो मूल्यांकन अत्यधिक महत्वपूर्ण हो जाता है। मूल्यांकन डेटा वैज्ञानिकों को यह जांचने में मदद देता है कि वे जो लक्ष्य प्राप्त करने के लिए निर्धारित थे, वे मिले या नहीं। यदि परिणाम संतोषजनक नहीं हैं, तो पूर्व चरणों को फिर से संशोधित करने की आवश्यकता है ताकि मॉडल के अंडरपरफॉर्मेंस के पीछे के मूल कारण की पहचान की जा सके और बाद में उसे ठीक किया जा सके।

6. हाइपरपैरामीटर ट्यूनिंग

हाइपरपैरामीटर एक पैरामीटर है जिसका मूल्य सीखने की प्रक्रिया शुरू होने से पहले निर्धारित किया जाता है। हाइपरपैरामीटर्स अन्य मापदंडों से भिन्न होते हैं, जो लर्निंग एल्गोरिथ्म द्वारा पाए गए मॉडल के लिए आंतरिक गुणांक या भार होते हैं। मापदंडों के विपरीत, हाइपरपैरामीटर्स मॉडल को कॉन्फ़िगर करते समय प्रैक्टिशनर द्वारा निर्दिष्ट किया जाता है।

यदि मूल्यांकन सफल होता है, तो अगला कदम हाइपरपैरामीटर्स ट्यूनिंग होता है। यह चरण मूल्यांकन चरण के दौरान प्राप्त सकारात्मक परिणामों पर सुधार करने का प्रयास करता है। उदाहरण के लिए, हम देखेंगे कि कैसे हम सेब और संतरे को पहचानने में अपने मॉडल को और बेहतर बना सकते हैं। मॉडल को बेहतर बनाने के लिए हम अलग-अलग तरीके अपना सकते हैं।

आमतौर पर, यह जानना चुनौतीपूर्ण होता है कि किसी दिए गए डेटासेट पर दिए गए एल्गोरिथ्म के हाइपरपैरामीटर के लिए कौन से मानों का उपयोग करना है, इसलिए विभिन्न हाइपरपैरमीटर मानों के लिए यादृच्छिक या ग्रिड खोज रणनीतियों का उपयोग करना आम है।

एल्गोरिथ्म के अधिक हाइपरपैरामीटर जो आपको ट्यून करने की आवश्यकता है, ट्यूनिंग प्रक्रिया को धीमा करते हैं। इसलिए, खोज या ट्यून करने के लिए मॉडल हाइपरपरमेटर्स के न्यूनतम उपसमूह का चयन करना वांछनीय है। उनमें से एक प्रशिक्षण कदम पर फिर से विचार कर रहा है और मॉडल के प्रशिक्षण के लिए प्रशिक्षण डेटा के कई स्वीप का उपयोग करता है।

7. पूर्वानुमान

एक ऐतिहासिक डेटासेट पर प्रशिक्षित होने और किसी विशेष परिणाम की संभावना का अनुमान लगाने के बाद नए डेटा पर लागू होने के बाद पूर्वानुमान एक एल्गोरिदम के आउटपुट को संदर्भित करता है। परिणाम नए डेटा में प्रत्येक रिकॉर्ड के लिए एक अज्ञात चर के लिए मान उत्पन्न करेगा, जिससे मॉडल बिल्डर को यह पहचानने की अनुमति मिलेगी कि सबसे अधिक मूल्य क्या होगा।

हमारा फ्रूट मॉडल अब इस सवाल का जवाब देने में सक्षम होना चाहिए कि दिया गया फल सेब है या नारंगी।

CodingHero - मशीन लर्निंग में 7 बेसिक चरण 1 11 Basic Machine Learning Terms Kids Should Know 952 32

शब्द “पूर्वानुमान” भ्रामक हो सकता है। कुछ मामलों में, इसका मतलब है कि आप भविष्य के परिणाम का पूर्वानुमान लगा रहे हैं, जैसे कि जब आप किसी मार्केटिंग अभियान में अगली सबसे अच्छी कार्रवाई निर्धारित करने के लिए मशीन सीखने का उपयोग कर रहे हों। दूसरी ओर, “भविष्यवाणी” के साथ क्या करना है, उदाहरण के लिए, पहले से ही हुआ एक लेनदेन धोखाधड़ी था या नहीं। उस स्थिति में, लेन-देन पहले से ही हुआ था, लेकिन आप इस बारे में एक शिक्षित अनुमान लगा रहे हैं कि यह वैध था या नहीं, आपको उचित कार्रवाई करने की अनुमति देता है।

Leave a Comment