This post is also available in: English العربية (Arabic)
मशीन लर्निंग में डेटा तैयार करना क्या है?
डेटा तैयार करना(जिसे “डेटा प्री-प्रोसेसिंग” भी कहा जाता है) कच्चे डेटा को बदलने की प्रक्रिया है ताकि डेटा वैज्ञानिक और विश्लेषक इसे मशीन लर्निंग एल्गोरिदम के माध्यम से अंतर्दृष्टि को उजागर करने या पूर्वानुमान करने के लिए चला सकें।
डेटा तैयार करने के चरण
डेटा तैयार करने के लिए आवश्यक समय को कम करना तेजी से महत्वपूर्ण हो गया है, क्योंकि यह अधिक मूल्य बनाने के लिए परीक्षण, ट्यून और मॉडल को अनुकूलित करने के लिए अधिक समय देता है। एनालिटिक्स और मशीन लर्निंग इनिशिएटिव दोनों के लिए डेटा तैयार करने के लिए टीमें मशीन लर्निंग और डेटा साइंस प्रोजेक्ट्स में तेजी ला सकती हैं ताकि एक इमर्सिव बिजनेस उपभोक्ता अनुभव प्रदान किया जा सके जो छह महत्वपूर्ण चरणों का पालन करके डेटा-टू-इनसाइट पाइपलाइन को तेज और स्वचालित करता है:
1. डेटा संग्रह (डाटा कलेक्शन)
एक समाज के रूप में, हम अभूतपूर्व दर से डेटा उत्पन्न कर रहे हैं। ये डेटा संख्यात्मक (तापमान, ऋण राशि, ग्राहक प्रतिधारण दर), श्रेणीबद्ध (लिंग, रंग, उच्चतम डिग्री अर्जित), या यहां तक कि मुफ्त टेक्स्ट (डॉक्टर के नोट्स या राय सर्वेक्षण) भी हो सकते हैं।
Data Collection
डेटा संग्रह अनगिनत विभिन्न स्रोतों से जानकारी एकत्र करने और मापने की प्रक्रिया है। व्यावहारिक आर्टिफिशियल इंटेलिजेंस और मशीन लर्निंग सॉल्यूशंस विकसित करने के लिए हमारे द्वारा एकत्र किए गए डेटा का उपयोग करने के लिए, इसे इस तरह से एकत्र और संग्रहीत किया जाना चाहिए जो हाथ में व्यावसायिक समस्या के लिए समझ में आता हो।
2. डेटा एक्सप्लोरेशन और प्रोफाइलिंग
डेटा अन्वेषण प्रारंभिक डेटा विश्लेषण के समान एक दृष्टिकोण है, जिससे डेटा विश्लेषक पारंपरिक डेटा प्रबंधन प्रणालियों के बजाय डेटा की विशेषताओं और डेटा की विशेषताओं को समझने के लिए दृश्य अन्वेषण का उपयोग करता है।
इन विशेषताओं में डेटा का आकार या मात्रा, डेटा की पूर्णता, डेटा की शुद्धता, डेटा तत्वों या डेटा में फ़ाइलों/तालिकाओं के बीच संभावित संबंध शामिल हो सकते हैं।
डेटा एक्सप्लोरेशन आमतौर पर स्वचालित और मैन्युअल गतिविधियों के संयोजन का उपयोग करके किया जाता है। स्वचालित गतिविधियों में डेटा प्रोफाइलिंग या डेटा विज़ुअलाइज़ेशन या सारणीबद्ध रिपोर्ट शामिल हो सकती हैं ताकि विश्लेषक को डेटा में एक प्रारंभिक दृश्य और प्रमुख विशेषताओं की समझ मिल सके।
Data Profiling
स्वचालित क्रियाओं के माध्यम से पहचाने गए विसंगतियों या पैटर्न की पहचान करने के लिए अक्सर मैन्युअल ड्रिल-डाउन या डेटा को फ़िल्टर करने के बाद इसका पालन किया जाता है। डेटा एक्सप्लोरेशन के लिए डेटा में मैन्युअल स्क्रिप्टिंग और क्वेरीज़ की आवश्यकता हो सकती है (जैसे SQL या R जैसी भाषाओं का उपयोग करना) या कच्चे डेटा को देखने के लिए स्प्रेडशीट या इसी तरह के टूल का उपयोग करना।
इन सभी गतिविधियों का उद्देश्य विश्लेषक के दिमाग में डेटा का एक मानसिक मॉडल और समझ बनाना है, और डेटा सेट के लिए बुनियादी मेटाडेटा (सांख्यिकी, संरचना, संबंध) को परिभाषित करना है जिसका उपयोग आगे के विश्लेषण में किया जा सकता है।
एक बार डेटा की यह प्रारंभिक समझ हो जाने के बाद, डेटा के अनुपयोगी हिस्सों (डेटा क्लींजिंग) को हटाकर, खराब स्वरूपित तत्वों को ठीक करके, और डेटासेट में प्रासंगिक संबंधों को परिभाषित करके डेटा को छोटा या परिष्कृत किया जा सकता है। इस प्रक्रिया को डेटा गुणवत्ता निर्धारित करने के रूप में भी जाना जाता है।
3. डेटा स्वरूपण (फॉर्मेटिंग)
डेटा तैयार करने का अगला चरण यह सुनिश्चित करना है कि आपके डेटा को इस तरह से स्वरूपित किया जाए जो आपके मशीन लर्निंग मॉडल के लिए सबसे उपयुक्त हो। यदि आप अलग-अलग स्रोतों से डेटा एकत्र कर रहे हैं, या यदि आपका डेटा सेट एक से अधिक व्यक्तियों द्वारा मैन्युअल रूप से अपडेट किया गया है, तो आपको डेटा प्रारूपित करने के तरीके में विसंगतियां मिलने की संभावना है (उदाहरण के लिए USD5.50 बनाम $5.50)।
उसी तरह, एक कॉलम में मानों का मानकीकरण, उदाहरण के लिए राज्य के नाम जिन्हें वर्तनी या संक्षिप्त किया जा सकता है) यह सुनिश्चित करेगा कि आपका डेटा सही ढंग से एकत्रित होगा। लगातार डेटा स्वरूपण इन त्रुटियों को दूर करता है ताकि संपूर्ण डेटा सेट समान इनपुट स्वरूपण प्रोटोकॉल का उपयोग करे।
4. डेटा गुणवत्ता में सुधार
यहां, आपके डेटा में गलत डेटा, लापता मान, चरम मान और आउटलेयर से निपटने के लिए एक रणनीति बनाकर प्रक्रिया शुरू होती है। सेल्फ-सर्विस डेटा तैयारी उपकरण मदद कर सकते हैं यदि उनके पास बुद्धिमान सुविधाएं हैं जो अलग-अलग डेटासेट से डेटा विशेषताओं से मिलान करने में मदद करने के लिए उन्हें समझदारी से संयोजित करने में मदद करती हैं। उदाहरण के लिए, यदि आपके पास एक डेटासेट में FIRST NAME और LAST NAME के लिए कॉलम हैं और दूसरे डेटासेट में CUSTOMER नामक एक कॉलम है, जो एक FIRST और LAST NAME को संयुक्त रूप से रखता है, तो बुद्धिमान एल्गोरिदम को इनका मिलान करने और इसमें शामिल होने का तरीका निर्धारित करने में सक्षम होना चाहिए।
निरंतर चर (कंटीन्यूअस वेरिएबल) के लिए, अपने डेटा के वितरण की समीक्षा करने और विषमता को कम करने के लिए हिस्टोग्राम का उपयोग करना सुनिश्चित करें। मान की स्वीकृत सीमा के बाहर रिकॉर्ड की जांच करना सुनिश्चित करें। यह “आउट लीएर” एक इनपुटिंग त्रुटि हो सकती है, या यह एक वास्तविक और सार्थक परिणाम हो सकता है जो भविष्य की घटनाओं को डुप्लिकेट के रूप में सूचित कर सकता है या समान मान समान जानकारी ले सकता है और इसे समाप्त किया जाना चाहिए। इसी तरह, लापता मान वाले सभी रिकॉर्ड्स को स्वचालित रूप से हटाने से पहले ध्यान रखें, क्योंकि बहुत अधिक विलोपन आपके डेटा सेट को अब वास्तविक दुनिया की स्थितियों को प्रतिबिंबित नहीं करने के लिए तिरछा कर सकते हैं।
5. फ़ीचर इंजीनियरिंग
फ़ीचर इंजीनियरिंग कच्चे डेटा से सुविधाओं (विशेषताओं, गुणों, विशेषताओं) को निकालने के लिए डोमेन ज्ञान का उपयोग करने की प्रक्रिया है। एक विशेषता स्वतंत्र इकाइयों द्वारा साझा की गई संपत्ति है जिस पर विश्लेषण या भविष्यवाणी की जानी है। पूर्वानुमान लगाने वाले मॉडल और प्रभाव परिणामों द्वारा सुविधाओं का उपयोग किया जाता है।
सुविधाओं का चयन एक मशीन लर्निंग मॉडल के निर्माण में महत्वपूर्ण भूमिका निभाता है जो मॉडल के प्रदर्शन और सटीकता को प्रभावित करता है। यह वह प्रक्रिया है जो स्वचालित रूप से या मैन्युअल रूप से सुविधाओं का चयन करके हमें आवश्यक पूर्वानुमानों या आउटपुट में योगदान देती है। यदि हमारे पास अप्रासंगिक डेटा है जो मॉडल को ओवरफिटिंग या अंडरफिटिंग के कारण होगा।
- सुविधा (फीचर) चयन के लाभ हैं:
- ओवरफिटिंग / अंडरफिटिंग को कम करता है
- सटीकता (एक्यूरेसी) में सुधार करता है
- प्रशिक्षण/परीक्षण समय कम करता है
- प्रदर्शन में सुधार
6. डेटा को प्रशिक्षण और मूल्यांकन सेट में विभाजित करना
अंतिम चरण आपके डेटा को दो सेटों में विभाजित करना है; एक आपके एल्गोरिदम को प्रशिक्षित करने के लिए, और दूसरा मूल्यांकन उद्देश्यों के लिए। उचित परीक्षण सुनिश्चित करने के लिए प्रशिक्षण और मूल्यांकन सेट के लिए अपने डेटा के गैर-अतिव्यापी सबसेट का चयन करना सुनिश्चित करें। उन टूल में निवेश करें जो आपके मूल स्रोत के संस्करण और कैटलॉगिंग के साथ-साथ मशीन लर्निंग एल्गोरिदम में इनपुट के लिए आपके तैयार डेटा और उनके बीच की वंशावली प्रदान करें। इस तरह, आप समय के साथ अपने मॉडलों को परिष्कृत और अनुकूलित करने के लिए अपने पूर्वानुमानों के परिणाम को वापस इनपुट डेटा पर ट्रेस कर सकते हैं।
डेटा तैयार करने में डेटा की गुणवत्ता को प्रभावित करने वाले कारक
डेटा तैयारी प्रक्रिया इन मुद्दों के कारण जटिल हो सकती है:
1. गुम या अपूर्ण अभिलेख
डेटासेट में प्रत्येक रिकॉर्ड के लिए प्रत्येक डेटा बिंदु प्राप्त करना मुश्किल है। गुम डेटा कभी-कभी रिक्त कक्षों, मानों (उदाहरण के लिए, NULL या N/A), या किसी विशेष वर्ण, जैसे प्रश्न चिह्न के रूप में प्रकट होता है। उदाहरण के लिए:
आयु | वजन |
50 – 60 | ? |
20 – 30 | 50 – 75 |
80 – 90 | NULL |
50 – 60 | N/A |
50 – 60 | ? |
70 – 80 | 60 – 70 |
2. आउटलेयर या विसंगतियाँ
अनपेक्षित मान अक्सर मूल्यों के वितरण में दिखाई देते हैं, विशेष रूप से अज्ञात स्रोतों से डेटा के साथ काम करते समय, जिसमें खराब डेटा सत्यापन नियंत्रण की कमी होती है।
3. अनुचित रूप से स्वरूपित / संरचित डेटा
डेटा को कभी-कभी किसी भिन्न प्रारूप या स्थान में निकालने की आवश्यकता होती है। इसके लिए का एक अच्छा तरीका डोमेन विशेषज्ञों से परामर्श करना या अन्य स्रोतों से डेटा जोड़ना है।
4. असंगत मूल्य और गैर-मानकीकृत श्रेणीबद्ध चर
अक्सर कई स्रोतों से डेटा का संयोजन करते समय, हम कंपनी के नाम या राज्यों जैसे चरों में भिन्नता के साथ समाप्त हो सकते हैं। उदाहरण के लिए, एक प्रणाली में एक राज्य “टेक्सास” हो सकता है, जबकि दूसरे में यह “TX” हो सकता है। सभी विविधताओं को खोजने और सही ढंग से मानकीकरण करने से मॉडल सटीकता में काफी सुधार होगा।
5. सीमित या विरल सुविधाएँ / विशेषताएँ
सुविधा संवर्धन, या हमारे डेटा में सुविधाओं के निर्माण के लिए अक्सर हमें विविध स्रोतों से डेटासेट को संयोजित करने की आवश्यकता होती है। डेटासेट से मिलान करने के लिए कोई आसान या सटीक कॉलम नहीं होने पर विभिन्न प्रणालियों से फ़ाइलों को जोड़ना अक्सर बाधित होता है। इसके बाद फ़ज़ी मिलान करने की क्षमता की आवश्यकता होती है, जो मैच को प्राप्त करने के लिए कई स्तंभों के संयोजन पर भी आधारित हो सकता है। उदाहरण के लिए, ग्राहक आईडी (दोनों डेटा डेटासेट में मौजूद) पर दो डेटासेट का संयोजन आसान हो सकता है। एक ऐसे डेटासेट को संयोजित करना जिसमें CUSTOMER FIRST NAME और CUSTOMER LAST NAME के लिए अलग-अलग कॉलम हों, एक अन्य डेटासेट के साथ CUSTOMER FULL NAME, जिसमें “अंतिम नाम, पहला नाम” हो, और अधिक मुश्किल हो जाता है।