• Home
  • /
  • Blog
  • /
  • डाटा रैंगलिंग के 6 मूल चरण बच्चों को समझाए गए

डाटा रैंगलिंग के 6 मूल चरण बच्चों को समझाए गए

data wrangling

This post is also available in: English (English) العربية (Arabic)

डाटा रैंगलिंग क्या है?

डेटा हर दिन दुनिया को बदल रहा है। अधिकांश एप्लिकेशन इन आंकड़ों पर भरोसा करते हैं। वास्तविक-विश्व डेटा अक्सर गड़बड़ और असंगठित होते हैं। डेटा साइंटिस्ट लगभग 70 प्रतिशत समय सफाई और डेटा तैयार करने में लगाते हैं, क्योंकि वहां मौजूद सभी डेटा उनके कच्चे प्रारूप में उपयोगी नहीं हो सकते। सबसे महत्वपूर्ण कौशल में से एक जो डेटा वैज्ञानिक के पास होना चाहिए, वह डेटा निकालने और साफ करने की क्षमता है। इसे आमतौर पर डेटा रैंगलिंग या डेटा मंचिंग के रूप में जाना जाता है।

डाटा रैंगलिंग, डेटा एनालिटिक्स और मशीन लर्निंग जैसे उन्नत कार्यों के लिए इसे अधिक मूल्यवान और उपयुक्त बनाने के उद्देश्य से अपने कच्चे रूप से दूसरे प्रारूप में डेटा को परिवर्तित और मैप करने की प्रक्रिया है।

डाटा रैंगलिंग का महत्व

डेटा रैंगलिंग (सिकुड़ना) बहुत महत्वपूर्ण है क्योंकि यह रॉ डेटा का उपयोग करने का एकमात्र तरीका है। वास्तविक दुनिया की व्यावसायिक सेटिंग में, उपयोगकर्ता जानकारी अलग-अलग समय पर अलग-अलग पृष्ठभूमि से अलग-अलग टुकड़ों में आती है। कभी-कभी, हम विभिन्न स्प्रेडशीट में विभिन्न कंप्यूटरों में इस जानकारी को संग्रहीत करते हैं जिससे डेटा अतिरेक, गलत डेटा या अनुपस्थित डेटा हो सकता है। डेटा प्रबंधन के लिए एक पारदर्शी और कुशल प्रणाली बनाने के लिए, सबसे अच्छा उपाय यह है कि सभी डेटा को एक केंद्रीकृत स्थान पर रखा जाए ताकि इसे आसानी से उपयोग किया जा सके।

निम्नलिखित उदाहरण डेटा रैंगलिंग के महत्व को समझाएंगे:

एक पुस्तक-विक्रय वेबसाइट उपयोगकर्ता की पसंद के अनुसार, विभिन्न डोमेन की शीर्ष-विक्रय पुस्तकें दिखाना चाहती है। उदाहरण के लिए, एक नया उपयोगकर्ता प्रेरक पुस्तकों की खोज करता है, और वेबसाइट उन पुस्तकों को दिखाना चाहती है जो सबसे अधिक बिकती हैं या उच्च रेटिंग वाली हैं, आदि।

CodingHero - डाटा रैंगलिंग के 6 मूल चरण बच्चों को समझाए गए 1 6 Basic Steps in Data Wrangling Explained to Kids 952

लेकिन उनकी वेबसाइट पर, बहुत सारे रॉ डेटा हो सकते हैं। डेटा रैंगलिंग इस समय बचाव के लिए आता है जो डेटा वैज्ञानिकों द्वारा किया जाता है। डेटा वैज्ञानिक डेटा को इस तरह से कम कर देता है कि प्रेरक किताबें छांटने के लिए बेची जाएं या सूची के शीर्ष पर उच्च रेटिंग की किताबें ग्राहक के सामने पेश हों। उसी के आधार पर, नया उपयोगकर्ता अपने विकल्प चुनता है।

डाटा रैंगलिंग के मूल चरण

डेटा रैंगलिंग अंतिम परिणामों के रूप में डेटा विश्लेषण प्रक्रिया का एक हिस्सा है। अच्छी तरह से किया जाने वाला डाटा रैंगलिंग, आपको अपने डेटा की प्रकृति के बारे में जानकारी देता है, जिससे आप इससे बेहतर प्रश्न पूछ सकते हैं। परन्तु डाटा रैंगलिंग एक चरण में नहीं किया जाता है। इसे पूरा करने के लिए कई चरणों से गुजरना पड़ता है और कई बार किसी चरण को एक से अधिक बार दोहराया भी जा सकता है। इस प्रक्रिया में प्रत्येक चरण नए संभावित तरीकों को उजागर करता है जो डेटा को “री रैंगल्ड” भी कर सकता है, जिससे एक अच्छे केंद्रीकृत डेटा उत्पन्न करने के लक्ष्य की ओर बढ़ सकें।

निम्नलिखित छह बुनियादी स्टेप्स शामिल हैं:

1. खोज (डिस्कवरिंग)

इस चरण के दौरान, आप सीखते हैं कि आपके डेटा में क्या है और पूर्वानुमान लगाने वाले विश्लेषणात्मक अन्वेषणों के लिए सबसे अच्छा तरीका क्या हो सकता है। उदाहरण के लिए, यदि आपके पास कोई ग्राहक डेटा सेट है, और आप सीखते हैं कि आपके अधिकांश खरीदार देश के एक हिस्से से हैं, तो आप अपने डेटा कार्य के साथ आगे बढ़ते हुए इसे ध्यान में रखते हैं। आप अपने उत्पादों का प्रचार करते समय उस क्षेत्र की मौसम और भौगोलिक परिस्थितियों को ध्यान में रखेंगे।

2. संरचना

संरचना की आवश्यकता है क्योंकि डेटा सभी आकारों और प्रकारों में आता है। उदाहरण के लिए, आपके पास एक लेन-देन लॉग हो सकता है जहां प्रत्येक प्रविष्टि में एक या एक से अधिक आइटम हो सकते हैं। इन्वेंट्री विश्लेषण करने के लिए, आपको प्रत्येक खरीदे गए आइटम के लिए प्रत्येक लेनदेन को व्यक्तिगत रिकॉर्ड में विस्तारित करने की आवश्यकता होगी। वैकल्पिक रूप से, आप विश्लेषण करना चाह सकते हैं कि कौन से उत्पाद अक्सर एक साथ खरीदे जाते हैं। उस स्थिति में, खरीदी गई वस्तुओं के प्रत्येक जोड़े में प्रत्येक लेनदेन का विस्तार करना उचित हो सकता है।

3. सफाई

सफाई में ऐसे डेटा को बाहर निकालना शामिल है जो विश्लेषण को विकृत कर सकता है। उदाहरण के लिए एक नल्ल वैल्यू (NULL) जो किसी भी प्रक्रिया के लिए रुकावट पैदा कर सकती है। तो, आप इसे शून्य या एक खाली स्ट्रिंग के साथ बदलना चाह सकते हैं। आप एक विशेष क्षेत्र को मानकीकृत करना चाहते हैं, जिसमें कई अलग-अलग तरीकों को प्रतिस्थापित किया जा सकता है जो एक राज्य को बाहर लिखा जा सकता है – जैसे कि सी ए, सी ए एल, और सी एफ – एक एकल मानक प्रारूप के साथ।

सफाई के लिए डेटा गुणवत्ता और स्थिरता के बारे में ज्ञान की आवश्यकता होती है – यह जानना कि विभिन्न डेटा मूल्य आपके अंतिम विश्लेषण को कैसे प्रभावित कर सकते हैं।

4. समृद्ध करना

डाटा समृद्ध करने का तात्पर्य है कि आप अपने से यह पूछे कि और क्या डाटा इस कार्य के लिए उपयोगी हो सकता है? या, “मेरे पास पहले से मौजूद डेटा से और किस प्रकार के डेटा से प्राप्त हो सकते हैं ?”।

दूसरे शब्दों में डाटा समृद्धि का अर्थ है कि डाटा को और अधिक उपयुक्त बनाना। उदाहरण के लिए, अपने डेटाबेस में कुछ संबंधित वस्तुओं को जोड़ना जो उपयोगकर्ताओं द्वारा सबसे अधिक खोजी गयी हों।

5. वैध करना

मान्यकरण वह गतिविधि है जो डेटा गुणवत्ता और स्थिरता के मुद्दों को सतहों पर रखती है, या पुष्टि करती है कि उन्हें लागू परिवर्तनों द्वारा ठीक से संबोधित किया गया है। सत्यापन कई आयामों के साथ किया जाना चाहिए। कम से कम, यह आंकलन करना कि क्या गुण / क्षेत्र का मान वाक्यगत अवरोधों का पालन करता है। उदाहरण के लिए, बूलियन फ़ील्ड कुछ अन्य मूल्यों के विपरीत ‘सही’ / ‘गलत’ के रूप में एन्कोडेड हैं। अतिरिक्त सत्यापन में क्रॉस-विशेषता / फ़ील्ड चेक शामिल हो सकते हैं जैसे कि सभी नकारात्मक बैंक लेनदेन में उचित लेनदेन प्रकार (जैसे, ‘वापसी’, ‘बिल भुगतान’ या ‘चेक’) शामिल हैं।

6. प्रकाशन

प्रकाशन से तात्पर्य है डाउनस्ट्रीम परियोजना की जरूरतों के लिए या भविष्य की परियोजना की जरूरतों के लिए अपने डेटा के प्रयासों को कम करने के लिए उत्पादन की योजना बनाना और वितरित करना। अन्य परियोजनाओं के अलावा, यह अक्सर अन्य डेटासेट पर पुन: उपयोग के लिए डेटा की एक सीमा को दोहराने के लिए समझ में आता है। अनुभवी डेटा विश्लेषक सामान्य परिवर्तन तर्क के पुस्तकालय (अक्सर व्यक्तिगत, कभी-कभी साझा) को बनाए रखते हैं कि वे नई परियोजनाओं का लाभ उठा सकें। उदाहरण के लिए, भोजन तैयार करने में, खाना पकाने की वस्तुओं को गति देने या अंतिम व्यंजन के स्वाद या बनावट के विकास में सुधार करने के लिए कार्रवाई की जा सकती है।

{"email":"Email address invalid","url":"Website address invalid","required":"Required field missing"}
>