حقائق مثيرة للاهتمام حول علم البيانات

This post is also available in: English (الإنجليزية)

مع وجود أكثر من 6 مليارات (وأكثر) من الأجهزة المتصلة بالإنترنت في الوقت الحالي ، يتم إنشاء ما يصل إلى 2.5 مليون تيرابايت من البيانات كل يوم. بحلول عام 2020 ، من المتوقع أن يتم توصيل ملايين الأجهزة الأخرى ، مما يتوقع ما يقرب من 30 مليون تيرابايت من البيانات يوميًا.

الإحصاء ، أو التعلم الآلي ، أو علم البيانات ، أو التحليلات – بغض النظر عن تسميته ، فإن هذا التخصص آخذ في الارتفاع في الربع الأخير من القرن بسبب زيادة قدرات جمع البيانات والزيادة الهائلة في القوة الحسابية. يعتمد هذا المجال على مجموعة من المهندسين وعلماء الرياضيات وعلماء الكمبيوتر والإحصائيين ، ويطالب بشكل متزايد بنهج متعدد الأوجه للتنفيذ الناجح. في الواقع ، لا يوجد فرع من فروع الهندسة أو العلوم أو الأعمال بعيدًا عن لمسة التحليلات في أي صناعة. ربما تكون مهتمًا أيضًا بأن تكون عالم بيانات ، أو قد تكون كذلك بالفعل.

ما هو علم البيانات؟

يجمع علم البيانات بين مجالات متعددة ، بما في ذلك الإحصاء ، والأساليب العلمية ، والذكاء الاصطناعي (AI) ، وتحليل البيانات ، لاستخراج القيمة من البيانات. يُطلق على أولئك الذين يمارسون علم البيانات اسم علماء البيانات ، وهم يجمعون بين مجموعة من المهارات لتحليل البيانات التي تم جمعها من الويب والهواتف الذكية والعملاء وأجهزة الاستشعار ومصادر أخرى لاستخلاص رؤى قابلة للتنفيذ.

يشمل علم البيانات إعداد البيانات للتحليل ، بما في ذلك تنقية البيانات وتجميعها ومعالجتها لإجراء تحليل متقدم للبيانات. يمكن لعلماء البيانات والتطبيقات التحليلية بعد ذلك مراجعة النتائج للكشف عن الأنماط وتمكين قادة الأعمال من استخلاص رؤى مستنيرة.

حقائق مثيرة للاهتمام حول علم البيانات

لا يزال هناك العديد من الأشياء التي يعرفها الناس عن علم البيانات ، وقد يكون هناك العديد من الأشياء الأخرى التي قد تفاجئك.

1. البيانات غير نظيفة أبدًا

وجدت دراسة استقصائية جديدة لعلماء البيانات أنهم يقضون معظم وقتهم في التدليك بدلاً من التنقيب أو نمذجة البيانات. يمثل إعداد البيانات حوالي 80٪ من عمل علماء البيانات. يقضي علماء البيانات 60٪ من وقتهم في تنظيف البيانات وتنظيمها. يأتي جمع مجموعات البيانات في المرتبة الثانية بنسبة 19٪ من وقتهم ، مما يعني أن علماء البيانات يقضون حوالي 80٪ من وقتهم في إعداد البيانات وإدارتها من أجل التحليل.

التحليلات بدون بيانات حقيقية هي مجرد مجموعة من الفرضيات والنظريات. تساعد البيانات في اختبارها والعثور على المناسب منها في سياق الاستخدام النهائي في متناول اليد. ومع ذلك ، في العالم الحقيقي البيانات ليست نظيفة أبدا. حتى في المؤسسات التي لديها مراكز علم بيانات راسخة منذ عقود ، فإن البيانات ليست نظيفة. بصرف النظر عن القيم المفقودة أو الخاطئة ، تشير إحدى أكبر المشكلات إلى ضم مجموعات بيانات متعددة في كل متماسك. وهذا ليس مقصودًا. تم تصميم مؤسسات تخزين البيانات ودمجها بإحكام مع برامج الواجهة الأمامية والمستخدم الذي يقوم بإنشاء البيانات ، وغالبًا ما يتم إنشاؤها بشكل مستقل. يدخل عالم البيانات إلى المشهد في وقت متأخر جدًا ، وغالبًا ما يكون مجرد “أخذ” البيانات كما هو وليس جزءًا من التصميم.

Interesting Facts About Data Science

البيانات القذرة هي واحد أو أكثر من النماذج التالية –

  • غير مكتمل
  • ينسخ
  • عرضي
  • غير دقيق
  • خطأ إملائي

2. لا يوجد علم بيانات آلي كامل

نظرًا لأن البيانات ليست نظيفة وتتطلب الكثير من معالجة البيانات ، فلا توجد مجموعة جاهزة من البرامج النصية أو الأزرار للضغط عليها لتطوير نموذج تحليلي. تختلف كل مشكلة عن البيانات. لا يوجد بديل لاستكشاف البيانات واختبار النماذج والتحقق من صحتها وفقًا لخبراء الأعمال والمجال. اعتمادًا على المشكلة وخبرتك السابقة ، قد تتسخ يديك بدرجة أقل ، لكنك ستتسخ. الاستثناء الوحيد هو إذا حصلت على بيانات بتنسيق معين وفعلت الشيء نفسه مرارًا وتكرارًا ، لكن هذا يبدو مملًا بالفعل.

3. البيانات الضخمة هي مجرد أداة

مع زيادة الضجيج حول البيانات الضخمة كل يوم ، لن ألومك لأنك مفتون بالفكرة. ومع ذلك ، فإن الشيء الأساسي الذي يجب تذكره هو أن البيانات الضخمة هي مجرد مجموعة من الأدوات للعمل مع حجم كبير من البيانات في وقت معقول ومع أجهزة كمبيوتر من فئة السلع الأساسية. لا يمكن استبدال البيانات الضخمة بتصميم المشكلة التحليلية ونمذجة أفضل الممارسات وفحص أعين المحللين الأذكياء.

هذا لا يعني أن الكفاءة في تقنيات البيانات الضخمة ليست في متناول اليد – بل هي كذلك لأن العالم يتجه نحو البيانات الضخمة وقد لا تكون هناك بيانات “صغيرة” في غضون عامين بعد الآن. لكن الأدوات ستأتي وتذهب. ستستمر تجربة التعلم الآلي الخاصة بك فقط. البيانات الضخمة مماثلة لبندقية AK47 لرجال الشرطة بدلاً من بندقية كاربين فلينتلوك. بالتأكيد ، الأداة الأفضل أفضل من الأداة الأقل شأناً ، لكن التدريب على حفظ الأمن أهم من البندقية.

Interesting Facts About Data Science

4. علماء البيانات ومحللو البيانات ليسوا متشابهين

هذه خرافة شائعة بين الأشخاص الذين لديهم فكرة سطحية عن علم البيانات. الحقيقة هي أن عمل علماء البيانات ومحللي البيانات مختلف تمامًا. بينما يعمل محللو البيانات على إيجاد الاتجاهات وتحليل البيانات ، يعمل علماء البيانات على إيجاد سبب الاتجاه والتنبؤ بالاتجاهات القادمة. نظرًا لأن علم البيانات هو مجال جديد ، فإن ظهور بعض المفاهيم الخاطئة أمر لا مفر منه.

ومع ذلك ، تجدر الإشارة إلى أن الاثنين يعملان جنبًا إلى جنب. إنهم يكملون بعضهم البعض ويعملون من أجل هدف مشترك. الآن دعونا نتحقق من بعض الاختلافات الأساسية بين الاثنين.

عالم البياناتمحلل بيانات
يكتشف الأسئلة غير المكتشفة التي قد تحتاج إلى إجابة.يستخدم المعلومات الموجودة للحصول على بيانات عملية حول الأسئلة الموجودة
مجموعة المهارات: الخوارزميات ، واستخراج البيانات ، والبرمجة ، وإدارة قواعد البيانات ، وتحليل البيانات ، والتعلم الآلي ، والتحليل التنبئيمجموعة المهارات: التنقيب عن البيانات ، والنمذجة ، والبرمجة ، والتحليل الإحصائي ، وإدارة قواعد البيانات ، وتحليل البيانات
يقدرون البيانات غير المعروفةأنها تعمل مع مجموعة البيانات المعروفة
اختاروا معالجة مشاكل العمل التي سيكون لها أقصى تأثير يعالجون مشكلة العمل الموكلة إليهم
إنهم يعملون على المستوى الكليإنهم يعملون على المستوى الجزئي

5. علم البيانات ليس مجرد أوراق إكسل

خلافًا للاعتقاد المذكور أعلاه ، قد يبدو هذا مفاجئًا ولكن الكثير من الناس يرون أن حياة عالم البيانات تدور حول أوراق إكسل.

هذا شيء غير صحيح. كما ذكرنا سابقًا ، يعد علم البيانات مجالًا واسعًا يركز بشكل أساسي على النتيجة الصحيحة والمقصودة. وللحصول على هذه النتيجة ، يحارب المتخصصون في علوم البيانات بأسنانهم وأظافرهم. يستخدمون تقنيات مختلفة لتحليل البيانات واستعلام SQL والتحليل الإحصائي والتحليل التنبئي وما إلى ذلك.

إنهم يعملون على أوراق إكسل ، لكن هذه مجرد وحدة صغيرة داخل محيط عملهم.

كان هناك وقت لعبت فيه أوراق Excel دورًا رئيسيًا في الوصول إلى استنتاج وإجراء التحليلات باستخدام الصيغ والحسابات. في الوقت الحالي مع سهولة توافر أدوات البرمجة مثل Python و R ، يقضي معظم علماء البيانات جزءًا كبيرًا من وقتهم في الترميز بدلاً من أوراق Excel.

6. المزيد من البيانات لا يعني دائمًا المزيد من الدقة

المزيد من البيانات لا يعني المزيد من الإحصاءات أو المزيد من القيمة المضافة. استخدام البيانات الذكية هو المفتاح.

لنفترض أن لدينا مجموعة بيانات بالعدد الدقيق للحد الأدنى من البيانات اللازمة لإجراء تحليل صحيح. ستكون هذه مجموعة بيانات مثالية. الآن إذا أضفنا المزيد من البيانات ، فسيلزم إعادة بناء مجموعة البيانات بأكملها مع الأخذ في الاعتبار المجموعة الجديدة من البيانات أيضًا. أثناء إعادة البناء ، ستكون هناك حاجة لتنظيف البيانات الجديدة وقضاء بعض الوقت لفهم انحرافها عن المجموعة الحالية ، إن وجدت.

الآن حتى بعد تنظيف البيانات الجديدة ودمجها في مجموعة البيانات المثالية الحالية ، هناك احتمال أن بعض العناصر الجديدة لا تزال متسخة ولكنها غير معروفة. سيؤدي هذا إلى تدهور شامل للنتيجة النهائية أو التحليل.

في هذه الحالة ، كانت البيانات الأقل أفضل بالتأكيد من المزيد من البيانات.

7. مجال علم البيانات له دور مختلف ، وليس فقط علماء البيانات

يربط العديد من الأشخاص علم البيانات بعلماء البيانات فقط ، متجاهلين الأدوار البارزة الأخرى التي تنتمي إلى المجال.

يشمل علم البيانات كل هذه –

  • مهندسو البيانات – مسؤولون عن إدارة البنية التحتية للبيانات طوال دورة حياة علم البيانات. تشمل المهارات الأساسية – أدوات البرمجة مثل Python وأدوات قواعد البيانات مثل NoSQLوأدوات البيانات الضخمة مثل Hadoop.
  • محللو البيانات – يجدون إجابات للأسئلة من خلال العمل من خلال البيانات المتاحة ، باستخدام الأدوات المناسبة. تشمل المهارات الأساسية – البرمجة ، وتصور البيانات ، والإحصاء ، والرياضيات ، وبالطبع تحليل البيانات.
  • عالم البيانات – يعمل علماء البيانات على البيانات الضخمة ، ويحللونها ثم ينقلون النتائج من خلال التقارير والعروض التقديمية. تشمل المهارات الأساسية – الإحصاء ، والرياضيات ، والبرمجة ، وتصور البيانات ، و SQL ، و Hadoop ، والتعلم الآلي.

8. علم البيانات لا يعني فقط للمنظمات الكبيرة

تعتقد العديد من الشركات أن علم البيانات مخصص فقط للمؤسسات الكبيرة التي لديها بنية تحتية عالية المستوى.

ينبثق هذا الاعتقاد من فكرة خاطئة عن علم البيانات. لا يتكون علم البيانات من آلات أو أدوات ثقيلة أو حجم موارد العمل. ربما تتكون من البيانات الضخمة والإحصاءات والتحليل والبرمجة والعرض التقديمي وبعض الأشخاص الأذكياء الذين يعرفون كيفية تحقيق أقصى استفادة من البيانات وإضافة قيمة إلى المنظمة. لا علاقة له بالمنظمات الكبيرة أو الصغيرة.

يحتاج عالم البيانات إلى الوصول إلى نتيجة تفيد الشركة. ولا أحد يهتم حقًا بالأدوات والتقنيات التي تم استخدامها لتحقيق هذه النتيجة.

بالنسبة للبنية التحتية ، كل ما هو مطلوب هو جهاز كمبيوتر ، وشبكة الإنترنت ، وبعض الأدوات التي تساعد خلال دورة حياة علم البيانات. هناك عدد من الأدوات مفتوحة المصدر المتاحة عبر الإنترنت والتي يمكن تنزيلها للحصول على الكرة المتدحرجة.

9. علوم البيانات الشعبية ولغات التعلم الآلي

غالبية 75 ٪ من المشاركين في الاستطلاع يستخدمون Pythonللعمل المتعلق بعلوم البيانات إما دائمًا أو بشكل متكرر. تتوافق هذه الإحصائية مع الشعبية التي اكتسبتها بايثون في السنوات الأخيرة وسيستمر هذا الاتجاه بالتأكيد في مجال علم البيانات في عامي 2020 و 2021.

Interesting Facts About Data Science

من ناحية أخرى ، تجد R نفسها في المرتبة الثانية على هذا السلم بنسبة 27٪ من المستخدمين. R هي لغة برمجة نصية قوية ولكنها بسيطة ويجد علماء البيانات الذين لا ينتمون إلى خلفيات هندسة البرمجيات أنه من السهل اعتماد لغة R لتعلم الآلة وعملهم في علم البيانات.

من المثير للدهشة أن هناك قسمًا من المحترفين يستخدمون لغات مثل C. على الرغم من أن هذه اللغات قوية في حد ذاتها ، إلا أنها ليست اللغة المفضلة لعلوم البيانات أو ML. يبدو أن أيًا من المستجيبين لديه معرفة مسبقة بهذه اللغات ويرغب في استخدام نفس الشيء في علم البيانات وعمل التعلم الآلي ، وإلا ستكون هناك بعض حالات الاستخدام الخاصة باللغة.

أصبح علم البيانات أمرًا لا مفر منه مع انفجار البيانات في كل مجال تقريبًا. إنه يوفر فرصة وظيفية جيدة. يمكن أن يكون التفكير في علم البيانات كخيار مهني قرارًا حكيمًا لأي شخص يستمتع بحل المشكلات ولديه التعاطف مع البيانات.

أضف تعليق