اسئلة المقابلة

أعلى 60 أسئلة وأجوبة مقابلة محلل البيانات

2 يناير 2022

يُعرَّف تحليل البيانات بأنه عملية فحص البيانات وتحويلها وتطهيرها ونمذجةها بهدف اكتشاف المعلومات المفيدة ودعم اتخاذ القرار.

من هو محلل البيانات؟ يعمل محلل البيانات كحارس لبيانات المنظمة أو معلوماتها بحيث يمكن لأصحاب المصلحة فهم البيانات ويمكنهم استخدامها لاتخاذ قرارات عمل إستراتيجية. إنه نوع من الدور التقني الذي يتطلب درجة جامعية أو درجة ماجستير في التحليلات أو نمذجة الكمبيوتر أو الرياضيات أو العلوم.

تُستخدم أدوات تحليل البيانات بشكل أساسي لاستخراج المعلومات المفيدة من بيانات الأعمال ومساعدة محللي البيانات في تسهيل عملية تحليل البيانات.

لقد لاحظنا أكثر أسئلة وأجوبة محللي البيانات شيوعًا في مدونتنا. تأكد من مراجعة أفضل 60 سؤالاً وأجوبة لمحللي البيانات.

جدول المحتويات

أسئلة وأجوبة مقابلة محلل البيانات TOP

1. هل يمكنك إخبارنا ببعض المشكلات التي يواجهها محللو البيانات عادةً أثناء إجراء التحليل؟

فيما يلي بعض التحديات التي يواجهها محللو البيانات:

    كمية البيانات التي يتم جمعها: تتلقى المنظمة أو الشركة معلومات عن كل حادث وتفاعل على أساس يومي ، مما يترك للمحللين آلاف مجموعات البيانات المتشابكة.جمع بيانات ذات مغزى وفي الوقت الحقيقي: مع توفر الكثير من البيانات ، يصعب على المحللين البحث في البيانات بالكامل والوصول إلى الإحصاءات التي هم في أمس الحاجة إليها.التمثيل المرئي للبيانات: تحتاج أنظمة البيانات القوية إلى تمكين إنشاء التقارير عند النقر فوق الزر. سيتمكن الموظفون وصناع القرار من الوصول إلى المعلومات في الوقت الفعلي التي يحتاجون إليها بتنسيق جذاب وتعليمي.بيانات من مصادر متعددة: بعد ذلك ، هناك مشكلة نواجهها وهي محاولة تحليل البيانات عبر مصادر مختلفة ومتعددة ومفككة. هنا ، غالبًا ما توجد أجزاء مختلفة من البيانات في أنظمة مختلفة.بيانات يتعذر الوصول إليها: نقل البيانات إلى نظام مركزي واحد له تأثير إذا لم يكن متاحًا بسهولة للمستخدمين الذين يحتاجون إليها.بيانات ذات جودة رديئة:بدون إدخال جيد ، سيكون الإخراج غير موثوق به. لذلك يجب أن يكون ما يجمعونه دقيقًا.نقص بالدعم: لا يمكن أن تكون تحليلات البيانات فعالة بدون الدعم التنظيمي ، سواء من الموظفين ذوي المستوى الأعلى أو الأدنى.

2. هل يمكنك شرح تجميع وتفصيل البيانات؟

تجميع البيانات يشير إلى المعلومات الرقمية أو غير الرقمية التي يتم جمعها من مصادر متعددة أو على مقاييس أو متغيرات أو أفراد متعددة ويتم تجميعها في ملخصات البيانات أو التقارير الموجزة ، وذلك بشكل أساسي لأغراض إعداد التقارير العامة أو التحليل الإحصائي.

بيانات مفصلة هي البيانات التي تم تقسيمها حسب الفئات الفرعية التفصيلية ، على سبيل المثال ، حسب المجموعة المهمشة أو المنطقة أو الجنس أو مستوى التعليم. يمكن أن تكشف البيانات المصنفة عن أوجه الحرمان وعدم المساواة التي قد لا تنعكس بالكامل في البيانات المجمعة.

3. هل يمكنك شرح الخطوات التي يجب اتخاذها للتعامل مع مصنفات Excel البطيئة؟

فيما يلي الخطوات التي تم اتخاذها للتعامل مع مصنفات Excel البطيئة:

  1. استخدم جداول Excel والنطاقات المسماة.
  2. استخدم وضع الحساب اليدوي كلما أمكن ذلك.
  3. تجنب الوظائف المتطايرة.
  4. تجنب صيغ الصفيف.
  5. تجنب استخدام صف أو عمود كامل في المراجع.
  6. تحويل الصيغ غير المستخدمة إلى قيم.
  7. استفد من تقنيات الصيغة الأسرع.
  8. تأكد من الاحتفاظ بجميع البيانات المرجعية في ورقة واحدة.
أنظر أيضا أفضل 100 سؤال وأجوبة مقابلة

4. هل يمكنك شرح كيفية عمل PROC SQL؟

يُعرَّف PROC SQL بأنه إجراء أساسي SAS7 قوي يجمع بين وظائف PROC وخطوات البيانات في خطوة واحدة. يستخدم PROC SQL لفرز مجموعات البيانات وتلخيصها وتجميعها وضمها وربطها ، وإنشاء متغيرات جديدة ، كما يقوم أيضًا بطباعة النتائج أو إنشاء جدول جديد أو عرض الكل في خطوة واحدة.

5. هل يمكن أن تخبرني كيف أخلق القصص في تابلوه؟

نستخدم القصص لجعل قضيتنا أكثر إقناعًا من خلال إظهار كيفية ارتباط الحقائق وكيفية ارتباط القرارات بالنتائج. يمكننا بعد ذلك نشر القصة على الويب ، أو يمكننا تقديمها للجمهور.

هنا ، يمكن أن ترتبط كل نقطة قصة بطريقة عرض أو لوحة معلومات مختلفة ، أو يمكن أن ترتبط القصة بأكملها بنفس التصور المرئي الذي يتم رؤيته في مراحل مختلفة ، مع تعليقات توضيحية ومرشحات مختلفة.

لإنشاء قصة ، اتبع الخطوات المذكورة أدناه:

  1. انقر فوق علامة التبويب قصة جديدة. ثم، جدول يفتح لك قصة جديدة كنقطة انطلاق.
  2. في الزاوية اليسرى السفلية من الشاشة ، عليك اختيار حجم لقصتك. ثم اختر أحد الأحجام المحددة مسبقًا أو من مجموعة الحجم المخصص بالبكسل.
  3. تحصل قصتك على اسم عنوانها من اسم الورقة الافتراضي. لتحرير الاسم ، عليك النقر بزر الماوس الأيمن فوق علامة تبويب الورقة ثم اختيار إعادة تسمية الورقة.
  4. لبدء بناء قصتك ، عليك النقر نقرًا مزدوجًا فوق ورقة على الجانب الأيسر لإضافتها إلى موضوع قصتك.
  5. الآن ، تحتاج إلى النقر فوق إضافة تعليق لتلخيص نقطة القصة.
  6. لإبراز الفكرة الأساسية لنقطة القصة هذه ، يمكنك تغيير عامل التصفية أو الفرز في الحقل في طريقة العرض. بعد ذلك ، يمكنك حفظ تغييراتك بالنقر فوق 'تحديث' على شريط أدوات القصة الموجود أعلى مربع الملاح.

تحقق من أسئلة وأجوبة مقابلة Tableau لمزيد من المعلومات عن تابلوه.

أسئلة وأجوبة مقابلة محلل البيانات

6. اسم الأنواع المختلفة لاختبار الفرضيات؟

بعض أنواع اختبار الفرضيات مذكورة أدناه:

    اختبار الوضع الطبيعي:يستخدم هذا الاختبار للتوزيع الطبيعي في عينة سكانية.اختبار Chi-Square من أجل الاستقلال:يتم استخدامه لربط الأهمية بين المتغيرين الفئتين في عينة سكانية معينة.اختبار T:يتم استخدامه في السكان الموزعين بشكل طبيعي حيث يكون الانحراف المعياري غير معروف ، وحجم العينة أصغر نسبيًا.اختبار T ويلش:يتم استخدامه لاختبار المساواة في الوسائل بين عينتي السكان. ويسمى أيضًا اختبار التباين غير المتكافئ لـ Welch.

7. ماذا تقصد بـ Print Area ، وكيف يمكنك ضبطها في Excel؟

منطقة الطباعة في Excel هي نطاق الخلايا التي تريد طباعتها كلما قمت بطباعة ورقة العمل المحددة.

لتعيين منطقة الطباعة في Excel ، اتبع الخطوات الموضحة أدناه:

  1. يجب عليك تحديد الخلايا التي تريد تعيين منطقة الطباعة لها.
  2. بعد ذلك ، تحتاج إلى النقر فوق علامة التبويب تخطيط الصفحة.
  3. بعد ذلك ، انقر فوق منطقة الطباعة.
  4. انقر فوق تعيين منطقة الطباعة.

8. هل يمكن أن تخبرنا ما هي المعايير التي يجب أن نقولها ما إذا كان نموذج البيانات المطور جيدًا أم لا؟

فيما يلي المعايير التي يجب ذكرها عن النموذج ، سواء كان جيدًا أو سيئًا (ملاحظة: قد تختلف الإجابة على هذا السؤال من شخص لآخر).

  1. يجب أن يتم استهلاك البيانات الموجودة في النموذج الجيد بسهولة.
  2. يجب أن تكون البيانات قابلة للتطوير للحصول على نموذج بيانات جيد.
  3. يجب أن يوفر نموذج البيانات الجيد أداءً يمكن التنبؤ به.
  4. يجب أن تتكيف بسهولة مع التغييرات في المتطلبات.

9. هل يمكنك إخبارنا بكيفية تحديد جميع الخلايا الفارغة في Excel؟

تحتاج إلى اتباع الخطوات المحددة لتحديد خلايا فارغة في Excel:

  1. أولاً ، يجب عليك تحديد مجموعة البيانات بالكامل ثم الضغط على F5. سيؤدي ذلك إلى فتح مربع حوار الانتقال إلى.
  2. الآن ، انقر فوق الزر الخاص ، والذي سيفتح مربع حوار Go-To الخاص.
  3. هناك ، تحتاج إلى تحديد الفراغات والنقر فوق موافق.

10. ما هي أنواع الصلات المختلفة؟

الأنواع المختلفة من الصلات مذكورة أدناه:

    صلة داخلية: تُرجع هذه الصلة السجلات التي لها قيم متطابقة في كلا الجدولين.ترك صلة خارجية: تقوم هذه الصلة بإرجاع جميع السجلات من الجدول الأيسر ، والسجلات المتطابقة من الجدول الأيمنحق الانضمام الخارجي: تقوم هذه الصلة بإرجاع جميع السجلات من الجدول الأيمن ، والسجلات المتطابقة من الجدول الأيسرانضمام خارجي كامل: تقوم هذه الصلة بإرجاع كافة السجلات عند وجود تطابق في الجدول الأيمن أو الأيسر.
أسئلة مقابلة محلل البيانات - انضمام SQL

أسئلة وأجوبة مقابلة محلل البيانات

11. هل يمكنك شرح وظيفة ANYDIGIT في SAS؟

وظيفة ANYDIGIT بتنسيق ساس يستخدم للبحث في سلسلة عن التواجد الأول لأي حرف ، وهو رقم. إذا تم العثور على أي حرف من هذا القبيل ، فسيعيد ANYDIGIT الموضع في سلسلة ذلك الحرف المحدد. إذا لم يتم العثور على مثل هذا النوع من الأحرف ، فسيقوم ANYDIGIT بإرجاع القيمة 0.

12. اشرح الجدول المحوري ، وما هي الأقسام المختلفة للجدول المحوري؟

يعد Pivot Table إحدى ميزات Microsoft Excel التي تتيح لنا تلخيص مجموعات البيانات الضخمة بسرعة. إنه سهل الاستخدام لأنه يتطلب سحب وإسقاط الصفوف أو رؤوس الأعمدة لإنشاء التقارير.

لدينا أربعة أقسام في الجدول المحوري ، وهي

  1. منطقة الصف
  2. منطقة العمود
  3. منطقة التصفية
  4. منطقة القيم

13. اشرح مصطلح التطبيع وأنواع التطبيع المختلفة؟

تطبيع يمكن تعريفها على أنها تقنية تصميم قاعدة بيانات تهدف إلى تقليل تكرار البيانات والقضاء على أي خصائص غير مرغوب فيها مثل الإدراج والتحديث والحذف الشذوذ. تقوم قواعد التسوية بتقسيم الجدول الأكبر إلى جداول أصغر وربطها باستخدام العلاقات.

أنواع التطبيع مذكورة أدناه:

    1NF (أول نموذج عادي): هنا ، يجب أن تحتوي كل خلية في الجدول على قيمة واحدة ، ويجب أن يكون كل سجل فريدًا.2NF (النموذج العادي الثاني): يجب أن يكون بتنسيق 1NF ، ويجب أن يحتوي على مفتاح أساسي أحادي العمود.3NF (النموذج العادي الثالث):ليس لديها تبعيات وظيفية متعدية.BCNF (نموذج Boyce-Codd العادي):يكون الجدول في BCNF إذا كان 3NF ، ولكل X -> Y ، يجب أن تكون العلاقة X دائمًا المفتاح الفائق للجدول.4NF (النموذج العادي الرابع): إذا لم يكن هناك مثيل لجدول قاعدة البيانات يتكون من اثنتين أو أكثر من البيانات المستقلة ومتعددة القيم التي تحدد الكيان ذي الصلة ، فإننا نقول إنه موجود في النموذج العادي الرابع.5NF (النموذج العادي الخامس):يكون الجدول في النموذج العادي الخامس فقط إذا كان بتنسيق 4NF ، ولا يمكن تقسيمه إلى أي عدد من الجداول الأصغر دون فقد البيانات.6NF (النموذج العادي السادس): لا يزال قيد المناقشة من قبل خبراء قواعد البيانات.
أنظر أيضا أفضل 100 سؤال وأجوبة لجافا سكريبت

14. ما هي الفرضية البديلة؟ يشرح؟

يتم ذكر فرضية بديلة على أنها فرق بين متغيرين أو أكثر يتوقعهما الباحثون ؛ أي أن النمط الملحوظ للبيانات لا يرجع إلى حدوث الصدفة.

15. ما هي فرضية لاغية؟

تُعرَّف الفرضية الصفرية بأنها نوع من التخمين يُستخدم في الإحصائيات التي تقترح عدم وجود فرق بين الخصائص المحددة لمجتمع ما أو عملية توليد البيانات.

أسئلة وأجوبة مقابلة محلل البيانات

16. ما هو تصادم جدول التجزئة؟

يُعرف الموقف الذي يتم فيه تجزئة الناتج لعنصري بيانات أو أكثر في مجموعة البيانات U خرائط إلى موقع مشابه في جدول التجزئة باسم تضارب التجزئة. هذا يعني أنه لن يسمح بتخزين بيانات مختلفة في نفس الفتحة.

17. هل يمكنك شرح الاختلافات الرئيسية بين تحليل البيانات والتنقيب في البيانات؟

تحليل البيانات بيانات التعدين
يعطي الرؤى أو الاختبارات الفرضية أو النموذج من مجموعة البيانات.يحدد ويكتشف نمطًا مخفيًا في مجموعات البيانات الضخمة.
يتم إجراؤه على كل من البيانات المهيكلة أو شبه المنظمة أو غير المنظمةانها تعتمد الدراسات في الغالب على بيانات منظمة.
الأساس هو تحسين الفرضيات أو اتخاذ قرارات العمل.يهدف التنقيب في البيانات إلى جعل البيانات أكثر قابلية للاستخدام.
يستفيد تحليل البيانات من ذكاء الأعمال ونماذج التحليلات.يعتمد التنقيب عن البيانات بشكل أساسي على الأساليب الرياضية والعلمية لتحديد الأنماط أو الاتجاهات.

18. هل يمكنك شرح تنظيف البيانات باختصار؟

يُعرّف تنظيف البيانات بأنه عملية إعداد البيانات للتحليل عن طريق إزالة أو تعديل البيانات غير الصحيحة أو المكررة أو غير الكاملة أو غير الملائمة أو المنسقة بشكل غير صحيح.

يتم سرد بعض الطرق للقيام بتنظيف البيانات أدناه:

  1. إزالة الملاحظات المكررة أو غير ذات الصلة
  2. إصلاح الأخطاء الهيكلية
  3. تصفية القيم المتطرفة غير المرغوب فيها
  4. التعامل مع البيانات المفقودة
  5. تحقق من صحة و QA

19. ما هو التنميط البيانات؟

تصنيف البيانات هو آلية فحص البيانات المتوفرة من مصدر معلومات موجود مثل قاعدة البيانات أو الملف وجمع الإحصائيات أو الملخصات الإعلامية حول تلك البيانات المحددة.

عشرين. ما هو التحقق من صحة البيانات؟

التحقق من صحة البيانات هو عملية للتحقق من دقة وجودة بياناتنا ، ويتم إجراؤها بشكل أساسي قبل الاستيراد والمعالجة. يعتبر أيضًا شكلاً من أشكال تطهير البيانات. إنه يضمن لنا أنه عند إجراء تحليل ، ستكون نتائجك دقيقة.

أسئلة وأجوبة مقابلة محلل البيانات

21. هل يمكنك تسمية بعض من أفضل الأدوات المستخدمة لإجراء تحليل البيانات؟

بعض أفضل الأدوات المستخدمة لإجراء تحليل البيانات مذكورة أدناه:

  1. بايثون
  2. ص
  3. ساس
  4. اكسل
  5. باور بي
  6. جدول
  7. اباتشي سبارك

22. هل يمكنك تسمية الخطوات المتبعة عند العمل مع مشروع تحليل البيانات؟

يتم سرد بعض الخطوات المهمة أدناه:

  1. عرض المشكلة
  2. تنظيف البيانات / المعالجة المسبقة
  3. استكشاف البيانات
  4. النمذجة
  5. تأكيد صحة البيانات
  6. التنفيذ
  7. تحقق

23. هل يمكنك تسمية بعض الأدوات الشائعة المستخدمة في البيانات الضخمة؟

هناك العديد من الأدوات المتاحة للبيانات الضخمة. لقد قمنا بإدراج عدد قليل:

  1. HPCC
  2. كوبولي
  3. ستاتوينج
  4. بنتاهو
  5. هادوب

24. ما هو تحليل السلاسل الزمنية ، وأين نستخدمه؟

يُعرَّف تحليل السلاسل الزمنية على أنه أسلوب إحصائي يتعامل بشكل أساسي مع بيانات السلاسل الزمنية أو تحليل الاتجاه. بعبارات بسيطة ، فإن بيانات السلاسل الزمنية هي البيانات الموجودة في سلسلة من الفترات الزمنية أو الفواصل الزمنية المحددة.

يستخدم تحليل السلاسل الزمنية في:

  1. اقتصادي
  2. التوقع
  3. التنبؤ بالمبيعات.
  4. تحليل الميزانية.

25. هل يمكنك تسمية بعض خصائص خوارزميات التجميع؟

خصائص الخوارزميات العنقودية هي كما يلي:

  1. ترابطي
  2. طباقي
  3. قاسي ولين
  4. مسطحة أو هرمية

أسئلة وأجوبة مقابلة محلل البيانات

26. هل يمكنك إخبارنا ما هي القيم المتطرفة وكيف يتم اكتشافها؟

يتم تعريف الانحراف في تحليل البيانات على أنه الملاحظة التي تقع على مسافة غير منتظمة من القيم المختلفة الأخرى في عينة عشوائية من مجتمع معين.

عند فحص بيانات الملاحظات غير العادية التي تمت إزالتها من كتلة البيانات ، تُعرف هذه النقاط غالبًا بالقيم المتطرفة.

بعض المنهجيات المستخدمة لاكتشاف القيم المتطرفة هي كما يلي:

  1. طريقة الانحراف المعياري
  2. طريقة رسم الصندوق

27. هل يمكنك شرح مساوئ تحليلات البيانات؟

فيما يلي عيوب تحليلات البيانات:

  1. يمكن إساءة استخدام المعلومات التي يتم الحصول عليها باستخدام تحليلات البيانات.
  2. من أصعب المهام في تحليلات البيانات تحديد أداة التحليلات الصحيحة.
  3. يعتمد سعر الأدوات عادةً على الميزات والتطبيقات التي تدعمها. القليل من الأدوات معقدة وتتطلب التدريب المناسب.

28. شرح التصفية التعاونية؟

تتمتع التصفية التعاونية بالقدرة على إنشاء توصيات أكثر تخصيصًا من خلال تحليل المعلومات من النشاط السابق لمستخدم معين أو سجل المستخدمين الآخرين الذين لديهم ذوق مشابه لمستخدم معين.

29. هل يمكنك اذكر بعض المنهجيات الإحصائية التي يستخدمها محللو البيانات؟

فيما يلي بعض المنهجيات الإحصائية التي يستخدمها محللو البيانات:

  1. التحليل العنقودي
  2. التخصيص الفني
  3. إحصاء الترتيب
  4. منهجيات بايزي
  5. عملية ماركوف

30. شرح خوارزمية K- يعني؟

يتم تعريف K-Means Clustering على أنها خوارزمية تعلم غير خاضعة للإشراف تقوم بتجميع مجموعة البيانات غير المسماة في مجموعات مختلفة. يمكن تعريفها على أنها خوارزمية تكرارية تقسم مجموعة البيانات غير المسماة إلى مجموعات مختلفة بحيث تنتمي كل مجموعة بيانات إلى مجموعة واحدة فقط لها نفس الخصائص.

أسئلة وأجوبة مقابلة محلل البيانات

31. شرح طريقة الاقتراض KNN؟

بمساعدة طريقة KNN ، يمكن احتساب (تعيين) قيمة مفقودة قاطعة مع الغالبية بين أقرب جيرانها k. تعتبر القيمة المتوسطة لأقرب جيران k بمثابة توقع للقيمة الرقمية المفقودة ، والمعروفة باسم غالبية القاعدة المتوسطة.

32. ما هو N-gram؟

يتم تعريف n-gram على أنه تسلسل متصل لعدد n من العناصر في النص أو الكلام المحدد. N-gram هو نموذج لغوي احتمالي يستخدم للتنبؤ بالعنصر التالي في تسلسل معين ، كما في (n-1).

33. هل يمكنك تسمية بعض منهجيات التحقق من صحة البيانات المستخدمة في تحليل البيانات؟

فيما يلي بعض منهجيات التحقق من صحة البيانات المستخدمة في تحليل البيانات:

  1. التحقق من مستوى النموذج
  2. التحقق على المستوى الميداني
  3. التحقق من صحة معايير البحث
  4. التحقق من صحة حفظ البيانات

3. 4. اشرح التوزيع الطبيعي؟

التوزيع الطبيعي ، الذي يُطلق عليه أيضًا التوزيع الغاوسي ، هو توزيع احتمالي متماثل حول المتوسط ​​، يُظهر أن البيانات القريبة من الوسط تكون أكثر تكرارًا من البيانات البعيدة عن المتوسط. يظهر التوزيع الطبيعي ، عند تمثيله في رسم بياني ، كمنحنى جرس.

أنظر أيضا أفضل 100 سؤال وأجوبة مقابلة

35. هل يمكن ان توضح مزايا التحكم في الإصدار؟

يتيح لنا التحكم في الإصدار تحديد الاختلافات ومقارنة الملفات ودمج التغييرات قبل تنفيذ أي تعليمات برمجية.

بعض مزايا التحكم في الإصدار مذكورة أدناه:

  1. يساعدنا ذلك على تتبع عمليات إنشاء التطبيقات من خلال أن نكون قادرين على تحديد الإصدار قيد الاستخدام في التطوير وضمان الجودة والإنتاج.
  2. يساعدنا ذلك في الاحتفاظ بسجل كامل لملفات المشروع بحيث يكون مفيدًا عندما يكون هناك تعطل خادم مركزي.
  3. يسمح لنا برؤية التغييرات التي تم إجراؤها في محتوى الملفات المختلفة.
  4. إنه ممتاز عندما يتعلق الأمر بتخزين وصيانة إصدارات ومتغيرات متعددة من ملفات التعليمات البرمجية بأمان.

36. هل يمكنك التفريق بين التباين والتغاير؟

فرق التغاير
يتم تعريفه على أنه انتشار مجموعة بيانات حول متوسط ​​قيمتها.إنه مقياس العلاقة الاتجاهية بين المتغيرين العشوائيين.
يتم استخدامه لقياس تقلب الأصول.وهي تحدد عائد استثمارين مختلفين خلال الفترة الزمنية عند مقارنتها بمتغيرات مختلفة.

37. هل يمكن أن تخبرنا كيف لمعالجة المشاكل متعددة المصادر؟

  1. أنت بحاجة إلى معرفة البيانات التي يجب دمجها
  2. الاستفادة من تصور البيانات
  3. أنتقل إلى أدوات مزج البيانات.
  4. إنشاء خدمات قاعدة بيانات افتراضية عن طريق التجريد

38. هل يمكنك التمييز بين تنميط البيانات والتنقيب في البيانات؟

تنميط البيانات بيانات التعدين
يتم ذلك في مراحل مختلفة من مراحل تطوير مستودع البيانات.إنها عملية تحديد الأنماط في قاعدة البيانات المبنية مسبقًا.
الغرض الرئيسي من تحديد ملفات تعريف البيانات هو تحديد البيانات الفاسدة في المرحلة الأولية من البيانات حتى نتمكن من تصحيحها في الوقت المناسب.إنها آلية تقييم قاعدة البيانات الموجودة وتحويل البيانات الأولية إلى معلومات مفيدة.

39. هل يمكنك إخبارنا ببعض المسؤوليات المهمة لمحلل البيانات؟

  1. يجب أن يقوموا بجمع وتفسير البيانات.
  2. على المرء أن يحلل النتائج.
  3. يجب عليهم إبلاغ النتائج إلى الأعضاء المعنيين في العمل.
  4. عليهم تحديد الأنماط والاتجاهات في مجموعات البيانات.
  5. عليهم تحديد عمليات جمع وتحليل بيانات جديدة.

40. هل يمكن ان توضح مخطط التقارب؟

مخطط التقارب ينظم عددًا كبيرًا من الأفكار في علاقاتهم الطبيعية. إنه ناتج منظم من جلسة العصف الذهني. نستخدمه بشكل أساسي لإنشاء المعلومات المتعلقة بمنتج أو مشكلة معقدة أو دمجها أو تنظيمها.

أسئلة وأجوبة مقابلة محلل البيانات

41. هل يمكن أن تخبرنا عن تصور البيانات؟

يُعرّف تصور البيانات بأنه عملية وضع البيانات في شكل مخطط أو رسم بياني أو تنسيقات مرئية أخرى تساعد في تحليل المعلومات وتفسيرها. تساعد مرئيات البيانات على تقديم البيانات التي تم تحليلها بطريقة يمكن الوصول إليها وإشراك مختلف أصحاب المصلحة.

42. ما هي خطة جمع البيانات؟

تضمن لنا خطة جمع البيانات أن البيانات التي يتم جمعها أثناء مشروع التحليل أو التحسين مفيدة ويتم جمعها بشكل مناسب.

43. هل يمكن ان توضح نظام Hadoop البيئي؟

Hadoop Ecosystem هو عبارة عن منصة تقدم خدمات متنوعة لحل مشاكل البيانات الضخمة. وهي تشمل مشاريع أباتشي وأدوات وحلول تجارية مختلفة.

لدينا أربعة عناصر رئيسية لبرنامج Hadoop ، وهي

  1. HDFS
  2. مابريديوس
  3. غزل
  4. Hadoop المشتركة

44. شرح مصطلح التخاطب؟

الاقتطاع هو تقنية استبدال البيانات المفقودة بقيم مستبدلة. أثناء تحليل البيانات ، قد تتسبب البيانات المفقودة في حدوث مشكلة.

طرق التضمين الشائعة هي:

  1. بتر واحد
  2. يعني البتر
  3. التضمين البارد
  4. التضمين الانحدار
  5. احتساب الانحدار العشوائي
  6. الاستبدال
  7. التضمين البارد

45. هل يمكن أن تخبرنا أسلوب بناء الجملة الأساسي لكتابة التعليمات البرمجية في SAS؟

  1. استفد من المساحة المناسبة لفصل المكونات في بيان برنامج SAS.
  2. تأكد من إنهاء جميع العبارات بفاصلة منقوطة.
  3. اكتب عبارة DATA لتسمية مجموعة البيانات.
  4. اكتب عبارة INPUT لتسمية المتغيرات في مجموعة البيانات المحددة.
  5. قم بإنهاء برنامج SAS ببيان RUN.

46. ما هو التشذير في SAS؟

يتم تعريف Interleaving في SAS على أنه دمج مجموعات بيانات SAS الفردية التي تم فرزها في مجموعة بيانات واحدة كبيرة مرتبة. يمكن معشق مجموعات البيانات باستخدام عبارة SET وبيان BY.

47. اشرح مصطلح المجموعات؟

تجمع

التجميع هو آلية تقسيم السكان أو نقاط البيانات إلى عدد من المجموعات بحيث تكون نقاط البيانات في نفس المجموعات مشابهة نوعًا ما لنقاط البيانات الأخرى في نفس المجموعة.

48. ما هو شرط استخدام اختبار T أو اختبار Z؟

يتم استخدام اختبار T عندما يكون لدينا حجم عينة أقل من 30 ، ويتم استخدام اختبار Z عندما يكون لدينا اختبار عينة أكبر من 30.

49. ما هو جدول الحقيقة؟

جدول الحقيقة هو مجموعة من الحقائق التي تحدد حقيقة أو زيف الاقتراح.

لدينا ثلاثة أنواع وهي

  1. تصوير جدول الحقيقة
  2. جدول حقائق لا يصدق
  3. جدول الحقيقة التراكمي

خمسون. ما هو الانحراف المعياري؟

يستخدم الانحراف المعياري لقياس أي درجة من التباين في مجموعة البيانات. يقيس متوسط ​​انتشار البيانات حول المتوسط ​​بدقة.

أسئلة وأجوبة مقابلة محلل البيانات

51. ما هي الاصطدامات في جداول التجزئة؟

يقال إن التصادم يحدث عندما تقوم دالة تجزئة بتعيين مفتاحين مختلفين لنفس عنوان الجدول. إنه مخطط إعادة تجزئة بسيط حيث يتم فحص الفتحة التالية في الجدول عند حدوث تصادم.

52. لماذا 'ساذجة بايز' ساذجة؟

إنه ساذج لأنه يفترض أن جميع مجموعات البيانات متساوية في الأهمية ومستقلة ، وهذا ليس هو الحال في سيناريو العالم الحقيقي.

53. اشرح مصطلح 'مشاحنات البيانات'؟

يمكن تعريف الخلاف على البيانات بأنه عملية تنظيف وتوحيد مجموعات البيانات الفوضوية والمعقدة لسهولة الوصول إليها وتحليلها.

54. اشرح مصطلح مزج البيانات؟

مزج البيانات هو تقنية دمج البيانات من مصادر مختلفة في مجموعة بيانات عاملة.

55. اشرح مصطلح ربط البيانات؟

يتم تنفيذ ربط البيانات عندما تأتي البيانات من نفس المصدر.

56. شرح التحليلات الوصفية؟

يتم تعريف التحليلات الوصفية على أنها تفسير البيانات التاريخية لفهم التغييرات التي حدثت في العمل بشكل أفضل. يصف استخدام مجموعة من البيانات التاريخية لإجراء مقارنات.

يمنحك فكرة عن توزيع البيانات. يساعدك على اكتشاف القيم المتطرفة والأخطاء المطبعية ويمكّنك من تحديد الارتباطات بين المتغيرات ، وبالتالي يجعلك جاهزًا لإجراء المزيد من التحليلات الإحصائية.

57. شرح التحليلات التنبؤية؟

يتم تعريف التحليلات التنبؤية على أنها استخدام البيانات والخوارزميات الإحصائية وتقنيات التعلم الآلي لتحديد احتمالية النتائج المستقبلية التي تستند إلى البيانات التاريخية.

58. شرح التحليلات الوصفية؟

التحليلات الوصفية تستفيد من التعلم الالي لمساعدة الشركات على تحديد مسار العمل بناءً على توقعات برنامج الكمبيوتر. هو - هي يعمل مع التحليلات التنبؤية ، والتي تستخدم البيانات لتحديد النتائج على المدى القريب.

59. اسم الأنواع المختلفة لتقنيات أخذ العينات؟

يتم سرد الأنواع المختلفة لتقنيات أخذ العينات أدناه.

  1. عينة عشوائية بسيطة
  2. أخذ العينات بشكل منهجي
  3. أخذ العينات العنقودية
  4. اخذ العينات الطبقية
  5. أخذ العينات الحكمية أو هادفة

60. شرح المصطلح تجهيز؟

يشير Overfitting إلى النموذج الذي يمثل بيانات التدريب جيدًا. هذا يعني أنه يتم التقاط الضوضاء أو التقلبات العشوائية في بيانات التدريب ، ويتم تعلمها كمفاهيم بواسطة النموذج. المشكلة هنا هي أن هذه المفاهيم لا تنطبق على البيانات الجديدة ، ولها تأثير سلبي على قدرة النموذج على التعميم.

نتمنى لك التوفيق في مقابلة محلل البيانات الخاصة بك. نأمل أن تكون أسئلة وأجوبة مقابلة تحليل البيانات مفيدة لك. يمكنك أيضا التحقق محلل الأعمال أسئلة وأجوبة المقابلة ، والتي قد تكون مفيدة لك.