يُعرَّف تحليل البيانات بأنه عملية فحص البيانات وتحويلها وتطهيرها ونمذجةها بهدف اكتشاف المعلومات المفيدة ودعم اتخاذ القرار.
من هو محلل البيانات؟ يعمل محلل البيانات كحارس لبيانات المنظمة أو معلوماتها بحيث يمكن لأصحاب المصلحة فهم البيانات ويمكنهم استخدامها لاتخاذ قرارات عمل إستراتيجية. إنه نوع من الدور التقني الذي يتطلب درجة جامعية أو درجة ماجستير في التحليلات أو نمذجة الكمبيوتر أو الرياضيات أو العلوم.
تُستخدم أدوات تحليل البيانات بشكل أساسي لاستخراج المعلومات المفيدة من بيانات الأعمال ومساعدة محللي البيانات في تسهيل عملية تحليل البيانات.
لقد لاحظنا أكثر أسئلة وأجوبة محللي البيانات شيوعًا في مدونتنا. تأكد من مراجعة أفضل 60 سؤالاً وأجوبة لمحللي البيانات.
جدول المحتويات
- أسئلة وأجوبة مقابلة محلل البيانات TOP
- 1. هل يمكنك إخبارنا ببعض المشكلات التي يواجهها محللو البيانات عادةً أثناء إجراء التحليل؟
- 2. هل يمكنك شرح تجميع وتفصيل البيانات؟
- 3. هل يمكنك شرح الخطوات التي يجب اتخاذها للتعامل مع مصنفات Excel البطيئة؟
- 4. هل يمكنك شرح كيفية عمل PROC SQL؟
- 5. هل يمكن أن تخبرني كيف أخلق القصص في تابلوه؟
- أسئلة وأجوبة مقابلة محلل البيانات
- 6. اسم الأنواع المختلفة لاختبار الفرضيات؟
- 7. ماذا تقصد بـ Print Area ، وكيف يمكنك ضبطها في Excel؟
- 8. هل يمكن أن تخبرنا ما هي المعايير التي يجب أن نقولها ما إذا كان نموذج البيانات المطور جيدًا أم لا؟
- 9. هل يمكنك إخبارنا بكيفية تحديد جميع الخلايا الفارغة في Excel؟
- 10. ما هي أنواع الصلات المختلفة؟
- أسئلة وأجوبة مقابلة محلل البيانات
- 11. هل يمكنك شرح وظيفة ANYDIGIT في SAS؟
- 12. اشرح الجدول المحوري ، وما هي الأقسام المختلفة للجدول المحوري؟
- 13. اشرح مصطلح التطبيع وأنواع التطبيع المختلفة؟
- 14. ما هي الفرضية البديلة؟ يشرح؟
- 15. ما هي فرضية لاغية؟
- أسئلة وأجوبة مقابلة محلل البيانات
- 16. ما هو تصادم جدول التجزئة؟
- 17. هل يمكنك شرح الاختلافات الرئيسية بين تحليل البيانات والتنقيب في البيانات؟
- 18. هل يمكنك شرح تنظيف البيانات بإيجاز؟
- 19. ما هو تنميط البيانات؟
- 20. ما هو التحقق من صحة البيانات؟
- أسئلة وأجوبة مقابلة محلل البيانات
- 21. هل يمكنك تسمية بعض أفضل الأدوات المستخدمة لإجراء تحليل البيانات؟
- 22. هل يمكنك تسمية الخطوات المتبعة عند العمل مع مشروع تحليل البيانات؟
- 23. هل يمكنك تسمية بعض الأدوات الشائعة المستخدمة في البيانات الضخمة؟
- 24. ما هو تحليل السلاسل الزمنية ، وأين نستخدمه؟
- 25. هل يمكنك تسمية بعض خصائص خوارزميات التجميع؟
- أسئلة وأجوبة مقابلة محلل البيانات
- 26. هل يمكن أن تخبرنا ما هي القيم المتطرفة وكيف يتم اكتشافها؟
- 27. هل يمكنك شرح مساوئ تحليلات البيانات؟
- 28. شرح التصفية التعاونية؟
- 29. هل يمكنك ذكر بعض المنهجيات الإحصائية التي يستخدمها محللو البيانات؟
- 30. شرح خوارزمية K- يعني؟
- أسئلة وأجوبة مقابلة محلل البيانات
- 31. شرح طريقة الاقتراض KNN؟
- 32. ما هو N-gram؟
- 33. هل يمكنك تسمية بعض منهجيات التحقق من صحة البيانات المستخدمة في تحليل البيانات؟
- 34. شرح التوزيع الطبيعي؟
- 35. هل يمكنك شرح مزايا التحكم في الإصدار؟
- 36. هل يمكنك التفريق بين التباين والتغاير؟
- 37. هل يمكن أن تخبرنا عن كيفية معالجة المشاكل متعددة المصادر؟
- 38. هل يمكنك التمييز بين تنميط البيانات والتنقيب في البيانات؟
- 39. هل يمكنك إخبارنا ببعض المسؤوليات المهمة لمحلل البيانات؟
- 40. هل يمكنك شرح مخطط التقارب؟
- أسئلة وأجوبة مقابلة محلل البيانات
- 41. هل يمكن أن تخبرنا عن تصور البيانات؟
- 42. ما هي خطة جمع البيانات؟
- 43. هل يمكنك شرح نظام Hadoop البيئي؟
- 44. شرح مصطلح التخاطب؟
- 45. هل يمكن أن تخبرنا عن أسلوب بناء الجملة الأساسي لكتابة التعليمات البرمجية في SAS؟
- 46. ما هو التشذير في SAS؟
- 47. اشرح مصطلح المجموعات؟
- 48. ما هو شرط استخدام اختبار T أو اختبار Z؟
- 49. ما هو جدول الحقيقة؟
- 50. ما هو الانحراف المعياري؟
- أسئلة وأجوبة مقابلة محلل البيانات
- 51. ما هي التصادمات في جداول التجزئة؟
- 52. لماذا 'ساذجة بايز' ساذجة؟
- 53. اشرح مصطلح 'مشاحنات البيانات'؟
- 54. اشرح مصطلح مزج البيانات؟
- 55. اشرح مصطلح ربط البيانات؟
- 56. شرح التحليلات الوصفية؟
- 57. شرح التحليلات التنبؤية؟
- 58. شرح التحليلات الوصفية؟
- 59. اسم الأنواع المختلفة لتقنيات أخذ العينات؟
- 60. شرح المصطلح Overfitting؟
- مقالات مقترحة
أسئلة وأجوبة مقابلة محلل البيانات TOP
1. هل يمكنك إخبارنا ببعض المشكلات التي يواجهها محللو البيانات عادةً أثناء إجراء التحليل؟
فيما يلي بعض التحديات التي يواجهها محللو البيانات:
- استخدم جداول Excel والنطاقات المسماة.
- استخدم وضع الحساب اليدوي كلما أمكن ذلك.
- تجنب الوظائف المتطايرة.
- تجنب صيغ الصفيف.
- تجنب استخدام صف أو عمود كامل في المراجع.
- تحويل الصيغ غير المستخدمة إلى قيم.
- استفد من تقنيات الصيغة الأسرع.
- تأكد من الاحتفاظ بجميع البيانات المرجعية في ورقة واحدة.
- انقر فوق علامة التبويب قصة جديدة. ثم، جدول يفتح لك قصة جديدة كنقطة انطلاق.
- في الزاوية اليسرى السفلية من الشاشة ، عليك اختيار حجم لقصتك. ثم اختر أحد الأحجام المحددة مسبقًا أو من مجموعة الحجم المخصص بالبكسل.
- تحصل قصتك على اسم عنوانها من اسم الورقة الافتراضي. لتحرير الاسم ، عليك النقر بزر الماوس الأيمن فوق علامة تبويب الورقة ثم اختيار إعادة تسمية الورقة.
- لبدء بناء قصتك ، عليك النقر نقرًا مزدوجًا فوق ورقة على الجانب الأيسر لإضافتها إلى موضوع قصتك.
- الآن ، تحتاج إلى النقر فوق إضافة تعليق لتلخيص نقطة القصة.
- لإبراز الفكرة الأساسية لنقطة القصة هذه ، يمكنك تغيير عامل التصفية أو الفرز في الحقل في طريقة العرض. بعد ذلك ، يمكنك حفظ تغييراتك بالنقر فوق 'تحديث' على شريط أدوات القصة الموجود أعلى مربع الملاح.
- يجب عليك تحديد الخلايا التي تريد تعيين منطقة الطباعة لها.
- بعد ذلك ، تحتاج إلى النقر فوق علامة التبويب تخطيط الصفحة.
- بعد ذلك ، انقر فوق منطقة الطباعة.
- انقر فوق تعيين منطقة الطباعة.
- يجب أن يتم استهلاك البيانات الموجودة في النموذج الجيد بسهولة.
- يجب أن تكون البيانات قابلة للتطوير للحصول على نموذج بيانات جيد.
- يجب أن يوفر نموذج البيانات الجيد أداءً يمكن التنبؤ به.
- يجب أن تتكيف بسهولة مع التغييرات في المتطلبات.
- أولاً ، يجب عليك تحديد مجموعة البيانات بالكامل ثم الضغط على F5. سيؤدي ذلك إلى فتح مربع حوار الانتقال إلى.
- الآن ، انقر فوق الزر الخاص ، والذي سيفتح مربع حوار Go-To الخاص.
- هناك ، تحتاج إلى تحديد الفراغات والنقر فوق موافق.
- منطقة الصف
- منطقة العمود
- منطقة التصفية
- منطقة القيم
- إزالة الملاحظات المكررة أو غير ذات الصلة
- إصلاح الأخطاء الهيكلية
- تصفية القيم المتطرفة غير المرغوب فيها
- التعامل مع البيانات المفقودة
- تحقق من صحة و QA
- بايثون
- ص
- ساس
- اكسل
- باور بي
- جدول
- اباتشي سبارك
- عرض المشكلة
- تنظيف البيانات / المعالجة المسبقة
- استكشاف البيانات
- النمذجة
- تأكيد صحة البيانات
- التنفيذ
- تحقق
- HPCC
- كوبولي
- ستاتوينج
- بنتاهو
- هادوب
- اقتصادي
- التوقع
- التنبؤ بالمبيعات.
- تحليل الميزانية.
- ترابطي
- طباقي
- قاسي ولين
- مسطحة أو هرمية
- طريقة الانحراف المعياري
- طريقة رسم الصندوق
- يمكن إساءة استخدام المعلومات التي يتم الحصول عليها باستخدام تحليلات البيانات.
- من أصعب المهام في تحليلات البيانات تحديد أداة التحليلات الصحيحة.
- يعتمد سعر الأدوات عادةً على الميزات والتطبيقات التي تدعمها. القليل من الأدوات معقدة وتتطلب التدريب المناسب.
- التحليل العنقودي
- التخصيص الفني
- إحصاء الترتيب
- منهجيات بايزي
- عملية ماركوف
- التحقق من مستوى النموذج
- التحقق على المستوى الميداني
- التحقق من صحة معايير البحث
- التحقق من صحة حفظ البيانات
- يساعدنا ذلك على تتبع عمليات إنشاء التطبيقات من خلال أن نكون قادرين على تحديد الإصدار قيد الاستخدام في التطوير وضمان الجودة والإنتاج.
- يساعدنا ذلك في الاحتفاظ بسجل كامل لملفات المشروع بحيث يكون مفيدًا عندما يكون هناك تعطل خادم مركزي.
- يسمح لنا برؤية التغييرات التي تم إجراؤها في محتوى الملفات المختلفة.
- إنه ممتاز عندما يتعلق الأمر بتخزين وصيانة إصدارات ومتغيرات متعددة من ملفات التعليمات البرمجية بأمان.
- أنت بحاجة إلى معرفة البيانات التي يجب دمجها
- الاستفادة من تصور البيانات
- أنتقل إلى أدوات مزج البيانات.
- إنشاء خدمات قاعدة بيانات افتراضية عن طريق التجريد
- يجب أن يقوموا بجمع وتفسير البيانات.
- على المرء أن يحلل النتائج.
- يجب عليهم إبلاغ النتائج إلى الأعضاء المعنيين في العمل.
- عليهم تحديد الأنماط والاتجاهات في مجموعات البيانات.
- عليهم تحديد عمليات جمع وتحليل بيانات جديدة.
- HDFS
- مابريديوس
- غزل
- Hadoop المشتركة
- بتر واحد
- يعني البتر
- التضمين البارد
- التضمين الانحدار
- احتساب الانحدار العشوائي
- الاستبدال
- التضمين البارد
- استفد من المساحة المناسبة لفصل المكونات في بيان برنامج SAS.
- تأكد من إنهاء جميع العبارات بفاصلة منقوطة.
- اكتب عبارة DATA لتسمية مجموعة البيانات.
- اكتب عبارة INPUT لتسمية المتغيرات في مجموعة البيانات المحددة.
- قم بإنهاء برنامج SAS ببيان RUN.
- تصوير جدول الحقيقة
- جدول حقائق لا يصدق
- جدول الحقيقة التراكمي
- عينة عشوائية بسيطة
- أخذ العينات بشكل منهجي
- أخذ العينات العنقودية
- اخذ العينات الطبقية
- أخذ العينات الحكمية أو هادفة
2. هل يمكنك شرح تجميع وتفصيل البيانات؟
تجميع البيانات يشير إلى المعلومات الرقمية أو غير الرقمية التي يتم جمعها من مصادر متعددة أو على مقاييس أو متغيرات أو أفراد متعددة ويتم تجميعها في ملخصات البيانات أو التقارير الموجزة ، وذلك بشكل أساسي لأغراض إعداد التقارير العامة أو التحليل الإحصائي.
بيانات مفصلة هي البيانات التي تم تقسيمها حسب الفئات الفرعية التفصيلية ، على سبيل المثال ، حسب المجموعة المهمشة أو المنطقة أو الجنس أو مستوى التعليم. يمكن أن تكشف البيانات المصنفة عن أوجه الحرمان وعدم المساواة التي قد لا تنعكس بالكامل في البيانات المجمعة.
3. هل يمكنك شرح الخطوات التي يجب اتخاذها للتعامل مع مصنفات Excel البطيئة؟
فيما يلي الخطوات التي تم اتخاذها للتعامل مع مصنفات Excel البطيئة:
4. هل يمكنك شرح كيفية عمل PROC SQL؟
يُعرَّف PROC SQL بأنه إجراء أساسي SAS7 قوي يجمع بين وظائف PROC وخطوات البيانات في خطوة واحدة. يستخدم PROC SQL لفرز مجموعات البيانات وتلخيصها وتجميعها وضمها وربطها ، وإنشاء متغيرات جديدة ، كما يقوم أيضًا بطباعة النتائج أو إنشاء جدول جديد أو عرض الكل في خطوة واحدة.
5. هل يمكن أن تخبرني كيف أخلق القصص في تابلوه؟
نستخدم القصص لجعل قضيتنا أكثر إقناعًا من خلال إظهار كيفية ارتباط الحقائق وكيفية ارتباط القرارات بالنتائج. يمكننا بعد ذلك نشر القصة على الويب ، أو يمكننا تقديمها للجمهور.
هنا ، يمكن أن ترتبط كل نقطة قصة بطريقة عرض أو لوحة معلومات مختلفة ، أو يمكن أن ترتبط القصة بأكملها بنفس التصور المرئي الذي يتم رؤيته في مراحل مختلفة ، مع تعليقات توضيحية ومرشحات مختلفة.
لإنشاء قصة ، اتبع الخطوات المذكورة أدناه:
تحقق من أسئلة وأجوبة مقابلة Tableau لمزيد من المعلومات عن تابلوه.
أسئلة وأجوبة مقابلة محلل البيانات
6. اسم الأنواع المختلفة لاختبار الفرضيات؟
بعض أنواع اختبار الفرضيات مذكورة أدناه:
7. ماذا تقصد بـ Print Area ، وكيف يمكنك ضبطها في Excel؟
منطقة الطباعة في Excel هي نطاق الخلايا التي تريد طباعتها كلما قمت بطباعة ورقة العمل المحددة.
لتعيين منطقة الطباعة في Excel ، اتبع الخطوات الموضحة أدناه:
8. هل يمكن أن تخبرنا ما هي المعايير التي يجب أن نقولها ما إذا كان نموذج البيانات المطور جيدًا أم لا؟
فيما يلي المعايير التي يجب ذكرها عن النموذج ، سواء كان جيدًا أو سيئًا (ملاحظة: قد تختلف الإجابة على هذا السؤال من شخص لآخر).
9. هل يمكنك إخبارنا بكيفية تحديد جميع الخلايا الفارغة في Excel؟
تحتاج إلى اتباع الخطوات المحددة لتحديد خلايا فارغة في Excel:
10. ما هي أنواع الصلات المختلفة؟
الأنواع المختلفة من الصلات مذكورة أدناه:

أسئلة وأجوبة مقابلة محلل البيانات
11. هل يمكنك شرح وظيفة ANYDIGIT في SAS؟
وظيفة ANYDIGIT بتنسيق ساس يستخدم للبحث في سلسلة عن التواجد الأول لأي حرف ، وهو رقم. إذا تم العثور على أي حرف من هذا القبيل ، فسيعيد ANYDIGIT الموضع في سلسلة ذلك الحرف المحدد. إذا لم يتم العثور على مثل هذا النوع من الأحرف ، فسيقوم ANYDIGIT بإرجاع القيمة 0.
12. اشرح الجدول المحوري ، وما هي الأقسام المختلفة للجدول المحوري؟
يعد Pivot Table إحدى ميزات Microsoft Excel التي تتيح لنا تلخيص مجموعات البيانات الضخمة بسرعة. إنه سهل الاستخدام لأنه يتطلب سحب وإسقاط الصفوف أو رؤوس الأعمدة لإنشاء التقارير.
لدينا أربعة أقسام في الجدول المحوري ، وهي
13. اشرح مصطلح التطبيع وأنواع التطبيع المختلفة؟
تطبيع يمكن تعريفها على أنها تقنية تصميم قاعدة بيانات تهدف إلى تقليل تكرار البيانات والقضاء على أي خصائص غير مرغوب فيها مثل الإدراج والتحديث والحذف الشذوذ. تقوم قواعد التسوية بتقسيم الجدول الأكبر إلى جداول أصغر وربطها باستخدام العلاقات.
أنواع التطبيع مذكورة أدناه:
14. ما هي الفرضية البديلة؟ يشرح؟
يتم ذكر فرضية بديلة على أنها فرق بين متغيرين أو أكثر يتوقعهما الباحثون ؛ أي أن النمط الملحوظ للبيانات لا يرجع إلى حدوث الصدفة.
15. ما هي فرضية لاغية؟
تُعرَّف الفرضية الصفرية بأنها نوع من التخمين يُستخدم في الإحصائيات التي تقترح عدم وجود فرق بين الخصائص المحددة لمجتمع ما أو عملية توليد البيانات.
أسئلة وأجوبة مقابلة محلل البيانات
16. ما هو تصادم جدول التجزئة؟
يُعرف الموقف الذي يتم فيه تجزئة الناتج لعنصري بيانات أو أكثر في مجموعة البيانات U خرائط إلى موقع مشابه في جدول التجزئة باسم تضارب التجزئة. هذا يعني أنه لن يسمح بتخزين بيانات مختلفة في نفس الفتحة.
17. هل يمكنك شرح الاختلافات الرئيسية بين تحليل البيانات والتنقيب في البيانات؟
تحليل البيانات | بيانات التعدين |
---|---|
يعطي الرؤى أو الاختبارات الفرضية أو النموذج من مجموعة البيانات. | يحدد ويكتشف نمطًا مخفيًا في مجموعات البيانات الضخمة. |
يتم إجراؤه على كل من البيانات المهيكلة أو شبه المنظمة أو غير المنظمة | انها تعتمد الدراسات في الغالب على بيانات منظمة. |
الأساس هو تحسين الفرضيات أو اتخاذ قرارات العمل. | يهدف التنقيب في البيانات إلى جعل البيانات أكثر قابلية للاستخدام. |
يستفيد تحليل البيانات من ذكاء الأعمال ونماذج التحليلات. | يعتمد التنقيب عن البيانات بشكل أساسي على الأساليب الرياضية والعلمية لتحديد الأنماط أو الاتجاهات. |
18. هل يمكنك شرح تنظيف البيانات باختصار؟
يُعرّف تنظيف البيانات بأنه عملية إعداد البيانات للتحليل عن طريق إزالة أو تعديل البيانات غير الصحيحة أو المكررة أو غير الكاملة أو غير الملائمة أو المنسقة بشكل غير صحيح.
يتم سرد بعض الطرق للقيام بتنظيف البيانات أدناه:
19. ما هو التنميط البيانات؟
تصنيف البيانات هو آلية فحص البيانات المتوفرة من مصدر معلومات موجود مثل قاعدة البيانات أو الملف وجمع الإحصائيات أو الملخصات الإعلامية حول تلك البيانات المحددة.
عشرين. ما هو التحقق من صحة البيانات؟
التحقق من صحة البيانات هو عملية للتحقق من دقة وجودة بياناتنا ، ويتم إجراؤها بشكل أساسي قبل الاستيراد والمعالجة. يعتبر أيضًا شكلاً من أشكال تطهير البيانات. إنه يضمن لنا أنه عند إجراء تحليل ، ستكون نتائجك دقيقة.
أسئلة وأجوبة مقابلة محلل البيانات
21. هل يمكنك تسمية بعض من أفضل الأدوات المستخدمة لإجراء تحليل البيانات؟
بعض أفضل الأدوات المستخدمة لإجراء تحليل البيانات مذكورة أدناه:
22. هل يمكنك تسمية الخطوات المتبعة عند العمل مع مشروع تحليل البيانات؟
يتم سرد بعض الخطوات المهمة أدناه:
23. هل يمكنك تسمية بعض الأدوات الشائعة المستخدمة في البيانات الضخمة؟
هناك العديد من الأدوات المتاحة للبيانات الضخمة. لقد قمنا بإدراج عدد قليل:
24. ما هو تحليل السلاسل الزمنية ، وأين نستخدمه؟
يُعرَّف تحليل السلاسل الزمنية على أنه أسلوب إحصائي يتعامل بشكل أساسي مع بيانات السلاسل الزمنية أو تحليل الاتجاه. بعبارات بسيطة ، فإن بيانات السلاسل الزمنية هي البيانات الموجودة في سلسلة من الفترات الزمنية أو الفواصل الزمنية المحددة.
يستخدم تحليل السلاسل الزمنية في:
25. هل يمكنك تسمية بعض خصائص خوارزميات التجميع؟
خصائص الخوارزميات العنقودية هي كما يلي:
أسئلة وأجوبة مقابلة محلل البيانات
26. هل يمكنك إخبارنا ما هي القيم المتطرفة وكيف يتم اكتشافها؟
يتم تعريف الانحراف في تحليل البيانات على أنه الملاحظة التي تقع على مسافة غير منتظمة من القيم المختلفة الأخرى في عينة عشوائية من مجتمع معين.
عند فحص بيانات الملاحظات غير العادية التي تمت إزالتها من كتلة البيانات ، تُعرف هذه النقاط غالبًا بالقيم المتطرفة.
بعض المنهجيات المستخدمة لاكتشاف القيم المتطرفة هي كما يلي:
27. هل يمكنك شرح مساوئ تحليلات البيانات؟
فيما يلي عيوب تحليلات البيانات:
28. شرح التصفية التعاونية؟
تتمتع التصفية التعاونية بالقدرة على إنشاء توصيات أكثر تخصيصًا من خلال تحليل المعلومات من النشاط السابق لمستخدم معين أو سجل المستخدمين الآخرين الذين لديهم ذوق مشابه لمستخدم معين.
29. هل يمكنك اذكر بعض المنهجيات الإحصائية التي يستخدمها محللو البيانات؟
فيما يلي بعض المنهجيات الإحصائية التي يستخدمها محللو البيانات:
30. شرح خوارزمية K- يعني؟
يتم تعريف K-Means Clustering على أنها خوارزمية تعلم غير خاضعة للإشراف تقوم بتجميع مجموعة البيانات غير المسماة في مجموعات مختلفة. يمكن تعريفها على أنها خوارزمية تكرارية تقسم مجموعة البيانات غير المسماة إلى مجموعات مختلفة بحيث تنتمي كل مجموعة بيانات إلى مجموعة واحدة فقط لها نفس الخصائص.
أسئلة وأجوبة مقابلة محلل البيانات
31. شرح طريقة الاقتراض KNN؟
بمساعدة طريقة KNN ، يمكن احتساب (تعيين) قيمة مفقودة قاطعة مع الغالبية بين أقرب جيرانها k. تعتبر القيمة المتوسطة لأقرب جيران k بمثابة توقع للقيمة الرقمية المفقودة ، والمعروفة باسم غالبية القاعدة المتوسطة.
32. ما هو N-gram؟
يتم تعريف n-gram على أنه تسلسل متصل لعدد n من العناصر في النص أو الكلام المحدد. N-gram هو نموذج لغوي احتمالي يستخدم للتنبؤ بالعنصر التالي في تسلسل معين ، كما في (n-1).
33. هل يمكنك تسمية بعض منهجيات التحقق من صحة البيانات المستخدمة في تحليل البيانات؟
فيما يلي بعض منهجيات التحقق من صحة البيانات المستخدمة في تحليل البيانات:
3. 4. اشرح التوزيع الطبيعي؟
التوزيع الطبيعي ، الذي يُطلق عليه أيضًا التوزيع الغاوسي ، هو توزيع احتمالي متماثل حول المتوسط ، يُظهر أن البيانات القريبة من الوسط تكون أكثر تكرارًا من البيانات البعيدة عن المتوسط. يظهر التوزيع الطبيعي ، عند تمثيله في رسم بياني ، كمنحنى جرس.
أنظر أيضا أفضل 100 سؤال وأجوبة مقابلة35. هل يمكن ان توضح مزايا التحكم في الإصدار؟
يتيح لنا التحكم في الإصدار تحديد الاختلافات ومقارنة الملفات ودمج التغييرات قبل تنفيذ أي تعليمات برمجية.
بعض مزايا التحكم في الإصدار مذكورة أدناه:
36. هل يمكنك التفريق بين التباين والتغاير؟
فرق | التغاير |
---|---|
يتم تعريفه على أنه انتشار مجموعة بيانات حول متوسط قيمتها. | إنه مقياس العلاقة الاتجاهية بين المتغيرين العشوائيين. |
يتم استخدامه لقياس تقلب الأصول. | وهي تحدد عائد استثمارين مختلفين خلال الفترة الزمنية عند مقارنتها بمتغيرات مختلفة. |
37. هل يمكن أن تخبرنا كيف لمعالجة المشاكل متعددة المصادر؟
38. هل يمكنك التمييز بين تنميط البيانات والتنقيب في البيانات؟
تنميط البيانات | بيانات التعدين |
---|---|
يتم ذلك في مراحل مختلفة من مراحل تطوير مستودع البيانات. | إنها عملية تحديد الأنماط في قاعدة البيانات المبنية مسبقًا. |
الغرض الرئيسي من تحديد ملفات تعريف البيانات هو تحديد البيانات الفاسدة في المرحلة الأولية من البيانات حتى نتمكن من تصحيحها في الوقت المناسب. | إنها آلية تقييم قاعدة البيانات الموجودة وتحويل البيانات الأولية إلى معلومات مفيدة. |
39. هل يمكنك إخبارنا ببعض المسؤوليات المهمة لمحلل البيانات؟
40. هل يمكن ان توضح مخطط التقارب؟
مخطط التقارب ينظم عددًا كبيرًا من الأفكار في علاقاتهم الطبيعية. إنه ناتج منظم من جلسة العصف الذهني. نستخدمه بشكل أساسي لإنشاء المعلومات المتعلقة بمنتج أو مشكلة معقدة أو دمجها أو تنظيمها.
أسئلة وأجوبة مقابلة محلل البيانات
41. هل يمكن أن تخبرنا عن تصور البيانات؟
يُعرّف تصور البيانات بأنه عملية وضع البيانات في شكل مخطط أو رسم بياني أو تنسيقات مرئية أخرى تساعد في تحليل المعلومات وتفسيرها. تساعد مرئيات البيانات على تقديم البيانات التي تم تحليلها بطريقة يمكن الوصول إليها وإشراك مختلف أصحاب المصلحة.
42. ما هي خطة جمع البيانات؟
تضمن لنا خطة جمع البيانات أن البيانات التي يتم جمعها أثناء مشروع التحليل أو التحسين مفيدة ويتم جمعها بشكل مناسب.
43. هل يمكن ان توضح نظام Hadoop البيئي؟
Hadoop Ecosystem هو عبارة عن منصة تقدم خدمات متنوعة لحل مشاكل البيانات الضخمة. وهي تشمل مشاريع أباتشي وأدوات وحلول تجارية مختلفة.
لدينا أربعة عناصر رئيسية لبرنامج Hadoop ، وهي
44. شرح مصطلح التخاطب؟
الاقتطاع هو تقنية استبدال البيانات المفقودة بقيم مستبدلة. أثناء تحليل البيانات ، قد تتسبب البيانات المفقودة في حدوث مشكلة.
طرق التضمين الشائعة هي:
45. هل يمكن أن تخبرنا أسلوب بناء الجملة الأساسي لكتابة التعليمات البرمجية في SAS؟
46. ما هو التشذير في SAS؟
يتم تعريف Interleaving في SAS على أنه دمج مجموعات بيانات SAS الفردية التي تم فرزها في مجموعة بيانات واحدة كبيرة مرتبة. يمكن معشق مجموعات البيانات باستخدام عبارة SET وبيان BY.
47. اشرح مصطلح المجموعات؟

التجميع هو آلية تقسيم السكان أو نقاط البيانات إلى عدد من المجموعات بحيث تكون نقاط البيانات في نفس المجموعات مشابهة نوعًا ما لنقاط البيانات الأخرى في نفس المجموعة.
48. ما هو شرط استخدام اختبار T أو اختبار Z؟
يتم استخدام اختبار T عندما يكون لدينا حجم عينة أقل من 30 ، ويتم استخدام اختبار Z عندما يكون لدينا اختبار عينة أكبر من 30.
49. ما هو جدول الحقيقة؟
جدول الحقيقة هو مجموعة من الحقائق التي تحدد حقيقة أو زيف الاقتراح.
لدينا ثلاثة أنواع وهي
خمسون. ما هو الانحراف المعياري؟
يستخدم الانحراف المعياري لقياس أي درجة من التباين في مجموعة البيانات. يقيس متوسط انتشار البيانات حول المتوسط بدقة.
أسئلة وأجوبة مقابلة محلل البيانات
51. ما هي الاصطدامات في جداول التجزئة؟
يقال إن التصادم يحدث عندما تقوم دالة تجزئة بتعيين مفتاحين مختلفين لنفس عنوان الجدول. إنه مخطط إعادة تجزئة بسيط حيث يتم فحص الفتحة التالية في الجدول عند حدوث تصادم.
52. لماذا 'ساذجة بايز' ساذجة؟
إنه ساذج لأنه يفترض أن جميع مجموعات البيانات متساوية في الأهمية ومستقلة ، وهذا ليس هو الحال في سيناريو العالم الحقيقي.
53. اشرح مصطلح 'مشاحنات البيانات'؟
يمكن تعريف الخلاف على البيانات بأنه عملية تنظيف وتوحيد مجموعات البيانات الفوضوية والمعقدة لسهولة الوصول إليها وتحليلها.
54. اشرح مصطلح مزج البيانات؟
مزج البيانات هو تقنية دمج البيانات من مصادر مختلفة في مجموعة بيانات عاملة.
55. اشرح مصطلح ربط البيانات؟
يتم تنفيذ ربط البيانات عندما تأتي البيانات من نفس المصدر.
56. شرح التحليلات الوصفية؟
يتم تعريف التحليلات الوصفية على أنها تفسير البيانات التاريخية لفهم التغييرات التي حدثت في العمل بشكل أفضل. يصف استخدام مجموعة من البيانات التاريخية لإجراء مقارنات.
يمنحك فكرة عن توزيع البيانات. يساعدك على اكتشاف القيم المتطرفة والأخطاء المطبعية ويمكّنك من تحديد الارتباطات بين المتغيرات ، وبالتالي يجعلك جاهزًا لإجراء المزيد من التحليلات الإحصائية.
57. شرح التحليلات التنبؤية؟
يتم تعريف التحليلات التنبؤية على أنها استخدام البيانات والخوارزميات الإحصائية وتقنيات التعلم الآلي لتحديد احتمالية النتائج المستقبلية التي تستند إلى البيانات التاريخية.
58. شرح التحليلات الوصفية؟
التحليلات الوصفية تستفيد من التعلم الالي لمساعدة الشركات على تحديد مسار العمل بناءً على توقعات برنامج الكمبيوتر. هو - هي يعمل مع التحليلات التنبؤية ، والتي تستخدم البيانات لتحديد النتائج على المدى القريب.
59. اسم الأنواع المختلفة لتقنيات أخذ العينات؟
يتم سرد الأنواع المختلفة لتقنيات أخذ العينات أدناه.
60. شرح المصطلح تجهيز؟
يشير Overfitting إلى النموذج الذي يمثل بيانات التدريب جيدًا. هذا يعني أنه يتم التقاط الضوضاء أو التقلبات العشوائية في بيانات التدريب ، ويتم تعلمها كمفاهيم بواسطة النموذج. المشكلة هنا هي أن هذه المفاهيم لا تنطبق على البيانات الجديدة ، ولها تأثير سلبي على قدرة النموذج على التعميم.
نتمنى لك التوفيق في مقابلة محلل البيانات الخاصة بك. نأمل أن تكون أسئلة وأجوبة مقابلة تحليل البيانات مفيدة لك. يمكنك أيضا التحقق محلل الأعمال أسئلة وأجوبة المقابلة ، والتي قد تكون مفيدة لك.