نصائح

تنظيف البيانات لتحليل البيانات في علم الاجتماع

تنظيف البيانات لتحليل البيانات في علم الاجتماع

يعد تنظيف البيانات جزءًا مهمًا من تحليل البيانات ، خاصةً عندما تجمع البيانات الكمية الخاصة بك. بعد جمع البيانات ، يجب إدخالها في برنامج كمبيوتر مثل SAS أو SPSS أو Excel. أثناء هذه العملية ، سواء تم ذلك يدويًا أو قام ماسح ضوئي بالكمبيوتر بذلك ، ستكون هناك أخطاء. بغض النظر عن مدى دقة إدخال البيانات ، فإن الأخطاء لا مفر منها. قد يعني هذا ترميزًا غير صحيح وقراءة غير صحيحة للرموز المكتوبة واستشعارًا غير صحيح للعلامات السوداء والبيانات المفقودة وما إلى ذلك. تنظيف البيانات هو عملية اكتشاف وتصحيح أخطاء الترميز هذه.

هناك نوعان من تنظيف البيانات يحتاج إلى إجراء مجموعات البيانات. هم ممكن تنظيف الكود وتنظيف الطوارئ. يعد كلاهما ضروريًا لعملية تحليل البيانات لأنه إذا تم تجاهلها ، فستنتج دائمًا تقريبًا نتائج بحثية مضللة.

ممكن كود التنظيف

سيكون لأي متغير محدد مجموعة محددة من خيارات الإجابات والرموز لمطابقة كل خيار للإجابة. على سبيل المثال ، المتغير جنس سيكون لديك ثلاثة خيارات ورموز لكل إجابة: 1 للذكور ، و 2 للإناث ، و 0 للإجابة. إذا كان لديك مستجيب تم ترميزه بالرمز 6 لهذا المتغير ، فمن الواضح أنه قد حدث خطأ لأن هذا ليس رمز إجابة محتمل. التنظيف المحتمل للرمز هو عملية التحقق لمعرفة أن الرموز المعينة لخيارات الإجابة لكل سؤال فقط (الرموز المحتملة) تظهر فقط في ملف البيانات.

تحقق بعض برامج الكمبيوتر وحزم البرامج الإحصائية المتاحة لإدخال البيانات من هذه الأنواع من الأخطاء عند إدخال البيانات. هنا ، يحدد المستخدم الرموز الممكنة لكل سؤال قبل إدخال البيانات. ثم ، إذا تم إدخال رقم خارج الإمكانيات المحددة مسبقًا ، فستظهر رسالة خطأ. على سبيل المثال ، إذا حاول المستخدم إدخال 6 للجنس ، فقد يصدر الكمبيوتر صوتًا ويرفض الكود. برامج الكمبيوتر الأخرى مصممة لاختبار الرموز غير المشروعة في ملفات البيانات المكتملة. أي إذا لم يتم التحقق منها أثناء عملية إدخال البيانات كما هو موضح للتو ، فهناك طرق للتحقق من الملفات بحثًا عن أخطاء الترميز بعد اكتمال إدخال البيانات.

إذا كنت لا تستخدم برنامج كمبيوتر يبحث عن أخطاء الترميز أثناء عملية إدخال البيانات ، يمكنك تحديد بعض الأخطاء ببساطة عن طريق فحص توزيع الاستجابات لكل عنصر في مجموعة البيانات. على سبيل المثال ، يمكنك إنشاء جدول تردد للمتغير جنس وهنا سترى الرقم 6 الذي تم إدخاله بطريقة خاطئة. يمكنك بعد ذلك البحث عن هذا الإدخال في ملف البيانات وتصحيحه.

تنظيف الطوارئ

النوع الثاني من تنظيف البيانات يسمى تنظيف الطوارئ وهو أكثر تعقيدًا قليلاً من التنظيف المحتمل للكود. قد يضع الهيكل المنطقي للبيانات قيودًا معينة على ردود بعض المجيبين أو على متغيرات معينة. تنظيف الحالات الطارئة هو عملية التحقق من أن تلك الحالات التي يجب أن تحتوي على بيانات حول متغير معين فقط هي التي لديها بالفعل مثل هذه البيانات. على سبيل المثال ، دعنا نقول أن لديك استبيانا تسأل فيه المجيبين عن عدد المرات التي حملوا فيها. يجب أن يكون لدى جميع المستجيبات استجابة مشفرة في البيانات. ومع ذلك ، يجب ترك الذكور إما فارغًا أو يجب أن يكون لديهم رمز خاص لعدم الرد. إذا تم ترميز أي ذكر في البيانات على أنه يحتوي على 3 حالات حمل ، على سبيل المثال ، فأنت تعلم أن هناك خطأ ويجب تصحيحه.

المراجع

Babbie، E. (2001). ممارسة البحوث الاجتماعية: الطبعة التاسعة. بيلمونت ، كاليفورنيا: وادسورث طومسون.