Beberapa Teknik Pembersihan Data dengan SPSS Iwan Ariawan Departemen Biostatistika Fakultas Kesehatan Masyarakat UI
Cek Duplikasi No. Identifikasi Dalam 1 basis data HARUS ada satu variabel untuk nomor identifikasi yg unik No. Identifkasi Unik berarti tidak boleh ada nomor yg sama untuk responden yg berbeda Sangat penting terutama jika data perlu digabungkan dengan data lainnya
Cek Duplikasi dg SPSS
Cek Duplikasi dg SPSS
Contoh ada ID yg duplikasi
ID yg duplikasi pada data Supaya jelas mana ID yg duplikasi, copy variabel ID ke dekat PrimaryLast
ID yg duplikasi pada data Harus cek kembali ke kuesioner untuk tahu mana ID yg benar
Perbandingan 2 file data Digunakan jika kita menggunakan sistem double data entry Kedua file dari kuesioner yg sama tetapi dimasukkan oleh petugas pemasuk data yg berbeda Seharusnya isi kedua file sama, jika tidak sama maka salah satu salah Harus cek ke kuesioner untuk tahu mana isian yg benar
Perbandingan 2 file data
Perbandingan 2 file data
Perbandingan 2 file data
Contoh isian yg berbeda
Contoh isian yg berbeda Untuk tahu isian mana yg benar Cek dengan kuesioner
Cek Validitas Isian Setelah yakin tidak ada duplikasi ID & juga salah entry sudah dibetulkan, maka langkah berikutnya adalah cek validitas isian Cek validitas isian dilakukan secara sederhana dengan membuat tabel distribusi frekuensi Cek apakah isian masuk akal (terutama untuk variabel kontinyu)
Contoh Survei pada wanita menikah usia 15-49 tahun, var usia pertama kali menikah
Contoh Jika sudah dilakukan double data entry dan semua ketidaksesuaian antara 2 file data sudah diperbaiki kesalahan pada pengisian kuesioner Tidak mungkin kita tahu isian yg sebenarnya dijadikan “tidak menjawab” atau “missing”
Konsistensi antar variabel Pengecekan dilakukan pada variabel yg sebelumnya mengalami pertanyaan saringan “Missing” pada satu variabel bisa memang missing (karena filter) atau pewawancara lupa menanyakan
Contoh (dari data) Var C03A sd C03Z hanya terisi jika jawaban di C02: 11-19 Dapat terjadi kesalahan: di C02 terisi 20, 21, 96 atau 98 tetapi di C03A, dst terisi Di C03A, dst tidak terisi padahal di C02 terisi antara 11 sd 19 Jika kesalahan terjadi pada pengisian kuesioner, koreksi yg dpt dilakukan terbatas (misal mengubah “missing” menjadi “tidak menjawab”)
Contoh 2981 Jmlh yg seharusnya jawab di C03A, dst
Contoh Seharusnya 2981
Contoh Cari responden yg menjawab antara 11-19 di C02 tetapi tidak menjawab di C03A, dst Gunakan SELECT CASES
Memilih Responden yg ditampilkan
Memilih Responden yg ditampilkan
Memilih Responden yg ditampilkan
Menampilkan responden terpilih
Menampilkan responden terpilih
Menampilkan responden terpilih Jika tidak dilakukan double data entry harus cek ke kuesioner agar yakin bukan lupa ter-entry Jika doubel data entry jawaban “missing” dpt dikode ulang menjadi “tidak menjawab”
Pemanfaatan Syntax sederhana untuk koreksi data Syntax yg digunakan COMPUTE IF EXECUTE COMPUTE mengisi variabel COMPUTE A3=1. Isi variabel A3 dengan 1
Pemanfaatan Syntax sederhana untuk koreksi data Pengisian variabel secara kondisional IF IF (C02>19) C03A=$SYSMIS. Jika isian C02>19, maka isian di C03 adalah missing ($SYSMIS adalah kode untuk missing value) Semua syntax SPSS harus diakhiri dg tanda titik dan ditutup dg syntax EXECUTE.
Contoh
Contoh
Contoh Blok syntax yg ingin dijalankan & klik ini