Merencanakan Ukuran Sampel untuk Evaluasi Teracak
•Permasalahan umum: Seberapa besar sampel yang dibutuhkan untuk dapat mendeteksi ukuran dampak tertentu secara kredibel? •Faktor-faktor yang terkait: –Ukuran dampak yang diharapkan –Variabilitas pada hasil yang diharapkan –Rancangan eksperimen: stratifikasi, variabel kontrol, data dasar, pengacakan pada tingkat kelompok vs. individual •Pemilihan ukuran sampel memerlukan penyesuaian –Dana dan waktu yang lebih banyak untuk memperoleh sampel yang lebih besar –apabila memang terdapat dampak, akan lebih mudah mendeteksinya dengan ukuran sampel yang lebih besar
Susunan Dasar •Pada akhir eksperimen, kita akan membandingkan hasil yang diharapkan pada kelompok perlakuan/ tindakan dan kelompok pembanding/kontrol. •Kita tertarik pada perbedaan: Rerata pada kelompok tindakan – Rerata pada kelompok kontrol = Ukuran dampak •Hasil ini dapat pula diperoleh dari regresi hasil Y terhadap T: Y i = i = Ukuran dampak
Perkiraan Kita perkirakan rerata sampel kita, misalnya dengan menghitung rata-rata sampel Jika terdapat banyak variasi dalam sampel, rata- ratanya akan menjadi tidak akurat, sehingga meskipun dampak sejati dari tindakannya adalah sama, dampak tersebut akan sulit dideteksi.
Kesimpulan yang kuat
Keakuratan yang lebih rendah
Dapatkah kita menarik kesimpulan?
Interval Keyakinan •Bertujuan untuk mengetahui dampak sejati dari β program •Dari sampel yang kita miliki, kita mendapat perkiraan mengenai dampak program •Apa yang dapat diketahui tentang dampak program yang sebenarnya dari perkiraan β tersebut? •Interval keyakinan sebesar 95% untuk sebuah perkiraan mengindikasikan bahwa, dengan probabilitas sebesar 95%, β yang sebenarnya berada dalam interval keyakinan •Untuk sampel yang besar, perkiraan interval keyakinan adalah:
Interval Keyakinan •Contoh 1: –Pradhan (pimpinan dewan desa) perempuan yang dijadikan sampel mengenyam pendidikan selama 7,13 tahun –Pradhan laki-laki yang dijadikan sampel mengenyam pendidikan selama 9,92 tahun –Perbedaan di antara keduanya adalah 2,59 dengan tingkat kesalahan sebesar 0,54 –Interval keyakinan sebesar 95% adalah [-1.73;-3.84] •Contoh 2: –Pradhan perempuan yang dijasikan sampel memiliki 2,45 anak –Pradhan laki-laki yang dijadikan sampel memiliki 2,50 anak –Perbedaan di antara keduanya adalah sebesar 0,05, dengan tingkat kesalahan 0,26 –Interval keyakinan sebesar 95% adalah [-0.55;0.46]
Pengujian hipotesis •Seringkali kita ingin menguji hipotesis bahwa besarnya dampak sama dengan nol: •Kita ingin menguji hipotesis nol: Terhadap hipotesis alternatif: •Permasalahan dalam pengujian hipotesis: Kapan saya dapat menolak hipotesis nol dan menerima hipotesis alternatif?
Dua jenis kesalahan •Kesalahan jenis I: Menolak hipotesis nol H o padahal sebenarnya hipotesis tersebut benar. Tingkat signifikansi (atau tingkat) dari sebuah pengujian adalah probabilitas terjadinya kesalahan jenis 1 A = P (Menolak H o |H o benar) Contoh 1: Dalam sampel kita, lamanya masa pendidikan yang diperoleh oleh pemimpin dewan desa perempuan adalah 7,13 tahun, dan yang laki-laki adalah 9,92 tahun. Apakah pemimpin dewan desa perempuan memiliki tingkat pendidikan yang berbeda, atau sama? Apabila saya menjawab “berbeda”, seberapa yakin saya akan jawaban itu? Contoh 2: Dalam sampel kita, jumlah anak yang dimiliki oleh pemimpin dewan desa perempuan adalah 2,45 orang, dan yang laki-laki adalah 2,40 orang. Apakah pemimpin dewan desa perempuan memiliki jumlah anak yang berbeda, atau sama? Apabila saya menjawab “berbeda”, seberapa yakin saya dengan jawaban itu? Tingkat yang lazim: 0,05, 0,01, 0.1
Dua jenis kesalahan •Kesalahan jenis II: Gagal menolak H o padahal hipotesis itu salah. –Kesahihan sebuah pengujian adalah yang tidak mengandung kemungkinan terjadinya kesalahan jenis II (0) = P (Menolak H 0 | Besarnya dampak bukan nol) –Seberapa besarkah kemungkinan eksperimen saya dapat mendeteksi dampak, apabila memang ada dampaknya? Contoh: Jika saya mengadakan 100 eksperimen, dalam berapa eksperimenkah saya dapat menolak hipotesis yang menyatakan bahwa perempuan dan laki-laki memiliki tingkat pendidikan yang sama pada tingkat 5%, bila sebenarnya tingkat pendidikan mereka berbeda?
Pengujian kesetaraan rerata Kami gunakan •Sehingga, jika t 1.96, kita tolak hipotesis kesetaraan dengan tingkat keyakinan 5%. •Apabila t 1.96, kita gagal menolak hipotesis kesetaraan dengan tingkat keyakinan 5% •Contoh tingkat pendidikan para Pradhan (pemimpin dewan desa): –Perbedaan: 2,59 –Kesalahan baku: 0,54 –Kami pasti menolak kesetaraan pada tingkat 5%
Menghitung Kesahihan Saat merencanakan evaluasi, dengan penelitian pendahuluan kita dapat menghitung jumlah minimum sampel yang dibutuhkan untuk: –Menguji hipotesis nol yang telah ditentukan sebelumnya (misalnya dampak tindakan 0) –Untuk tingkat signifikansi yang telah ditentukan sebelumnya (misalnya 0,05) –Dengan besarnya dampak yang telah ditentukan sebelumnya (misalnya deviasi baku sebesar 0,2 dari hasil yang diharapkan). –Untuk mencapai tingkat kesahihan tertentu •Tingkat kesahihan sebesar 80% mengindikasikan bahwa, dalam 80% eksperimen dengan ukuran sampel yang dilakukan terhadap populasi tersebut, jika H o ternyata salah (misalnya dampak tindakan bukan nol), kita akan dapat menolaknya. •Semakin besar ukuran sampel, semakin tinggi tingkat kesahihannya. Tingkat kesahihan yang lazim digunakan: 80%, 90%
Bahan-bahan penghitungan kesahihan dalam penelitian sederhana Yang kita butuhkanDari mana kita mendapatkannya Tingkat signifikansiBiasanya ditetapkan sebesar 5% Rerata dan perbedaan dari hasil pada kelompok pembanding Dari survei kecil pada populasi yang sama atau populasi yang serupa Besarnya dampak yang ingin dideteksi Berapa ukuran dampak terkecil yang dapat mendorong timbulnya tanggapan kebijakan? Dasar pemikiran: jika dampaknya lebih kecil dari itu, maka tidak perlu membedakannya dengan nol
Memilih ukuran dampak •Berapa ukuran dampak terkecil yang dapat menjadi alasan untuk mengadopsi program itu: –Biaya program vs manfaat yang diperoleh –Biaya program vs penggunaan alternatif dari uang itu •bila dampaknya lebih kecil dari itu, sama saja dengan nol: kita tidak perlu membuktikan bahwa dampak yang sangat kecil berbeda dengan nol •Sebaliknya, dampak apa pun yang lebih besar daripada dampak itu memberikan alasan yang tepat untuk pengadopsian program tersebut: kita harus dapat membedakannya dari nol
Ukuran Dampak yang Dibakukan •Sebesar apa ukuran dampak yang dapat kita deteksi dengan sampel tertentu bergantung pada seberapa variabel (berubah-ubah) hasilnya. –Contoh: jika semua anak memiliki tingkat pembelajaran yang sama tanpa diberlakukannya sebuah program, dampak yang sangat kecil pun akan dengan mudah terdeteksi •Ukuran dampak yang dibakukan adalah ukuran dampak dibagi deviasi baku dari hasil = ukuran dampak/Deviasi baku •Ukuran dampak yang lazim digunakan: =0.20 (kecil) =0.40 (sedang) =0.50 (besar)
Penghitungan kesahihan dengan menggunakan Perangkat Lunak OD •Pilih “Kesahihan vs jumlah kelompok” pada menu “percobaan teracak berkelompok”
Ukuran Kelompok •Pilih kelompok dengan 1 unit
Pilih Tingkat Signifikansi dan Dampak Tindakan •Pilih –Biasanya Anda akan memilih 0,05 •Pilih –Dapat bereksperimen dengan 0,20 •Anda akan memperoleh grafik hasil yang menunjukkan tingkat kesahihan sebagai fungsi dari ukuran sampel.
Tingkat Kesahihan dan Ukuran Sampel
Faktor-faktor dalam rancangan yang mempengaruhi tingkat kesahihan •Rancang berkelompok •Ketersediaan data dasar •Ketersediaan variabel kontrol, dan stratifikasi. •Jenis hipotesis yang tengah diuji
Rancang Kelompok Percobaan kelompok teracak adalah eksperimen di mana unit-unit atau kelompok sosial, alih-alih individu-individu, secara acak ditempatkan pada kelompok-kelompok intervensi Contoh: PROGRESADesa Pengkhususan berdasarkan jenis kelamin Panchayat Flipchart, Pemberantasan cacing Sekolah Pemberian suplemen zat besiKeluarga
Mengapa memilih pengacakan kelompok •Harus meminimalkan atau menghentikan penularan –Contoh: Pada program pemberantasan cacing, sekolah-sekolah dipilih menjadi unit penelitian karena cacingan bersifat menular •Pertimbangan kelayakan –Contoh: Secara politis, Program PROGRESA tidak akan dapat dilakukan apabila beberapa keluarga dilibatkan sedangkan keluarga lainnya tidak. •Pilihan yang bersifat alamiah –Contoh: Intervensi pendidikan dalam bentuk apa pun yang berdampak terhadap seluruh kelas (misalnya penggunaan flipchart, pelatihan guru). •Biaya survei dan pelaksanaan yang lebih rendah –Biaya yang lebih rendah untuk melakukan survei di desa-desa yang letaknya berdekatan, misalnya yang termasuk dalam kabupaten yang sama
Dampak Pengelompokan •Hasil untuk semua individu dalam satu unit mungkin saling berkaitan –Semua penduduk desa terpapar pada cuaca yang sama –Semua Panchayat memiliki sejarah yang sama –Semua siswa memiliki kepala sekolah yang sama –Program mempengaruhi siswa pada waktu yang bersamaan. –Anggota masyarakat desa saling berinteraksi •Kami sebut sebagai korelasi di antara unit-unit dalam kelompok yang sama
Implikasi Pada Rancangan dan Analisis •Analisis: Kesalahan baku perlu disesuaikan untuk memperhitungkan fakta bahwa observasi yang dilakukan dalam satu kelompok saling berkorelasi. •Faktor penyesuaian (dampak rancangan) untuk ukuran sampel total tertentu, kelompok-kelompok dengan ukuran m, korelasi intra-kelompok sebesar ukuran dampak terkecil yang dapat kita deteksi meningkat sebesar dibandingkan dengan rancangan yang tidak dikelompokkan •Rancangan: Kita perlu mempertimbangkan pengelompokan pada saat merencanakan ukuran sampel
Contoh: Ukuran tindakan yang dapat dideteksi vs. ρ _______________________________ Korelasi Ukuran Kelompok Teracak Intra-kelompok (ρ) 0,00 1,00 1,00 1,00 1,00 0,02 1,09 1,41 1,73 2,23 0,05 1,20 1,86 2,44 3,31 0,10 1,38 2,43 3,30 4,57 ________________________________________________
Implikasi •Sekarang kita harus mempertimbangkan pada saat memilih ukuran sampel (begitu pula dampak-dampak lain) •Sangatlah penting untuk mengacak jumlah kelompok yang memadai •Sering kali jumlah kelompok lebih penting daripada jumlah individu dalam kelompok
Memilih jumlah kelompok dengan jumlah unit yang telah diketahui •Contoh: Pemilihan acak untuk suatu tindakan/ upaya perbaikan pada tingkat kelas dengan jumlah siswa 20 setiap kelas: –Pilih opsi-opsi lain seperti sebelumnya –Tentukan jumlah siswa di setiap sekolah (misalnya 20 siswa) –Tentukan
Tingkat Kesahihan versus Jumlah Kelompok dengan 20 Siswa dalam Setiap Kelompok
Memilih jumlah kelompok saat kita dapat memilih jumlah unit •Untuk memilih berapa Panchayat yang hrs disurvei dan berapa desa per Panchayat untuk mendeteksi apakah peningkatan penyediaan air bersih memberikan dampak yang berbeda secara signifikan bagi laki-laki & perempuan •Rerata pada Gram Panchayat (GP) yang tidak dikhususkan: 14,7 •Deviasi baku: 19 • 0,07 •Kita harus mendeteksi peningkatan sekurangnya sebesar 30% •Maka, kita tetapkan δ = 0,23 [14,7 *,30 / 19] •Kita cari tingkat kesahihan sebesar 80%
Jumlah minimum GP, Penentuan Desa per GP •Kita mencari jumlah minimum GP yang diperlukan apabila melakukan survei pada 1 desa per GP: –Jawaban: 553
Jumlah Kelompok untuk Tingkat Kesahihan sebesar 80%
Jumlah minimum GP, Penentuan Desa per GP •Kita mencari jumlah minimum GP yang diperlukan apabila melakukan survei pada 1 desa per GP: –Jawaban: 553 •Kita mencari jumlah minimum GP apabila melakukan survei pada 2, 3, 4, dsb… desa per GP
Tingkat Kesahihan terhadap Jumlah Kelompok dengan 5 Desa Per Panchayat
Jumlah Minimum GP, Penentuan Desa per GP •Kita cari jumlah minimum GP yang diperlukan jika kita melakukan survei pada 1 desa per GP: –Jawaban: 553 •Kita cari jumlah minimum GP jika kita melakukan survei pada 2, 3, 4 desa, dst … per GP •Untuk setiap kombinasi, kita hitung jumlah desa yang perlu disurvei, serta anggarannya
Sampel apa yang dibutuhkan? Untuk jumlah desa yang sama, biaya yang dibutuhkan menjadi lebih rendah apabila letak desa berdekatan (dengan jumlah kelompok yang lebih sedikit), misalnya, karena waktu yang diperlukan untuk melakukan perjalanan antar desa lebih singkat
Faktor-faktor dalam rancangan yang mempengaruhi tingkat kesahihan •Rancang kelompok •Ketersediaan data dasar •Ketersediaan variabel kontrol, dan stratifikasi. •Jenis hipotesis yang tengah diuji
Ketersediaan Data Dasar •Data Dasar memiliki dua kegunaan, yakni: –Dapat memeriksa apakah kelompok kontrol dan kelompok tindakan sama atau berbeda sebelum perbaikan –Mengurangi jumlah sampel yang diperlukan, tetapi harus dilakukan survei sebelum intervensi dilakukan: biasanya biaya evaluasi akan meningkat dan biaya intervensi akan berkurang •Menghitung tingkat kesahihan dengan paduk: –Kita hrs tahu korelasi antara dua pengukuran hasil yang berurutan (misalnya: nilai pra- dan pasca tes di sekolah). –Semakin kuat korelasinya, semakin besar pencapaiannya. –Pencapaian-pencapaian yang sangat besar untuk hasil-hasil yang sangat persisten seperti nilai ujian •Menggunakan OD –Nilai pra-tes digunakan sebagai kovarian, r2 adalah korelasinya dalam rentang waktu tertentu.
Faktor-faktor dalam rancangan yang mempengaruhi tingkat kesahihan •Rancang kelompok •Ketersediaan data dasar •Ketersediaan variabel kontrol, dan stratifikasi. •Jenis hipotesis yang tengah diuji
Sampel yang distratifikasi •Stratifikasi akan mengurangi besarnya sampel yang dibutuhkan untuk memperoleh tingkat kesahihan tertentu (Anda telah melihatnya secara langsung pada pelaksanaan Balsakhi). •Alasannya adalah bahwa stratifikasi akan mengurangi perbedaan hasil yang diharapkan pada setiap strata (dan karenanya meningkatkan besarnya dampak baku untuk ukuran dampak tertentu mana pun) serta korelasi antar unit dalam kelompok-kelompok. •Contoh: apabila dilakukan pengacakan dlm sekolah dan tingkatan, kelas mana yang menjadi kelompok tindakan dan kelas mana yang menjadi kelompok kontrol: –Perbedaan nilai ujian berkurang karena usia dikontrol –Korelasi dalam kelompok menurun karena tak ada lagi “dampak kepala sekolah yang sama” •Variabel-variabel stratifikasi yang lazim: –Nilai paduk hasil di mana memungkinkan –Kita memperkirakan tindakannya akan berbeda untuk masing- masing anak kelompok
Tingkat Kesahihan dalam Sampel yang Distratifikasi dengan OD •Kita gunakan nilai yang lebih rendah untuk ukuran dampak yang dibakukan •Kita gunakan nilai yang lebih rendah untuk (nilai ini merupakan korelasi residual dalam setiap lokasi) •Kita perlu menentukan variabilitas besarnya dampak Nilai-nilai yang lazim adalah: 0,01; 0,05
Faktor-faktor dalam rancangan yang mempengaruhi tingkat kesahihan •Rancang kelompok •Ketersediaan data dasar •Ketersediaan variabel kontrol, dan stratifikasi. •Jenis hipotesis yang tengah diuji
Hipotesis yang tengah diuji •Apakah Anda ingin melihat perbedaan di antara dua kelompok tindakan serta perbedaan di antara kelompok tindakan dan kelompok kontrol? •Apakah Anda ingin melihat interaksi antar kelompok tindakan? •Apakah Anda ingin menguji apakah dampaknya berbeda pada sub-populasi yang berbeda? •Apakah rancangan Anda melibatkan kepatuhan parsial? (seperti: rancang dorongan?)
Kesimpulan •Perhitungan tingkat kesahihan melibatkan perkiraan- perkiraan. •Perhitungan itu juga memerlukan pengujian sebelum eksperimen yang sebenarnya dimulai •Perhitungan tingkat kesahihan dapat memberi indikasi: –Banyaknya kelompok tindakan yang diperlukan –Bagaimana menyeimbangkan jumlah kelompok yang lebih banyak vs. jumlah observasi yang lebih banyak per kelompok –Apakah pengevaluasian intervensi dapat dilakukan atau tidak