ANALISIS DATA KATEGORIK MENGGUNAKAN REGRESI LOGISTIK

ANALISIS DATA KATEGORIK MENGGUNAKAN REGRESI LOGISTIK
OLEH : WIDIYANTONO

Pendahuluan Regresi Logistik Aplikasi Reglog 1 2 3

PENDAHULUAN Pengertian statistik Fungsi dan kegunaan statistik
Statistik deskriptif dan statistik inferensial Pengertian data Penggolongan data statistik

Pengertian Statistik Statistik berasal dari bahasa Latin, yaitu status yang berarti negara , menggambarkan keadaan dan menyelesaikan masalah yang berhubungan dengan kenegaraan Statistik dalam arti sempit : data yang disajikan dalam bentuk angka (data kuantitatif). Statistik dalam arti luas : (1) pengumpulan (2) penyusunan (3) analisis (4) interpretasi (5) penyajian

LANGKAH-LANGKAH PENTING
Analyzing Data Recording & Representing Data Collecting & Recording Data (angka) Publishing Results (Use it as decision support) Uji Statistika Interpreting Results, Goodness of Fit, Diagnostic

Fungsi Statistik Bank data untuk menyediakan data untuk diolah dan diinterpretasikan agar dapat digunakan untuk menerangkan keadaan yang perlu diketahui atau diungkap. 2. Alat quality control untuk membantu standarisasi dan sekaligus sebagai alat pengawasan 3. Alat analisis, merupakan suatu metode penganalisaan data

Kegunaan Statistik Kegunaan statistik bagi pelaku ekonomi dan pembuat keputusan: Memperoleh gambaran tentang kejadian, gejala, atau keadaan dunia ekonomi/sosial Mengikuti perkembangan kejadian, gejala, atau keadaan ekonomi/sosial dari waktu ke waktu Dapat menyusun laporan berupa data kuantitatif dengan teratur, ringkas, dan jelas Dapat mengetahui hubungan suatu gejala ekonomi/sosial dengan gejala ekonomi/sosial lainnya Dapat meramalkan hal-hal yang akan terjadi di masa mendatang

Statistik Deskriptif dan Inferensial
Statistika deskriptif (statistik deduktif) : bagian dari statistik yang hanya berhubungan dengan hal menguraikan atau memberikan keterangan-keterangan mengenai suatu keadaan, gejala, atau persoalan (tanpa melakukan generalisasi). Statistik inferensial (statistik induktif) : serangkaian teknik yang digunakan untuk mengkaji, menaksir dan mengambil kesimpulan sebagian data (data sampel) yang dipilih secara acak dari seluruh data yang menjadi subyek kajian (populasi). Statistik inferensial berfungsi meramalkan dan mengontrol keadaan atau kejadian.

Statistika Deskriptif
JENIS-JENIS STATISTIK Penyajian data Ukuran pemusatan Ukuran penyebaran Angka indeks Deret berkala dan peramalan Statistika Deskriptif STATISTIKA Probabilitas dan teori keputusan Metode sampling Teori pendugaan Pengujian hipotesa Regresi dan korelasi Statistika nonparametrik Statistika Induktif

Pengertian Data Data adalah bentuk jamak dari datum. Data merupakan kumpulan fakta atau angka atau segala sesuatu yang dapat dipercaya kebenarannya sehingga dapat digunakan sebagai dasar menarik suatu kesimpulan. Tidak semua angka dapat disebut data statistik. Angka dapat disebut data statistik apabila dapat menunjukkan suatu ciri dari suatu penelitian yang bersifat agregatif, serta mencerminkan suatu kegiatan lapangan tertentu. Agregatif : mengenai 1 individu, namun penelitian dilakukan berulang kali Dilakukan satu kali, namun yang diteliti lebih dari satu individu

Penggolongan Data Secara garis besar data dibedakan menjadi 2 yaitu: 1. Data Kualitatif : data yg tidak berupa angka 2. Data Kuantitatif : data berupa angka Berdasarkan sifat angkanya, dapat dibagi lagi menjadi 2: Data Diskrit : bilangan bulat Data Kontinyu : bilangan pecahan

JENIS-JENIS DATA DATA Jenis kelamin Warna kesayangan Asal suku, dll
Data Kualitatif Data Kuantitatif Data Diskrit Data Kontinu Jenis kelamin Warna kesayangan Asal suku, dll Jumlah mobil Jumlah staf Jumlah TV, dll Berat badan Jarak kota Luas rumah, dll

JENIS-JENIS DATA Berdasarkan cara memperolehnya:
Data primer adalah data statistik yang diperoleh atau bersumber dari tangan pertama (first hand data). Data sekunder adalah data statistik yang diperoleh dari tangan kedua (second hand data). Berdasarkan waktu pengumpulannya : Data Cross Section : diambil pada waktu tertentu Data Time Series : dikumpulkan dari waktu ke waktu Berdasarkan sumbernya : Data Intern : menggambarkan keadaan di dalam lembaga Data Ekstern : menggambarkan keadaan di luar lembaga

SUMBER DATA STATISTIK DATA Data Primer Wawancara langsung
Wawancara tidak langsung Pengisian kuisioner Data Sekunder Data dari pihak lain: BPS Bank Indonesia World Bank, IMF FAO dll

JENIS-JENIS DATA Berdasarkan skala pengukurannya :
Data nominal : data yang disusun tanpa memperhatikan urutan tertentu. Data ordinal : data yang terdapat jarak sama di antara hal-hal yang sedang diselidiki atau dipersoalkan. Data interval : data yg disusun dengan jarak yg sama antarkategori. Data Rasio adalah data yg memberikan keterangan tentang nilai absolut dari objek yang diukur. Ukuran rasio mempunyai titik nol. Karena ada titik nol tersebut, maka ukuran rasio dapat dibuat perkalian ataupun pembagian. Angka pada skala rasio menunjukkan nilai sebenarnya dari objek yang diukur.

Skala Rasio Skala Interval Skala Ordinal Skala Nominal
SKALA PENGUKURAN Skala Rasio Angka mempunyai sifat nominal, ordinal dan interval serta mempunyai nilai absolut dari objek yang diukur. Contoh: bunga BCA 7% dan bunga Mandiri 14%, maka bunga Mandiri 2 kali bunga BCA. Skala Interval Angka mengandung sifat ordinal dan mempunyai jarak atau interval. Contoh: 1. Saham sangat prospektif dengan harga saham Rp , 2. saham prospektif Rp Skala Ordinal Angka mengandung pengertian tingkatan. Contoh: ranking 1, 2, dan 3. Ranking 1 menunjukkan lebih tinggi dari ranking 2 dan 3. Skala Nominal Angka yang diberikan hanya sebagai label saja. Contoh: pria = 1, wanita = 2

DATA NOMINAL Variabel yg hanya dpt membedakan nilai datanya & tdk tahu nilai data yg lebih tinggi atau rendah Nilai datanya sederajat Contoh : Jenis kelamin, suku, agama dll

DATA ORDINAL Variabel yg dpt membedakan nilai datanya & sudah dpt diketahui tingkatan lebih tinggi atau rendah, tapi belum diketahui besar beda antar nilai datanya Contoh : Pendidikan, pangkat, stadium penyakit

DATA INTERVAL Variabel yg dpt dibedakan, diketahui tingkatannya & besar beda antar nilainya, namun belum diketahui kelipatan suatu nilai terhadap nilai yg lain & tdk mempunyai titik nol mutlak Contoh : Suhu : Benda A 60° & benda B 30 ° Benda A > B, beda panas 30 derajat, tdk bisa benda A panasnya 2 kali B, jika suhu 0 derajat tdk berarti benda tsb tdk panas (tdk punya nilai nol mutlak)

DATA RATIO Bisa dibedakan : ada tingkatan, ada besar beda, ada kelipatannya & ada nilai nol mutlak Contoh: BB, TB Berat A 30 kg, B 60 Kg : A < B, beda A & B 30 kg, berat B 2x lipat A Berat 0 kg, berarti tdk ada berat (tidak ada bendanya) shg ada nilai nol mutlak

REGRESI LOGISTIK

ANALISIS REGRESI Melihat ‘pengaruh’ variabel bebas/independet variabel/ thd variabel terikat/dependent variabel. Berdasarkan jumlah variabel bebas : Ada 1 variabel bebas  regresi sederhana Ada > 1 variabel bebas  regresi berganda Berdasar sifat hubungan kedua variabel : Bersifat linier  regresi linier Bersifat non-linier  regresi non linier Berdasar skala pengukuran variabel bebas dan terikat : Var. terikat semua var. bebas interval/rasio  regresi standar Var. terikat dan sebagian var. bebas interval tapi ada sebagian var. bebas nomilal/ordinal  regresi dummy Var. terikat berskala nominal/ordinal  regresi logistik/ordinal

REGRESI LOGISTIK Regresi logistik adalah sebuah pendekatan untuk membuat model prediksi seperti halnya regresi linear atau yang biasa disebut dengan istilah Ordinary Least Squares (OLS) regression. Perbedaannya adalah pada regresi logistik, peneliti memprediksi variabel terikat yang berskala dikotomi. Skala dikotomi yang dimaksud adalah skala data nominal dengan dua kategori, misalnya: Ya dan Tidak, Baik dan Buruk atau Tinggi dan Rendah. Apabila pada OLS mewajibkan syarat atau asumsi bahwa error varians (residual) terdistribusi secara normal. Sebaliknya, pada regresi logistik tidak dibutuhkan asumsi tersebut.

ASUMSI REGRESI LOGISTIK
Regresi logistik tidak membutuhkan hubungan linier antara variabel independen dengan variabel dependen. Variabel independen tidak memerlukan asumsi multivariate normality. Asumsi homokedastisitas tidak diperlukan Variabel bebas tidak perlu diubah ke dalam bentuk metrik (interval atau skala ratio). Variabel dependen harus bersifat dikotomi (2 kategori, misal: tinggi dan rendah atau baik dan buruk)

ASUMSI REGRESI LOGISTIK
Variabel independen tidak harus memiliki keragaman yang sama antar kelompok variabel Kategori dalam variabel independen harus terpisah satu sama lain atau bersifat eksklusif Regresi logistik dapat menyeleksi hubungan karena menggunakan pendekatan non linier log transformasi untuk memprediksi odds ratio. Odd dalam regresi logistik sering dinyatakan sebagai probabilitas.

PERSAMAAN REG. LOGISTIK
Persamaan Regresi Logistik : Ln: Logaritma Natural. B0 + B1X: Persamaan yang biasa dikenal dalam OLS. Sedangkan P Aksen adalah probabilitas logistik yang didapat rumus sebagai berikut: Di mana: exp atau ditulis "e" adalah fungsi exponen. Dengan model persamaan di atas, tentunya akan sangat sulit untuk menginterprestasikan koefisien regresinya. Oleh karena itu maka diperkenalkanlah istilah Odds Ratio atau yang biasa disingkat Exp(B) atau OR. Exp(B) merupakan exponen dari koefisien regresi

Pada regresi logistik tidak ada nilai "R Square" untuk mengukur besarnya pengaruh simultan beberapa variabel bebas terhadap variabel terikat. Dalam regresi logistik dikenal istilah Pseudo R Square, yaitu nilai R Square Semu yang maksudnya sama atau identik dengan R Square pada OLS. Jika pada OLS menggunakan uji F Anova untuk mengukur tingkat signifikansi dan seberapa baik model persamaan yang terbentuk, maka pada regresi logistik menggunakan Nilai Chi-Square. Perhitungan nilai Chi-Square ini berdasarkan perhitungan Maximum Likelihood.

TAHAPAN REG. LOGISTIK 1. Analisis Tabulasi Silang
Analisis tabulasi silang ini juga dapat mendeskripsikan hubungan antara masing-masing variabel penjelas terhadap variabel respon. Tabulasi silang digunakan untuk melihat bagaimana distribusi kedua variabel jatuh dalam sel-sel dalam tabel sebagai dasar untuk menyimpulkan hubungan antara variabel-variabel penelitian. 2. Uji Chi-Square ( 𝒙 𝟐 ) bertujuan untuk menguji keterkaitan masing-masing variabel independen / penjelas (X ) dengan variabel dependen/respon (Y ) 3. Pemodelan dengan Regresi Logistik a. Uji Signifikansi Model  menguji kesesuaian model dengan melihat semua variabel penjelas di dalam model. b. Pengujian Parameter  Untuk menguji signifikansi (keberartian) perbedaan resiko kedua kelompok individu didalam populasi diperhatikan hipotesis  memakai Uji Wald c. Odds Ratio  perbandingan tingkat resiko antara dua nilai variabel penjelas/independen

Reg. Logistik Multinomial
JENIS REG. LOGISTIK Var. Dependen terdiri dari 2 kategori Reg. Logistik Biner Var. Dependen terdiri lebih dari 2 kategori Reg. Logistik Multinomial Regresi Logistik

REG. LOGISTIK BINER Variabel Label Skala Kategori Dependen Y
Y Berat badan bayi waktu lahir Ordinal 1 = tidak BBLR 0 = BBLR Independen X1 Usia Wanita Kontinue X2 Daerah Tempat Tinggal Nominal 1 = perkotaan 2 = pedesaan * X3 Tingkat Pendidikan Tertinggi yang ditamatkan 1 = > SLTP 2 = <= SLTP * X4 Akses terhadap koran 1 = Ada 2 = tidak ada * X5 Akses terhadap radio X6 Akses terhadap televisi X7 Status Bekerja 1 = bekerja 2 = tidak bekerja *

REG. LOGISTIK MULTINOMIAL
Variabel Label Skala Kategori Dependen Y Tingkat Pengetahuan Wanita Terhadap HIV/AIDS Ordinal 2 = tinggi 1 = sedang 0 = rendah * Independen X1 Usia Wanita Kontinue X2 Daerah Tempat Tinggal Nominal 1 = perkotaan 2 = pedesaan * X3 Tingkat Pendidikan Tertinggi yang ditamatkan 1 = > SLTP 2 = <= SLTP * X4 Akses terhadap koran 1 = Ada 2 = tidak ada * X5 Akses terhadap radio X6 Akses terhadap televisi X7 Status Bekerja 1 = bekerja 2 = tidak bekerja * X8 Sumber informasi tentang HIV/AIDS 1 = media massa 2 = media lainnya 3 = kombinasi 1 & 2 *

Aplikasi Regresi Logistik

Aplikasi Regresi Logistik terhadap data Susenas
Membangun model berdasarkan penelitian terdahulu/mengembangkan Model yang ada Mendefinisikan variable Melakukan Uji Hipotesa Pada presentasi ini akan dibahas tentang : Variabel-variabel yang berpengaruh terhadap fertilitas di Prov. Gorontalo Sumber Data : Susenas 2003

Model Sosiologi Fertilitas
n g k u a Tingkat mortalitas Norma tentang besarnya keluarga variable antara Variabel antara F e r t l s Struktur sosial ekonomi Program KB Model Freedman menunjukkan bahwa ada pengaruh yang kuat antara lingkungan dan struktur sosial dan ekonomi. Struktur sosial ekonomi saling berpengaruh melalui norma mengenai besarnya keluarga dan norma mengenai peubah antara yang pada gilirannya mempengaruhi fertilitas melalui peubah antara. Model Freedman, 1975

Var. struktur sosial ekonomi:
Kerangka Penelitian Var. Lingkungan: Umur Ibu Daerah Tempat Tinggal Var. Terikat: Jumlah anak lahir hidup wanita usia tahun Var. Antara: Umur Perkawinan Pertama Pemakaian Alat Kontrasepsi Lama Berstatus Kawin Var. struktur sosial ekonomi: Tingkat Pendidikan Tingkat Pendapatan Status Pekerjaan Ibu Variabel Bebas / Independen Variabel Terikat / Dependen Umur Ibu Jumlah anak lahir hidup wanita usia 15-49 tahun Daerah Tempat Tinggal Tingkat Pendidikan Tingkat Pendapatan Status Pekerjaan Ibu Umur Perkawinan Pertama Pemakaian Alat Kontrasepsi Lama Berstatus Kawin

REG. LOGISTIK BINER Variabel Label Skala Kategori Dependen Y
Y jumlah anak yang dilahirkan hidup oleh wanita pernah kawin yang berusia tahun Ordinal 1 = > 2 anak 0 = 0-2 Independen X1 Umur Ibu Kontinue X2 Daerah Tempat Tinggal Nominal 0 = perkotaan 1 = pedesaan X3 Tingkat Pendidikan 0 = SMU keatas 1 = <= SMP X4 Tingkat Pendapatan 0 = tgkt pengeluaran dibawah rata2 1 = tgkt pengeluaran diatas rata2 X5 Status Pekerjaan Ibu 0 = bekerja 1 = tidak bekerja X6 Umur Perkawinan Pertama 0 = > 19 tahun 1 = <= 19 tahun X7 Pemakaian Alat Kontrasepsi 0 = memakai alat kontrasepsi 1 = tidak memakai alat kontrasepsi

Hasil penelitian terdahulu….
Umur ibu : Surbakti (1984), bahwa hubungan antara umur dan banyaknya anak yang dilahirkan adalah positif yang berarti bahwa makin tua seorang wanita, banyaknya anak yang dilahirkan cenderung lebih banyak Daerah tempat tinggal : penduduk kota akan mempunyai tingkat fertilitas yang lebih rendah dibandingkan dengan tingkat fertilitas dari wanita yang bertempat tinggal di pedesaan.

Tingkat pendidikan : Ananta (1983) menyimpulkan bahwa kenaikan pendidikan suami, pendidikan istri, dan pengalaman hidup di kota cenderung meningkatkan fertilitas alamiah, akan tetapi pendidikan suami dan pendidikan istri tidak mempunyai pengaruh pada fertilitas yang diinginkan. Sementara itu pendidikan suami/istri mempunyai pengaruh meningkatkan penggunaan kontrasepsi dan pengalaman hidup di kota justru mengurangi probabilitas pengaturan kelahiran

Tingkat pendapatan : Reyeuk (1993) mengemukakan bahwa ada hubungan antara fertilitas dengan tingkat pendapatan, di mana makin rendah tingkat pendapatan jumlah anak yang akan dilahirkan semakin banyak. Ada hubungan terbalik antara pendapatan baik dengan angka kelahiran maupun dengan angka kematian bayi di negara-negara Afrika, akan tetapi bentuk yang berbalikan tersebut tidak terlihat untuk negara negara Asia (Saiful bahri, 1995).

Status Pendapatan Ibu: Penelitian Affandi (1981) di Jawa Timur menunjukkan bahwa ada perbedaan rata-rata fertilitas antara buruh pabrik dengan buruh non pabrik, meskipun telah dilakukan standardisasi umur. Kesimpulan Dixon (1976) dari hasil beberapa penelitian pada negara-negara sedang berkembang menunjukkan bahwa dengan mengubah situasi wanita dari kehidupan di dalam rumah saja menjadi wanita yang berproduksi mempunyai pengaruh terhadap fertilitas. Di mesir tingkat fertilitas wanita yang tidak bekerja, ini untuk kota dan desa tidak menunjukkan perbedaan yang signifikan. Keadaan di desa, pengaruh tingkat pendidikan, dan status ekonomi ikut mempengaruhi fertilitas (UN, 1973)

Lama Status Kawin: (Syaifuddin, 1993)mengemukakan bahwa usia perkawinan pertama mempunyai pengaruh yang kuat terhadap jumlah anak yang dilahirkan oleh wanita, karena makin cepat wanita melangsungkan perkawinan mengakibatkan sangat lama/panjang wanita tersebut dalam ikatan perkawinan dan mengalami masa subur/masa reproduksi.

Uji Chi Square Hasil Reg. Logistik
Pasangan Variabel df p-value (1) (2) (3) (4) Daerah Tempat Tinggal – Jumlah ALH 0,018 1 0,893 Umur Ibu – Jumlah ALH 238,897 0,000* Tingkat Pendidikan Ibu – Jumlah ALH 22,055 Status Pekerjaan Ibu - Jumlah ALH 16,104 Umur Perkawinan Pertama - Jumlah ALH 27,352 Lama Kawin - Jumlah ALH 270,695 Status Pemakaian Alat KB - Jumlah ALH 73,229 Tingkat Pendapatan - Jumlah ALH 35,123 Variabel daerah tempat tinggal tidak ada hubungan dengan Fertilitas

Variabel yang keluar dari model
Hasil Reg. Logistik Nilai – 2 Log Likelihood, Statistik Uji Rasio LikeLihood (G2),Derajat Bebas dan p-value pada Setiap Tahap Metode Seleksi Bertahap Tahap Variabel yang keluar dari model -2 Log Likelihood G2 df p-value (1) (2) (3) (4) (5) (6) (7) 1232,009 1 1674,072 442,063 7 14,07 0,000 2 Status Pekerjaan Ibu 1675,951 1,878 3,84 0.171 Dari hasil uji rasio likelihood didapatkan nilai G2 sebesar yang signifikansi pada taraf pengujian (α) sebesar 5 persen, sehingga dapat disimpulkan bahwa model dengan menyertakan seluruh variabel merupakan model yang terbaik.

Hasil Reg. Logistik Variabel Independen, Nilai Standar Error, Wald, Derajat Bebas, dan Signifikansidari Model Terbaik Variabel Independen S.E. Wald df Signifikansi (1) (2) (3) (4) (5) (6) Umur Ibu (X7) 1,269 0,169 56,189 1 0,000 Tingkat Pendidikan Ibu (X2) 0,795 0,176 20,396 Umur Perkawinan Pertama (X4) 0,703 0,133 27,927 Lama Kawin (X5) 0,937 0,172 29,841 Status Pemakaian Alat KB (X6) -1.058 0,141 56,533 Tingkat Pendapatan (X1) 0,514 0,136 14,359 Konstan 2,278 0,201 128,640

Model transformasi logit
p = adalah peluang untuk masuk kelompok jumlah ALH >2 anak (1 - p) = adalah peluang untuk tidak masuk kelompok jumlah ALH >2 anak X1 = adalah tingkat pendapatan X2 = adalah tingkat pendidikan ibu X4 = adalah umur perkawinan pertama X5 = adalah lama kawin X6 = adalah status pemakaian alat KB X7 = adalah umur ibu

95% Clasification for exp
Hasil Reg. Logistik Kontribusi Variabel yang Mempengaruhi Tingkat Fertilitas dari Model Terbaik (Odds Ratio) Variabel Exp 95% Clasification for exp Lower Upper (1) (2) (3) (4) Umur Ibu (X7) 3,557 2,553 4,957 Tingkat Pendidikan Ibu (X2) 2,215 1,568 3,127 Umur Perkawinan Pertama (X4) 2,020 1,557 2,623 Lama Kawin (X5) 1,824 3,573 Status Pemakaian Alat KB (X6) 0,347 0,263 0,457 Tingkat Pendapatan (X1) 1,672 1,282 2,181 Ibu yang berumur tahun memiliki kecenderungan memiliki jumlah anak >2 orang 3,557 kali dibandingkan dengan ibu yang berumur tahun

Contoh Aplikasi Regresi Logistik pada data Susenas lainnya :
Faktor-faktor yang mempengaruhi tingkat putus sekolah Faktor-faktor yang mempengaruhi keputusan wanita untuk ikut program KB Faktor-faktor yang mempengaruhi keputusan bermigrasi Faktor yang mempengaruhi berat badan lhir rendah pada bayi Dll…

Contoh Aplikasi Regresi Logistik pada bidang kesehatan :
Faktor-faktor yang mempengaruhi kelahiran bayi premature Resiko kanker paru-paru pada perokok Faktor yang mempengaruhi pemakaian alat kontrasepsi Dll…

SEKIAN DAN TERIMAKASIH

ANALISIS DATA KATEGORIK MENGGUNAKAN REGRESI LOGISTIK

Presentasi serupa

Presentasi berjudul: "ANALISIS DATA KATEGORIK MENGGUNAKAN REGRESI LOGISTIK"— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan

Masuk

Otorisasi melalui jaringan sosial:

ANALISIS DATA KATEGORIK MENGGUNAKAN REGRESI LOGISTIK

Presentasi serupa

Presentasi berjudul: "ANALISIS DATA KATEGORIK MENGGUNAKAN REGRESI LOGISTIK"— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan