LOGISTIC REGRESSION Logistic regression adalah regressi dengan binary untuk variabel dependen. Variabel dependen bersifat dikotomi dengan mengambil nilai 1 dan 0. Persamaan logistic regression dengan discriminat analysis : 1. Variabel dependennya non metrik 2. Tujuannya ingin menguji apakah probabilitas terjadinya variabel dependen dapat diprediksi dengan variabel independen. Misalnya untuk memprediksi perusahaan yang bangkrut dan tidak bangkrut.
Ilustrasi dalam regresi logistic Regresi logistic digunakan sebagai alternative yang terbaik dibandingkan analisis discriminan ketika variabel dependen hanya 2 kategori. (1) regresi logistic kurang dipengaruhi oleh tidak samanya variance atau covariance antar group. (2) regresi logistic dapat menangani variabel independent (kategori) dengan lebih mudah. (3) Regresi logistic mempunyai beberapa kesamaan dengan multiple regresi dalam hal intepretasi dan ukuran casewise diagnostic untuk menguji residual.
Penyajian variabel dependen dengan binary Nilai probabilitas dapat bernilai antara 0 dan 1, tetapi nilai prediksi harus dibatasi untuk semua range dari 0 dan 1. Untuk mendefinisikan batasan 0 dan 1, regresi logistik menggunakan asumsi hubungan antara variabel independen dengan dependen berupa kurva S (lihat gambar 5.9).Variabel independen pada tingkat yang paling rendah probabilitasnya mendekati 0. Ketika variabel independen meningkat, kurvanya juga meningkat, tetapi kemudian slopenya mulai menurun, pada berbagai tingkat variabel independen probabilitasnya akan mendekati 1 tetapi tidak pernah lebih dari 1. Persamaan regresi logistik tidak menghasilkan nilai pada variabel dependen, namun menghasilkan peluang kejadian pada variabel dependen
Nilai peluang yang dipakai sebagai ukuran untuk mengklasifikasikan pengamatan Fungsi distribusi peluang untuk y dengan parameter adalah P(Y=y)= y(1- )1-y dengan y= 0,1. Sehingga probabilitas untuk masing-masing kategori adalah P(Y=1)= dan P(Y=0) = 1- dengan E(y) = jadi 0 ≤ ≤ 1.
Dependen dengan binary Pada model regresi hal tersebut tidak dapat diakomodir karena adanya hubungan nonlinear yang melekat. Dalam banyak situasi peneliti tidak dapat menggunakan ordinary regression karena adanya beberapa asumsi yang dilanggar. bentuk error dari variabel diskrit dari distribusi binomial sebagai ganti dari distribusi normal, sehingga invalid untuk semua uji statistik dengan asumsi normalitas. variance dikotomous variable tidak konstan, sehingga menciptakan kejadian heteroskedasitas. Pelanggaran pada fitted value dimana nilai duga yang dihasilkan dari model regresi linear melebihi rentang 0 - 1
Estimasi model regresi logistik Multiple regression menggunakan metode least square yang meminimumkan perbedaan sum of square dari nilai aktual dengan nilai prediksi dari variabel dependen. Sifat nonlinear dari transformasi logistik mensyaratkan dengan prosedur yang berbeda, yaitu prosedur maximum likelihood, menggunakan cara yang berulang-ulang untuk menemukan ”most likely” estimasi dari koefisien.
logistic curve Curve tersebut menggambarkan data aktual yang fitted. Gambar 5.10 menggambarkan dua contoh hipotesis. Data aktual untuk kejadian yang terjadi atau tidak (0 atau 1) observasinya digambarkan pada bagian atas dan bawah kurva. Kejadian yang benar-benar terjadi untuk nilai masing-masing variabel independen (sumbu X). Pada gambar A logistic curve tidak fit karena ada beberapa data dari variabel independen yang distribusinya overlap baik untuk kejadian yang benar-benar terjadi maupun yang tidak terjadi. Sedangkan gambar B menunjukkan hubungan yang lebih baik dan logistic curve fit dengan data. Contoh tersebut sama dengan penggunaan scaterplott untuk variabel dependen maupun independen dalam regresi untuk menggambarkan ”best fit” dari korelasi.
Intepretasi koefisien Variabel dependen dalam regresi logistic ditransformasikan sehingga disebut logistic transformation. Ketika transformasi digunakan dalam regresi logistik maka koefisiennya sedikit banyak berbeda makna dengan regresi yang variabel dependennya metrik. E (yIx) = (1) Fungsi (x) merupakan fungsi non linear sehingga perlu dilakukan transformasi logit untuk memperoleh fungsi linear agar dapat dilihat hubungan antara variabel dependen (y) dengan variabel independen (x). Bentuk logit dari (x) dinyatakan sebagai g(x) yaitu : g(x) = ln (2)
odds ratio Prosedur untuk menghitung koefisien dari regresi logistik adalah membandingkan probabilitas dari terjadinya kejadian dengan probabilitas tidak terjadinya kejadian disebut sebagai odds ratio yang dirumuskan sebagai berikut : ln = β0 + β1 X1 + β2 X2 + .... + βpXp
Penilaian goodness of fit dari model estimasi. Model fit yang bagus memiliki nilai -2LL yang kecil. Minimum nilai -2LL adalah 0 (betul-betul fit mempunyai likelihood 1 dan -2LL adalah 0). Nilai persamaan likelihood yang bagus digambarkan sebagai perbedaan perubahan dalam memprediksi satu persamaan yang fit dibandingkan dengan yang lainnya. Transformasi logaritma dapat dilakukan dengan mengubah fungsi likelihood digantikan dengan fungsi log likelihood. Fungsi logaritma bersifat monoton naik, sehingga jika log-likelihood mencapai maksimum maka fungsi likelihood juga demikian. Bentuk fungsi yang dimaksimumkan adalah : LL= log(L) =
Statistical significance Ada 2 pengujian untuk signifikansi model, yaitu : Chi-square untuk mengubah nilai -2LL dari model dasar yang dalam multiple regresi adalah uji F. Model dikatakan fit apabila nilai chi-squarenya tidak signifikan, atau nilai -2LL paling rendah. Hosmer and lemeshow dari overall model fit yang mengindikasikan bahwa tidak ada perbedaan yang secara statistic signifikan antara klasifikasi yang diobservasi dengan yang diprediksi. Model dikatakan fit bila nilai Hosmer & lemeshow goodness of fit > 0,05
Penilaian goodness of fit dari model estimasi. Pengujian statistik chi-square berbeda dengan nilai R2 sebagai ukuran overall model fit yang digunakan sebagai koefisien determinasi dalam multiple regression. Periset dapat juga membangun nilai pseudo R2 (nagelkerke) untuk regresi logistic sama dengan nilai R2 dalam analisis regresi. R2 untuk model logit (R2logit) dapat dihitung dengan rumus : R2 logit =
Pengujian signifikansi dari koefisien Regresi logistic dapat untuk menguji hipotesis bahwa koefisiennya berbeda dari 0 (makna 0 adalah odds ratio tidak berubah dan probabilitasnya tidak berpengaruh). Dalam multiple regression nilai t digunakan untuk menilai signifikansi dari masing-masing koefisien. Regresi logistic menggunakan statistik yang berbeda yaitu wald statistic