Iwan Ariawan Departemen Biostatistik FKM-UI Analisis Diskriminan Iwan Ariawan Departemen Biostatistik FKM-UI
Definisi Analisis diskriminan adalah teknik statistik multivariat yang digunakan untuk menggolongkan subyek pada satu kelompok (dari k kelompok yang ada) Analisis diskriminan akan membuat fungsi diskriminan berdasarkan kombinasi linier dari variabel prediktor untuk menghasilkan diskriminasi terbaik antar kelompok Fungsi diskriminan dihasilkan dari sampel di mana telah diketahui subyek termasuk dalam kelompok yang mana
Contoh Sederhana Berdasarkan tabel di atas, dapatkah Anda menduga mobil yang digunakan berdasarkan gaji per bulan?
Contoh Sederhana Si L berpenghasilan Rp 12 juta/bln, apakah mobil yang digunakan? Berdasarkan data yang ada, Anda cenderung menebak mobilnya Corolla Altis Prinsip yang sama digunakan pada analisis diskriminan, tetapi menggunakan lebih banyak variabel sebagai prediktor
Analisis Diskriminan Analisis diskriminan dilakukan untuk menentukan prediktor pengguna internet Sampel 2316 1012 bukan pengguna internet 1304 pengguna internet Variabel prediktor: income, yrs of educ, age, employed, suburban, gender, children age < 17 yrs
Fungsi Diskriminan Fungsi diskriminan D = -2,231 + 0,021*Income + 0,195*Yrs Educ – 0,036*Age + 0,226*Employed + 0,290*Suburban + 0,030*Gender – 0,089*Chd < 17 yrs
Fungsi Diskriminan Jika ada seorang penghasilan 50, lama pendidikan 15 th, umur 30 th, bekerja, tinggal di kota, laki-laki & tidak punya anak Income = 50 Yrs educ = 15 Age = 30 Employed = 1 Suburban = 0 Gender = 1 Chd < 17 yrs = 0
Fungsi Diskriminan Fungsi diskriminan D = -2,231 + 0,021*Income + 0,195*Yrs Educ – 0,036*Age + 0,226*Employed + 0,290*Suburban + 0,030*Gender – 0,089*Chd < 17 yrs Maka skor diskriminannya: D = -2,231 + 0,021*50 + 0,195*15 – 0,036*30 + 0,226*1 + 0,290*0 + 0,030*1 – 0,089*0 D = 0,694
Group Membership OK, orang tersebut memiliki skor diskriminan 0,694, tapi pertanyaan belum terjawab: Ia pengguna internet atau bukan? Untuk menjawabnya kita harus tahu cut off skor diksriminan
Group Membership Pengguna internet memiliki skor rata-rata: 0,576 dan bukan pengguna memiliki skor rata-rata -0,742. Cut off skor = (0,576-0,742)/2 = -0,083 Jika skor diskriminan < -0,083 Bukan pengguna internet Jika skor diskriminan > -0,083 Pengguna internet
Peran Variabel Prediktor Unstandardized coeff tidak dapat digunakan untuk menentukan prediktor mana yg paling berperan, karena coeff dipengaruhi oleh satuan ukuran Untuk menentukan prediktor mana yang paling berperan digunakan standardized coefficient
Standardized Coefficient
Korelasi Cara lain untuk menilai kontribusi prediktor adalah dg menggunakan korelasi prediktor dg skor diskriminan
Hubungan Skor Diskriminan & Pengelompokkan Eigen Value Rasio antara between group sum of square dg within group sum of square Fungsi diskriminan yg baik memiliki perbedaan antar kelompok yg besar dan perbedaan dalam kelompok yg kecil Fungsi diskriminan yg baik Eigen Value besar
Eigen Value
Hubungan Skor Diskriminan & Pengelompokkan Wilks’ lambda Rasio within group sum of square dengan total sum of square 1-Wilks’ Lamba menggambarkan variasi skor diskriminan yang dapat dijelaskan oleh perbedaan kelompok Atau menggambarkan kemampuan fungsi diskriminan untuk membedakan subyek menurut kelompoknya Sama dengan R2 pada regresi linier
Wilks’ Lambda 30% (100-70%) variasi skor diskriminan dapat dijelaskan karena perbedaan kelompok pengguna & bukan pengguna internet
Sensitifitas & Spesifisitas Fungsi Diskriminan Fungsi diskriminan digunakan kembali pada sampel untuk menentukan subyek masuk ke kelompok yang mana Hasil penggelompokkan menurut fungsi diskriminan dibandingkan dengan kelompok yang sesungguhnya
Sensitifitas & Spesifisitas Fungsi Diskriminan
Uji Asumsi Dilakukan jika hasil analisis diskriminan akan digunakan pada populasi (inferensi) Asumsi: Multivariat normality Equal Variance Covariance Matrix Uji Asumsi Box’ M Test terlalu sensitif pada sampel besar Log Determinant
Box’ M Test H0:Variance/Covariance Matrix equal Hasil di atas Asumsi tidak terpenuhi
Log Determinant Log determinant tidak berbeda jauh sehingga dapat dikatakan asumsi equak variance/covariance terpenuhi. Box’ M test menyimpulkan assumsi tidak terpenuhi karena sampel besar uji terlalu sensitif
Contoh Aplikasi pada Penelitian Kedokteran Desertasi Jacub Pandelaki: Penggunaan Rasio Metabolit Kimia Otak dengan Magnetic Resonance Spectoscopy untuk Mendapatkan Fungsi Model Prediksi dalam Menentukan Derajata Astrositoma Penggunaan analisis diskriminan untuk menentukan diagnosis pasien: normal, astrositoma derajat rendah (ADR), astrositoma derajat tinggi (ADT)
Hasil Analisis Diperoleh 2 fungsi diskriminan F1 = -2,931 – (0,889*Cho/Cr) + (1,613*Lip/Cr) – (1,361*Lac/Cr) – (3,890*Mi/Cr) + (2,198*Glx/Cr) + (3,065*LL/Cr) + (3,411*Cho/NAA) F2 = -0,434 + (1,771*Cho/Cr) + (4,046*Lip/Cr) + (1,048*Lac/Cr) + (3,152*Mi/Cr) + (4,705*Glx/Cr) – (4,709*LL/Cr) – (1,777*Cho/NAA) Berdasarkan kedua fungsi tsb, sensitifitas u/ diagnosis normal 94,7%, ADR 81,8% dan ADT 75,0% Fungsi dpt digunakan u/prediksi diagnosis pasien astrositoma (tanpa perlu PA)
Contoh Penggunaan Kedua Fungsi Diskriminan Seorang pasien dilakukan MRS dengan hasil sbb:
Contoh Penggunaan Kedua Fungsi Diskriminan
Contoh Penggunaan Kedua Fungsi Diskriminan Jadi berdasarkan rasio metabolit otaknya, diagnosis pasien tersebut adalah astrositoma derajat tinggi