MULTIPLE REGRESSION ANALYSIS (ANALISIS REGRESI GANDA) TUJUAN MENJELASKAN PRINSIP, MANFAAT ANALISIS REGRESI GANDA DAN INTERPRETASI HASIL
MRA ekstensi regresi garis lurus situasi lebih dari satu independen variabel dilibatkan dalam model. Beberapa hal yang harus diperhatikan: Sering sulit menentukan ‘the best model’ karena ada bbrp kemungkinan model; Sulit me-visualisasikan ‘the fitted model’ tidak bisa mem plot data dalam 1 grafik; Sering sulit menginterpretasikan ‘arti’ ‘the best-fitting model’ dalam kehidupan; Penghitungan MRA harus menggunakan komputer dengan program yg sudah diuji.
Model Regresi Ganda Data tekanan darah sistolik (TDS), Konsumsi garam sehari (KGS) dan Berat Badan (BB) TDS dipengaruhi oleh KGS dan BB modelnya TDS = b0+b1KGS+b2BB+E atau Y=b0+b1X1+b2X2+E bentuk umum model regresi ganda dengan k-independen variabel Y=b0+b1X1+b2X2+ ……… +bkXk+E dimana b0, b1, b2, ……, bk adalah ‘koefisien regresi’ yang harus di estimasi. Independen variabel X1, X2, ……., Xk merupakan variabel dasar namun dapat merupakan fungsi dari variabel dasar
Andai kita ingin mempelajari variasi berat badan (WGT) terhadap tinggi (HGT) dan umur (AGE) anak2. Variabel dependent Y=WGT, dua independent adalah X1=HGT dan X2=AGE. Datanya: WGT HGT AGE 64 57 8 71 59 10 53 49 6 67 62 11 55 51 58 50 7 77 48 9 56 42 76 61 12 68 WGT lbs, HGT inch, AGE yrs
Nilai prediksi dari persamaan adalah Data digunakan mempelajari hubungan antara WGT terhadap HGT dan AGE dan modelnya Y=b0+b1X1+b2X2+E X1 = HGT dan X2 = AGE dan nilai prediksi dari persamaan itu adalah X1=HGT, X2=AGE Nilai prediksi dari persamaan adalah Untuk mendapatkan ‘least square estimates’
Gambar2 berikut adalah scatter diagram data
Hubungan (+) HGT dan WGT (r1Y = 0.814) dan AGE dan WGT (r2Y=0.77) Bila kita analisa secara terpisah, kita memper-oleh hubungan (+) antara WGT dan HGT, dan WGT dan AGE Pertanyaan: Apakah kedua model tsb memberi-kan ‘the best fitting model?’ Bgmn kalau kedua IV (HGT dan AGE) dimasukkan dlm 1 model? Jawabannya cukup sulit utk dipastikan krn scatter diagram HGT & AGE juga ber korelasi (+) (r12=0.614). Hal-hal seperti ini harus diperhatikan dalam membuat model multiple regression
Asumsi Multiple regression Existence, setiap kombinasi nilai independen variabel X1, X2,……., Xk, nilai Y adl random dgn distribusi probabilitas dgn nilai means dan variance tertentu, Independence, setiap nilai Y adl independen satu sama lainnya; Linearity, nilai rata2 Y utk setiap kombinasi spesifik X1, X2, ……, Xk adl fungsi linear dr X1, X2, …., Xk artinya Atau
Komponen E merupakan komponen error yang merefleksikan perbedaan nilai2 Y dengan rata2 nilai 4. Homoscedasticity, nilai varians Y adl sama untuk setiap kombinasi nilai X1, X2, ….. Xk yaitu 5. Normality, untuk setiap kombinasi nilai2 X1,X2, ….., Xk, variabel Y terdistribusi secara normal
Menentukan ‘the best estimate’ dari ‘multiple regression analysis’ Dua pendekatan: ‘Least Square’ ‘The minimum variance’ keduanya memberikan hasil yang sama * Pendekatan ‘Least Square’ menggunakan ‘minimizes the sum of squares’ jarak antara nilai2 observasi dan nilai prediksi dari model regresi.
Maka nilai ‘sum of squares of deviation’ nilai Y dari nilai prediksi adalah Pemecahan ‘Least Square’ melibatkan nilai2 dan jumlahnya minimum Minimum ‘sum of squares’ disebut ‘residual sum of squares’ atau ‘error sum of squares’ atau ‘sum of squares about regression SSE
Pendekatan ‘Minimum Variance’ meng-estimasi persamaan regresi dgn mengguna-kan ‘minimum variance’ dari estimasi Setiap nilai estimasi merupakan satu fungsi linear dari nilai2 Y. Karena nilai2 Y diasumsikan berdistribusi normal maka setiap nilai estimasi juga berdistribusi normal dengan Standard Deviasi (SD) yang dapat dihitung
Hal-hal yang perlu diperhatikan dalam ‘Least Squares’ Setiap estimasi merupakan fungsi linear dari nilai2 Y. Karena nilai2 Y tersebut distribusinya normal maka nilai2 distribusinya normal 2. Persamaan regresi ‘least square’ merupakan kombinasi linear yang unik dari independen variabel X1, X2,….., Xk yg mempunyai korelasi maksimum dengan dependent variabel
Atau semua kemungkinan kombinasi linear dari bentuk b0+b1X1+b2X2+………+bkXk , dan kombinasi linear dengan korelasi adalah maksimum, dimana adalah nilai prediksi dari Y utk ith individu & adl mean dr karenanya, nilai adalah benar, artinya nilai2 prediksi adalah sama dengan nilai observasi
WGT=b0+b1HGT+b2AGE+b3(AGE)2+E Yang menghasilkan estimasi 3. Seperti regresi garis lurus adalah terkait dengan bivariat distribusi normal, MRA juga terkait dengan multiple distribusi normal. Sebagai contoh dari data yang kita punyai, kita bisa membuat ‘least square algorithme’ dengan model: WGT=b0+b1HGT+b2AGE+b3(AGE)2+E Yang menghasilkan estimasi Maka
Tabel ANOVA Multiple Regression Source df SS MS F R2 K=3 SSY-SSE= 693.06 231.02 9.47 0.78 Residual N-k-1= 8 SSE= 195.15 24.04 Total N-1=11 SSY= 888.25
Dari tabel ANOVA adalah total sum of squares merupakan total variabilitas dr nilai2 observasi Yi sebelum memperhitungkan efek bersama (joint effect) variabel2 HGT, AGE dan AGE2 adalah residual sum of squares atau sum of squares due to error merupakan jumlah nilai2 Y yg ber-variasi tanpa bisa dijelaskan setelah IV digunakan untuk memprediksi Y
adalah regression sum of squares dan mengukur variasi yang dapat diterangkan oleh independent variabel model regresi Dengan demikian: Total SS = Regression SS + Residual SS Nilai r2 menjelaskan tentang kesesuaian model yang terdiri dari HGT, AGE, (AGE)2 yang memprediksi variabel WGT
Latihan TDS IMT Um 135 28 45 122 32 41 130 31 49 148 37 52 146 29 54 129 47 162 60 160 36 48 144 23 44 180 46 64 166 39 59 138 40 51 152 56 140 35 134 30 50 145 34 142 57 58 137 33 53 132 149 120 43 126 161 38 63 170 62 TDS=Tekanan Darah Sistolik, IMT= Indeks Massa Tubuh, Um=Umur
Tugas: lakukan prediksi TDS dengan variabel independen IMT dan Umur Bekerja bersama di laboratorium Hitung Sum of Square for Regression (X) Hitung Sum of Square for Residual Hitung Means Sum of Square for Regression (X) Hitung Means Sum of Square for Residual Hitung nilai F Hitung nilai r2