SELEKSI VARIABEL DAN PEMILIHAN MODEL TERBAIK Gangga Anuraga, M.Si
PENDAHULUAN Salah satu tujuan di dalam analisis regresi adalah untuk mendapatkan model terbaik yang menjelaskan hubungan antara variabel independent dengan variable dependent, model terbaik adalah model yang seluruh koefisien regresinya berarti (significant) dan mempunyai kriteria model terbaik optimum.
KRITERIA MODEL TERBAIK PADA REGRESI
METODE UNTUK MENDAPATKAN MODEL TERBAIK (1) Metode Backward : Dimulai dengan model lengkap, kemudian variabel independen yang ada dievaluasi, jika terdapat variabel independen yang tidak signifikan dikeluarkan yang paling tidak signifikan. Dilakukan terus menerus sampai tidak ada lagi variabel independen yang tidak signifikan. Metode Forward : Variabel independen yang pertama kali masuk kedalam model adalah variabel yang mempunyai korelasi tertinggi dan signifikan terhadap variabel dependen, variabel yang masuk kedua adalah variabel yang korelasinya dengan variabel dependen adalah tertinggi kedua dan masih signifikan, dilakukan terus menerus samapi tidak ada lagi variabel independen yang signifikan.
METODE UNTUK MENDAPATKAN MODEL TERBAIK (2) Metode Stepwise : merupakan gabungan antara metode forward dan backward, variabel yang pertama kali maasuk adalah variabel yang korelasinya tertinggi dan signifikan terhadap variabel dependen, variabel yang masuk kedua adalah variabel yang korelasi parsialnya tertinggi dan masih signifikan, setelah variabel tertentu masuk kedalam model maka variabel lain yang ada didalam model dievaluasi, jika ada variabel lain yang tidak signifikan maka variabel tersebut dikeluarkan. Metode Best Subset : Metode ini menyajikan k buah model terbaik untuk model dengan 1,2,…,p variabel independen.
Contoh : X1 X2 X3 X4 X5 Y 15,57 2463 472,92 18 4,45 566,52 44,02 2048 1339,75 9,5 6,92 696,82 20,42 3940 620,25 12,8 4,28 1033,15 18,74 6505 568,33 36,7 3,9 1603,62 49,2 5723 1497,6 35,7 5,5 1611,37 44,92 11520 1365,83 24 4,6 1613,27 55,48 5779 1687 43,3 5,62 1854,17 59,28 5969 1639,92 46,7 5,15 2160,55 94,39 8461 2872,33 78,7 6,18 2305,58 128,02 20106 3655,08 180,5 6,15 3503,93 96 13313 2912 60,9 5,88 3571,89 131,42 10771 3921 103,7 4,88 3741,4 127,21 15543 3865,67 126,8 4026,52 252,9 36194 7684,1 157,7 7 10343,81 409,2 34703 12446,33 169,4 10,78 11732,17 463,7 39204 14098,4 331,4 7,05 15414,94 510,22 86533 15524 371,6 6,35 18854,45
METODE BACKWARD
METODE FORWARD
METODE STEPWISE
KORELASI PARSIAL Perbedaan utama antara korelasi dengan korelasi parsial ialah; pada korelasi antara variable X dengan Y hanya terdapat variable X dan Y saja, sedang pada korelasi par-sial antara variable X dengan Y terdapat variable lain, mi-sal Z, yang disebut sebagai variable pengoreksi. Korelasi parsial ini sangat berguna untuk memilih variabel predik-tor yang dimasukkan ke dalam model.
KORELASI PARSIAL Misal terdapat variabel respon Y dengan k prediktor, yaitu X1, X2, … , Xk.. Kemudian diregresikan Y terhadap X1, maka akan terbentuk model regresi : Y = 0 + 1 X1 + , dan timbul variabel baru, yaitu Y*, X*2, X*3, ... , X*k, dengan : Y* adalah sisaan/residual model Y = 0 + 1 X1 + , X*2 adalah sisaan model X2 = 02 + 12 X1 + , X*k adalah sisaan model Xk = 0k + 1k X1 + .
KORELASI PARSIAL Korelasi antara Y* dengan X*2 dinotasikan r2y.1, disebut korelasi parsial, dibaca “korelasi parsial antara X2 dengan Y, setelah kedua variabel tsb terkoreksi oleh X1”. Korelasi parsial ini dapat dinyatakan oleh persamaan berikut : Korelasi parsial yang lain : r3y.1 , r4y.1 , ... , rpy.1, dll.
CONTOH KORELASI PARSIAL PADA METODE STEPWISE (Langkah 1) Menggunakan data yang sama, didapatkan korelasi Y dengan X1, X2 X3, X4 X5
CONTOH KORELASI PARSIAL PADA METODE STEPWISE (Langkah 2) Regresikan Y dengan X1 dan Y dengan X1 kemudian tentukan nilai R-square tertinggi, dan pertahankan indikator tersebut.
CONTOH KORELASI PARSIAL PADA METODE STEPWISE (Langkah 3) Tentukan nilai Y* yang merupakan nilai residual dari regresi Y dengan X3 Dapatkan X1* yang merupakan residual dari regresi X1 dengan X3 Dapatkan X2* yang merupakan residual dari regresi X2 dengan X3 Dapatkan X4* yang merupakan residual dari regresi X4 dengan X3 Dapatkan X5* yang merupakan residual dari regresi X5 dengan X3
CONTOH KORELASI PARSIAL PADA METODE STEPWISE (Langkah 4) Dari langkah 3 didapatkan bahwa korelasi Y* dengan X2*, sehingga X2 dipertahankan kedalam model. Kemudian regresikan Y dengan X2 dan X3, dan lakukan kembali sesuai prosedur diatas untuk mendapatkan model terbaik yang masuk dalam persamaan regresi
CONTOH KORELASI PARSIAL PADA METODE STEPWISE (Langkah 5)
METODE BEST SUBSET Dengan menggunakan criteria Cp-Mallows dan MSE terkecil diperoleh model terbaik yang mengandung variabel X2,X3 dan X5. Sehingga model terbaik
TERIMA KASIH