PEMBENTUKAN MODEL RLB Kuliah ke 8 anareg Dosen: usman bustaman
Model building algoritm Data collection & preparation: experimental or not control experiment control experiment with covariates confirmatory observational studies explanatory observational studies (explanatory) Variable selection Model refinement/selection Model validation Focus pada kuliah 8: (explanatory) Variable selection
Model building A B
A B
(explanatory) Variable selection Memilih variabel bebas yang cukup menjelaskan/memprediksi variabel tak bebas, sehingga Kontribusi variabel bebas lain (yang tidak masuk dalam model) dapat diabaikan. Pertimbangan: Menjelaskan (explanatory) vs Memprediksi (prediction) Pertimbangan teoritis vs pertimbangan statistik Omitting variable bias vs parsimony best subset (explanatory) variables
Sebelum itu… Cek dependent/ndependent variabel transformasi atau tdk? - histogram, normality plot Cek hubungan antar variabel - pearson correlation - scatter plot matrix
Cth: Dependent var.
Cth: independent var.
How to get the best subset… All possible regression Forward selection Backward elimination Stepwise regression
How to…. All possible regression
How to… w/ p = jumlah parameter = 1,2,3,…, P SSR p = Sum square regression w/ p parameter (incl. β 0 ) SSE p = Sum square error w/ p parameter (incl. β 0 ) SSTO = Sum square total Goal: to find the point where adding more X variables is not worthwhile because it leads to a very small increase in R 2.
Cth: regresi dgn hanya X 4 dlm model:
Using plot
How to… w/ MSE(p) sangat dipengaruhi oleh p p akan ikut use adjusted by df ( ) only depent on MSE use MSE(p) Subset X yg meminimumkan MSE(p) atau mendekati minimum sdmk shg penambahan variabel “tak berguna”
Cth: regresi dgn hanya X 4 dlm model:
Using MSE(p) plot
How to … w/ C p Estimator If bias = 0 Total MSE(p) Bias Random error Buktikan !
How to … w/ C p Jika diplot C p vs p: model dgn bias kecil akan berada sekitar garis Cp = p model yang bias akan berada di atas garis Cp = p So best subset is: Memiliki nilai Cp kecil MSE kecil, atau Bernilai sekitar p bias kecil Bgm kalau Cp kecil tapi bias ?
Using Cp Plot
Kendala …. All possible regression mengandung 2(p-1) model yang harus diteliti,…. Jika p-1 = 10 ada 1024 model yang harus diteliti… gunakan komputer (buat algoritma) pilih 5 atau 3 model terbaik sometimes inefficient
Stepwise regression Prosedur untuk memilih best subset regression Manual? …. Jangan buat susah hidup yg sudah susah Gunakan Komputer ! Steps: 1. mulai dengan all possible RLS, hitung F* k F* k dengan nilai terbesar dan > nilai ttt masuk sebagai kandidat ≈ Forward selection
Stepwise regression 2. misal X4 terpilih pada step 1, maka lakukan all possible RLB dgn 2 variabel, lalu hitung F* k F* k dengan nilai terbesar dan > nilai ttt masuk sebagai kandidat 3. pertimbangkan adakah dari variabel X dari model pada step sebelumnya ada yang perlu di”buang” dari model, dengan kriteria F*k bernilai paling kecil dan < nilai ttt ≈ backward elimination 4. ulangi step 2 dan 3 hingga tak ada lagi variabel yang “layak” untuk masuk dalam model best model
How to…. w/ stepwise regression