PEMBENTUKAN MODEL RLB Kuliah ke 8 anareg Dosen: usman bustaman.

Presentasi berjudul: "PEMBENTUKAN MODEL RLB Kuliah ke 8 anareg Dosen: usman bustaman."— Transcript presentasi:

PEMBENTUKAN MODEL RLB Kuliah ke 8 anareg Dosen: usman bustaman

Model building algoritm Data collection & preparation: experimental or not  control experiment  control experiment with covariates  confirmatory observational studies  explanatory observational studies (explanatory) Variable selection Model refinement/selection Model validation Focus pada kuliah 8:  (explanatory) Variable selection

Model building A B

A B

(explanatory) Variable selection Memilih variabel bebas yang cukup menjelaskan/memprediksi variabel tak bebas, sehingga Kontribusi variabel bebas lain (yang tidak masuk dalam model) dapat diabaikan. Pertimbangan: Menjelaskan (explanatory) vs Memprediksi (prediction) Pertimbangan teoritis vs pertimbangan statistik Omitting variable bias vs parsimony  best subset (explanatory) variables

Sebelum itu… Cek dependent/ndependent variabel  transformasi atau tdk? - histogram, normality plot Cek hubungan antar variabel - pearson correlation - scatter plot matrix

Cth: Dependent var.

Cth: independent var.

How to…. All possible regression

How to… w/ p = jumlah parameter = 1,2,3,…, P SSR p = Sum square regression w/ p parameter (incl. β 0 ) SSE p = Sum square error w/ p parameter (incl. β 0 ) SSTO = Sum square total Goal: to find the point where adding more X variables is not worthwhile because it leads to a very small increase in R 2.

Cth: regresi dgn hanya X 4 dlm model:

Using plot

How to… w/ MSE(p) sangat dipengaruhi oleh p  p  akan ikut   use adjusted by df ( )  only depent on MSE  use MSE(p)  Subset X yg meminimumkan MSE(p) atau mendekati minimum sdmk shg penambahan variabel “tak berguna”

Cth: regresi dgn hanya X 4 dlm model:

Using MSE(p) plot

How to … w/ C p Estimator  If bias = 0  Total MSE(p) Bias Random error Buktikan !

How to … w/ C p Jika diplot C p vs p:  model dgn bias kecil akan berada sekitar garis Cp = p  model yang bias akan berada di atas garis Cp = p So best subset is: Memiliki nilai Cp kecil  MSE kecil, atau Bernilai sekitar p  bias kecil Bgm kalau Cp kecil tapi bias ?

Using Cp Plot

Kendala …. All possible regression mengandung 2(p-1) model yang harus diteliti,…. Jika p-1 = 10  ada 1024 model yang harus diteliti…   gunakan komputer (buat algoritma)  pilih 5 atau 3 model terbaik  sometimes inefficient

Stepwise regression Prosedur untuk memilih best subset regression Manual? …. Jangan buat susah hidup yg sudah susah Gunakan Komputer ! Steps: 1. mulai dengan all possible RLS, hitung F* k F* k dengan nilai terbesar dan > nilai ttt masuk sebagai kandidat  ≈ Forward selection

Stepwise regression 2. misal X4 terpilih pada step 1, maka lakukan all possible RLB dgn 2 variabel, lalu hitung F* k F* k dengan nilai terbesar dan > nilai ttt masuk sebagai kandidat 3. pertimbangkan adakah dari variabel X dari model pada step sebelumnya ada yang perlu di”buang” dari model, dengan kriteria F*k bernilai paling kecil dan < nilai ttt  ≈ backward elimination 4. ulangi step 2 dan 3 hingga tak ada lagi variabel yang “layak” untuk masuk dalam model  best model

How to…. w/ stepwise regression

Presentasi serupa