# Asumsi Model Regresi Pemeriksaan Pola Sisaan (Residual) Kutner, Ch. 3

## Presentasi berjudul: "Asumsi Model Regresi Pemeriksaan Pola Sisaan (Residual) Kutner, Ch. 3"— Transcript presentasi:

Asumsi Model Regresi Pemeriksaan Pola Sisaan (Residual) Kutner, Ch. 3
Kuliah 10 Time Series Usman Bustaman, M.Sc.

Review Linear regression assumes that…
Asumsi Model Regresi: Linear regression assumes that… 1. The relationship between X and Y is linear 2. Y is distributed normally at each value of X 3. The variance of Y at every value of X is the same (homogeneity of variances) 4. The observations are independent Bagaimana mengetahui/mendeteksi bahwa asumsi tsb terpenuhi atau tidak?

Diagnosa Langkah awal: deteksi pola sebaran variabel bebas X
No special pattern Terdapat perulangan Data berakhiran nol M = median, H = Q1, Q3 Sebaran data simetris

Diagnosa  Residual analysis Deteksi pola sebaran variabel tak bebas Y
Problem: Y = f(X) Solver: Gunakan Sisaan (Residual)  observed error  true error 𝜀 𝑖 ~ iid N(0, 𝜎 2 )  jika model cocok, 𝑒 𝑖 refleksi dari 𝜀 𝑖  Residual analysis

Tak kenal maka tak sayang
Karakteristik Residual Rata-2 Varians Nonindependence: 𝑒 𝑖 = 0, 𝑋 𝑖 𝑒 𝑖 = 0 Standardized residual Maksud- nya?

6 pelanggaran penting 𝜀 𝑖 ~ iid N(0, 𝜎 2 )  heteroskedasticity
 Multicollinearity or Serial correlation  outlier  Non normality  Omitted variable bias

Non linearity problem Graphicle check: Plot residual vs predictor or residual vs fitted value Why? ... menghasilkan pola residual non linear (curvilinear) Pola non linier diprediksi menggunakan model linier ...

Non linearity problem Graphicle check: Plot residual vs predictor or residual vs fitted value Karakteristik pola linier Rata-2 = 0, varians konstan (stabil)  Null plot

Non linearity problem Berbagai macam pola non linier Non linier
Kombinasi Non linier & varians yg tidak konstan

Descriptive measure Mengukur “derajat kelinieran” dari hubungan antara variabel bebas dan tak bebas Koefisien determinasi R2:  mengukur proporsi dari variasi nilai Y yang dapat diterangkan oleh variabel X secara linier. Ingat, salah paham ttg R2: R2 tinggi  prediksi semakin baik …. R2 tinggi  model regresi cocok dgn datanya … R2 rendah (mendekati nol)  tidak ada hubungan antara variabel X dan Y …

REPRESENTASI GRAFIS R2

Linearity test Koefisien korelasi (r)  mengukur hubungan linier antara variabel Y dan X, Dalam RLS : r = 𝑅 2 Dalam RLB : Korelasi Pearson untuk melihat hubungan linier antar dua variabel. F test (ANOVA), untuk melihat apakah variabel X secara bersama-sama dapat menjelaskan hubungan linier antara variabe Y dan variabel-2 X. H0: 𝛽 1 = 𝛽 2 =…= 𝛽 𝑘 =0 H1: sedikitnya ada satu 𝛽 𝑖 ≠ 0, i = 1,2,…,k

Pencilan (outlier) Secara grafis dapat dilihat dari plot X vs 𝑌 , box plot, steam & leaf, dot plot, standardized residual Rule of thumb: |std residual| > 4  large Bisa diabaikan jika betul-2 berasal dari kesalahan pengukuran/pencatatan, salah hitung, rusaknya alat ukur, dll

Apa komentar anda terhadap gambar berikut?

Mendeteksi Outlier Pencilan dapat muncul dari variabel Y atau X atau dari kedua-2nya. Perhatikan pencilan 1-4 pada gambar ini: Pencilan karena nilai Y|X : …… Pencilan karena nilai X : ……

Mendeteksi Outlier Pencilan kadang mempengaruhi estimasi model regresi kadang tidak juga… Pencilan 1  berpengaruh / tidak berpengaruh Pencilan 2  berpengaruh / tidak berpengaruh Pencilan 3  berpengaruh / tidak berpengaruh Pencilan 4  berpengaruh / tidak berpengaruh

Mendeteksi Outlier Permasalahan timbul jika variabel bebas X tdd > 1 variabel. Plot residual seperti sebelumnya tidak begitu membantu mendeteksi variabel mana yang menyebabkan pencilan yg mempengaruhi hasil estimasi regresi.  menggunakan statistik: Komponen hii dari Hat matrix Studentized residual Cook’s Distance DFFFits … DFBetas …

Leverage outliers Komponen hii dari hat matrix
Variance ei = 0 jika hii = 1  artinya y obs = y prediksi (y observed tepat berada di garis regresi)

p = banyaknya parameter dlm model
Leverage outliers p = banyaknya parameter dlm model

N = 77

Distance outlier Studentized residual: Ciri-2:
Jika  obs. ke-i adalah distance outlier

Cook’s Distance, Di Ciri-2

Bagaimana mengatasinya?
Lakukan transformasi data: Akar Logaritma Fungsi trigonometri Dll Box Cox transformation…

KULIAH 11 Heteroskedasticity Serial correlation Multicollinerity
Normality Omitted variables

Heteroskedasticity

Varians residual tdk konstan
Prototype

Penyebab Error learning  misal: belajar mengetik
Sampel yang beragam  rumahtangga dgn pendptn, perusahaan berbagai level Adanya outlier Omitting variables Sebaran data tidak normal incorrect data transformation (e.g., ratio or first difference transformations) and incorrect functional form (e.g., linear versus log–linear models)  lebih sering terjadi pada data cross section

Efek thd estimasi BLUE? Linear Unbiased but not efficient

KOnsekuensi Bagaimana estimasi yg diperoleh terkait varians yg tidak konstan? - Signifikansi ? - CI ?  misleading …

Mendeteksi heteroskedasticity
Nature of problem (functional form review ) Periksa Grafik residual Tes statistik

Tes Statistik Bahwa residual berkorelasi dengan varians Park Test
 𝛽 signifikan  heteroskedastic  weakness: may not satisfy the OLS assumptions and may itself be heteroscedastic Glejser Test  weakness: the error term vi has some problems in that its expected value is nonzero, it is serially correlated and ironically it is heteroscedastic, some models are non linear.

Ex: Park & Glejser test

H0: homoskedastic H1: heteroskedastic

Goldfeld-Quandt Test: the heteroscedastic variance, σ2i , is positively related to one of the explanatory variables in the regression model, ex:   σ2i would be larger, the larger the values of Xi Weakness: - depend on which c is arbitrary, - for X > 1 Var, which X is correct to be ordered?

Ex: Y = Income, X = Consumption, n = 30, c = 4

Ex: Y = Income, X = Consumption, n = 30, c = 4

Breusch–Pagan–Godfrey Test
Weakness: - large sample needed  for small sample, depend much on normality assumption Ex:  So, H0:  Homoskedastic

ESS = SSR

Ex: 𝜒 2 1,5% =3,8414

White’s General Heteroscedasticity Test.
Weakness: more variables will consume more df. H0: homoskedastic Or H0:  , df = # parameter -1

Koenker–Bassett (KB) test.
H0: homoskedastic Or H0: 𝛼 2 =0 Tes hipotesis using t-test Obtain residual, then estimate

Other tests…..

Remedial Perhatikan 𝛽1 & 𝛽2 Reparameterize before analize !

Reparameterize before analize !

Practically, run OLS first, then run:
 consistent estimator  large sample needed

 𝛽 measure the elasticity

Other Remedial Procedure

Apa perbedaan kedua model ini?
Run the following (weighted) regression: Compare with the unweighted Apa perbedaan kedua model ini?

White suggests: For RLB:

Important notes

Tugas Bonus Pelajari Gujarati, Basic Econometrics, 14th edition,
Ch. 11, section 11.7

Presentasi serupa