Asumsi Model Regresi Pemeriksaan Pola Sisaan (Residual) Kutner, Ch. 3 Kuliah 10 Time Series Usman Bustaman, M.Sc.
Review Linear regression assumes that… Asumsi Model Regresi: Linear regression assumes that… 1. The relationship between X and Y is linear 2. Y is distributed normally at each value of X 3. The variance of Y at every value of X is the same (homogeneity of variances) 4. The observations are independent Bagaimana mengetahui/mendeteksi bahwa asumsi tsb terpenuhi atau tidak?
Diagnosa Langkah awal: deteksi pola sebaran variabel bebas X No special pattern Terdapat perulangan Data berakhiran nol M = median, H = Q1, Q3 Sebaran data simetris
Diagnosa Residual analysis Deteksi pola sebaran variabel tak bebas Y Problem: Y = f(X) Solver: Gunakan Sisaan (Residual) observed error true error 𝜀 𝑖 ~ iid N(0, 𝜎 2 ) jika model cocok, 𝑒 𝑖 refleksi dari 𝜀 𝑖 Residual analysis
Tak kenal maka tak sayang Karakteristik Residual Rata-2 Varians Nonindependence: 𝑒 𝑖 = 0, 𝑋 𝑖 𝑒 𝑖 = 0 Standardized residual Maksud- nya?
6 pelanggaran penting 𝜀 𝑖 ~ iid N(0, 𝜎 2 ) heteroskedasticity Multicollinearity or Serial correlation outlier Non normality Omitted variable bias
Non linearity problem Graphicle check: Plot residual vs predictor or residual vs fitted value Why? ... menghasilkan pola residual non linear (curvilinear) Pola non linier diprediksi menggunakan model linier ...
Non linearity problem Graphicle check: Plot residual vs predictor or residual vs fitted value Karakteristik pola linier Rata-2 = 0, varians konstan (stabil) Null plot
Non linearity problem Berbagai macam pola non linier Non linier Kombinasi Non linier & varians yg tidak konstan
Descriptive measure Mengukur “derajat kelinieran” dari hubungan antara variabel bebas dan tak bebas Koefisien determinasi R2: mengukur proporsi dari variasi nilai Y yang dapat diterangkan oleh variabel X secara linier. Ingat, salah paham ttg R2: R2 tinggi prediksi semakin baik …. R2 tinggi model regresi cocok dgn datanya … R2 rendah (mendekati nol) tidak ada hubungan antara variabel X dan Y …
REPRESENTASI GRAFIS R2
Linearity test Koefisien korelasi (r) mengukur hubungan linier antara variabel Y dan X, Dalam RLS : r = 𝑅 2 Dalam RLB : Korelasi Pearson untuk melihat hubungan linier antar dua variabel. F test (ANOVA), untuk melihat apakah variabel X secara bersama-sama dapat menjelaskan hubungan linier antara variabe Y dan variabel-2 X. H0: 𝛽 1 = 𝛽 2 =…= 𝛽 𝑘 =0 H1: sedikitnya ada satu 𝛽 𝑖 ≠ 0, i = 1,2,…,k
Pencilan (outlier) Secara grafis dapat dilihat dari plot X vs 𝑌 , box plot, steam & leaf, dot plot, standardized residual Rule of thumb: |std residual| > 4 large Bisa diabaikan jika betul-2 berasal dari kesalahan pengukuran/pencatatan, salah hitung, rusaknya alat ukur, dll
Apa komentar anda terhadap gambar berikut?
Mendeteksi Outlier Pencilan dapat muncul dari variabel Y atau X atau dari kedua-2nya. Perhatikan pencilan 1-4 pada gambar ini: Pencilan karena nilai Y|X : …… Pencilan karena nilai X : ……
Mendeteksi Outlier Pencilan kadang mempengaruhi estimasi model regresi kadang tidak juga… Pencilan 1 berpengaruh / tidak berpengaruh Pencilan 2 berpengaruh / tidak berpengaruh Pencilan 3 berpengaruh / tidak berpengaruh Pencilan 4 berpengaruh / tidak berpengaruh
Mendeteksi Outlier Permasalahan timbul jika variabel bebas X tdd > 1 variabel. Plot residual seperti sebelumnya tidak begitu membantu mendeteksi variabel mana yang menyebabkan pencilan yg mempengaruhi hasil estimasi regresi. menggunakan statistik: Komponen hii dari Hat matrix Studentized residual Cook’s Distance DFFFits … DFBetas …
Leverage outliers Komponen hii dari hat matrix Variance ei = 0 jika hii = 1 artinya y obs = y prediksi (y observed tepat berada di garis regresi)
p = banyaknya parameter dlm model Leverage outliers p = banyaknya parameter dlm model
N = 77
Distance outlier Studentized residual: Ciri-2: Jika obs. ke-i adalah distance outlier
Cook’s Distance, Di Ciri-2
Bagaimana mengatasinya? Lakukan transformasi data: Akar Logaritma Fungsi trigonometri Dll Box Cox transformation…
KULIAH 11 Heteroskedasticity Serial correlation Multicollinerity Normality Omitted variables
Heteroskedasticity
Varians residual tdk konstan Prototype
Penyebab Error learning misal: belajar mengetik Sampel yang beragam rumahtangga dgn pendptn, perusahaan berbagai level Adanya outlier Omitting variables Sebaran data tidak normal incorrect data transformation (e.g., ratio or first difference transformations) and incorrect functional form (e.g., linear versus log–linear models) lebih sering terjadi pada data cross section
Efek thd estimasi BLUE? Linear Unbiased but not efficient
KOnsekuensi Bagaimana estimasi yg diperoleh terkait varians yg tidak konstan? - Signifikansi ? - CI ? misleading …
Mendeteksi heteroskedasticity Nature of problem (functional form review ) Periksa Grafik residual Tes statistik
Tes Statistik Bahwa residual berkorelasi dengan varians Park Test 𝛽 signifikan heteroskedastic weakness: may not satisfy the OLS assumptions and may itself be heteroscedastic Glejser Test weakness: the error term vi has some problems in that its expected value is nonzero, it is serially correlated and ironically it is heteroscedastic, some models are non linear.
Ex: Park & Glejser test
H0: homoskedastic H1: heteroskedastic
Goldfeld-Quandt Test: the heteroscedastic variance, σ2i , is positively related to one of the explanatory variables in the regression model, ex: σ2i would be larger, the larger the values of Xi Weakness: - depend on which c is arbitrary, - for X > 1 Var, which X is correct to be ordered?
Ex: Y = Income, X = Consumption, n = 30, c = 4
Ex: Y = Income, X = Consumption, n = 30, c = 4
Breusch–Pagan–Godfrey Test Weakness: - large sample needed for small sample, depend much on normality assumption Ex: So, H0: Homoskedastic
ESS = SSR
Ex: 𝜒 2 1,5% =3,8414
White’s General Heteroscedasticity Test. Weakness: more variables will consume more df. H0: homoskedastic Or H0: , df = # parameter -1
Koenker–Bassett (KB) test. H0: homoskedastic Or H0: 𝛼 2 =0 Tes hipotesis using t-test Obtain residual, then estimate
Other tests…..
Remedial Perhatikan 𝛽1 & 𝛽2 Reparameterize before analize !
Reparameterize before analize !
Practically, run OLS first, then run: consistent estimator large sample needed
𝛽 measure the elasticity
Other Remedial Procedure
Apa perbedaan kedua model ini? Run the following (weighted) regression: Compare with the unweighted Apa perbedaan kedua model ini?
White suggests: For RLB:
Important notes
Tugas Bonus Pelajari Gujarati, Basic Econometrics, 14th edition, Ch. 11, section 11.7