ANALISIS REGRESI (REGRESSION ANALYSIS) Oleh: Erni Tri Astuti Sekolah Tinggi Ilmu Statistik Jakarta 2004
HUBUNGAN ANTAR VARIABEL Transformasi
REGRESI DAN KORELASI (Keduanya mempelajari hubungan antar variabel) Mempelajari bentuk hubungan antar variabel melalui persamaan matematis (RLS, RLB, Regresi non Linear). Hubungan bisa berupa hubungan sebab akibat. Dapat mengukur seberapa besar suatu variabel mempengaruhi variabel lain Dapat digunakan untuk melakukan peramalan nilai suatu variabel berdasarkan variabel lain
REGRESI DAN KORELASI (Keduanya mempelajari hubungan antar variabel) Mempelajari keeratan hubungan antar 2 variabel kuantitatif yang bisa dilihat dari besarnya angka, bukan tandanya Dapat mengetahui arah hubungan yang terjadi (berbanding lurus jika tandanya positif, dan berbanding terbalik jika tandanya negatif) Nilainya berkisar -1 sampai dengan 1 Tidak bisa menyatakan hubungan sebab akibat
(1) # kematian karena kekeringan di musim panas Korelasi yang tinggi tidak selalu berarti bahwa suatu variabel menyebabkan/mempengaruhi variabel yang lain Contoh: (1) # kematian karena kekeringan di musim panas # soft drink yang dikonsumsi di musin panas High positive correlation Apakah soft drink menyebabkan kematian? (2) Gaji guru dan jumlah $ yang diperoleh dalam penjualan minuman keras. Apakah guru membelanjakan uangnya untuk membeli minuman keras?
Regression Line and Regression Equation Dependent and Independent Variable Dependent Variable/Variabel Tak Bebas (Y): Variabel yang nilainya ditentukan oleh variabel lain. Diasumsikan bersifat random/stochastic Independent Variable/Variabel Bebas (X): Variabel yang nilainya ditentukan secara bebas (variabel yang diduga mempengaruhi variabel tak bebas). Diasumsikan bersifat fixed/non stochastic. Regression Line and Regression Equation
An Example Effect of Car Age on its Price (to what degree can Car Age predict Its Price) Effect of Woman Age on Her Fertility (to what degree can Woman Age predict Her Fertility level) Effect of A Person Height on His/Her Weight (to what degree can A Person Height predict His/Her Weight) Effect of Household Income to Their Consumption Expenditure (to what degree can Household Income predict Their Consumption Expenditure) Effect of Dow Jones Performance on Darts performance (to what degree can Dow Jones predict Dart performance) etc.
Contoh Ploting Data Dow vs Dart Relationship can be represented by line of best fit
Keterangan Ternyata titik-titik (plotting data) tersebut terlihat mengelompok di sekitar garis lurus Pada scatter plot tersebut, sebenarnya bisa ditarik beberapa garis yang dekat terhadap titik-titik tersebut Tujuan kita di sini adalah 1. Mencari garis yang paling tepat 2. Melakukan Peramalan 3. Ingin mengetahui hubungan yang terjadi (seberapa cepat Darts berubah pada saat Dow Jones berubah sebesar satu unit)
Beberapa Model Regresi Linear Models in which the parameters (0, 1, ..., k ) all have exponents of one are called linear models. First-Order Model with One Predictor Variable Second-Order Model with One Predictor Variable Second-Order Model with Two Predictor Variables with Interaction etc.
Persamaan Regresi Linear Sederhana Model : Y|X = 0 + 1X = E(Y|X) Jika (Xi,Yi) merupakan data berpasangan, maka titik tersebut akan menyimpang terhadap garis regresinya, sehingga persamaan regresinya menjadi Yi = 0 + 1 Xi + i Untuk sampel berukuran n, maka akan terdapat pasangan {(xi, yi); i = 1, 2, …, n} sehingga 0 dan 1 harus diestimasi menjadi b0 dan b1 Persamaan regresi sampelnya adalah yi = b0 + b1 xi + ei
Beberapa Asumsi Yi (Variabel Tak Bebas/Dependent Variable) merupakan random variable/bersifat stochastic Xi (Variabel bebas/Independent Variable) bersifat fixed/non stochastic (bukan merupakan random variable) E(i) = 0 E(i j) = 2 untuk i = j (Homoscedastic) E(i j) = 0 untuk i j (Non autocorrelation)
Beberapa Asumsi (Lanjutan) i merupakan random variable yang terdistribusi secara bebas dan indentik mengikuti distribusi normal dengan rata-rata 0 dan varian 2 atau biasa dituliskan sebagai i ~ NID(0, 2) Yi terdistribusi normal dengan varian sama seperti pada i (BUKTIKAN!) iid BAGAIMANA JIKA ADA ASUMSI YANG TIDAK TERPENUHI? BAGAIMANA MENDETEKSINYA? BAGAIMANA MENGUJI? BAGAIMANA ALTERNATIF SOLUSINYA?
Pendugaan/Estimasi Parameter
Least Squares Criterion Prinsipnya: Min Pada model regresi linear sederhana dengan asumsi yang telah diberlakukan, maka dipakai Metode Ordinary Least Squares (OLS) untuk mengestimasi parameter model Dengan OLS akan diperoleh
Pada Kasus Dow vs Dart diperoleh hasil b1 = 1.032 b0 = -2.490 Suppose that we want to predict Darts score for a new Dow Score of 25 We predict that Darts will be at 23.31 when Dow is at 25 Check with data: what is real value of Darts when Dow is 25
Prediction Residual
Example: Relationship between Car Age (X) and its Price (Y)
Prosedur Penghitungan untuk Estimasi Parameter
Regression line and data points for Car Age and Price Data
Sifat-sifat Estimator Least Squares Jika semua asumsi yang diberlakukan terhadap model regresi terpenuhi, maka menurut suatu teorema (Gauss Markov theorem) estimator tersebut akan bersifat BLUE (Best Linear Unbiased Estimator). Best = Terbaik, mempunyai varian yang minimum Linear = Linear dalam Variabel Random Y Unbiased = Tak bias Artinya estimator tersebut akan unbiased dan mempunyai varian yang minimum diantara semua estimator unbiased yang lain. BUKTIKAN!
Residual
Inferensi dalam Analisis Regresi Model Regresi Linear Sederhana Yi = 0 + 1Xi + i Dimana i merupakan random variabel yang terdistribusi NID(0,2) Contoh: Sebuah Perusahaan, Westwood Company, sedang meneliti tentang hubungan antara jumlah sparepart yang diproduksi (X) dengan jumlah jam kerja yang diperlukan (Y) dari 10 proses produksi terakhir. (Data ada di buku Neter and Wasserman, halaman 40)
Inferensi Tentang 1 Confidence Interval dan Uji Hipotesis Distribusi Sampling 1 Teorema : Kombinasi Linear dari r.v. normal akan terdistribusi normal. BUKTIKAN! Estimasi Varian =
Distribusi Sampling untuk BUKTIKAN! CI (1-) untuk Pada contoh Westwood Company, diperoleh n = 10 SSE = 60 MSE = 7.5 Sehingga CI 95 % untuk 1 adalah P(1.89 ≤ 1 ≤ 2.11) = 95 %
Uji Hipotesis Tentang 1 a. H0: 1 = 0 b. H0: 1 ≤ 0 c. H0: 1 ≥ 0 H1: 1 ≠ 0 H1: 1 > 0 H1: 1 < 0 Statistik Uji: Keputusan pada tingkat sign. : Tolak H0 jika a. b. c. Pada contoh Westwood Co., diperoleh t* = 42.58 t(0.975,8) = 2.306 dan t(0.95,8) = 1.860 Keputusan? Kesimpulan?
Inferensi Tentang 0 Akan mempunyai arti jika cakupan model memuat X = 0 Distribusi Sampling 0 BUKTIKAN! Est. Varian = Distribusi Sampling Untuk CI (1-) untuk 0
Pendekatan ANOVA dalam Analisis Regresi Dasar: Partisi dari Sum Squares Total (SST) dan derajat bebas SST SSE SSR df n – 1 n – 2 1 Rumus untuk penghitungan
Ilustrasi Geometris Partisi Jumlah Kuadrat Yi
Mean Squares (MS): SS dibagi dengan derajat bebasnya Pada Westwood Co., diperoleh SSR = 13600 dan SSE = 60, sehingga Tabel ANOVA untuk Regresi Linear Sederhana Source of Variation SS df MS E{MS} F* Regression 1 MSR Error n–2 MSE Total n–1
Anova tersebut dapat digunakan untuk menguji H0: 1 = 0 vs H1: 1 ≠ 0 Tabel ANOVA untuk Kasus Westwood Company Keputusan: Tolak H0 jika F* > F(1-;1, n-2) Dari tabel F, diperoleh F(0.95;1, 8) = 5,32 Kesimpulan? Source of Variation SS df MS F* Regression 13600 1 1813 Error 60 8 7.5 Total 13660 9
Equivalence of F Test and t Test Untuk tertentu, Statistik Uji F untuk H0: 1 = 0 vs H1: 1 ≠ 0 adalah equivalent dengan statistik uji t dua arah. Bukti: Koefisien Determinasi (r2) Mengukur proporsi keragaman total dari nilai observasi Y di sekitar rataannya yang dapat diterangkan oleh garis regresinya. Nilainya: 0 ≤ r2 ≤ 1
Linear Correlation Coefficient - Measure of strength of linear relationship The linear correlation coefficient ranges between –1 and 1.
Various degrees of linear correlation
Various degrees of linear correlation
Example: linear correlation coefficient for Car Age and Price Data
SPSS Printout for one Predictor R2, Percentage of Variance
Error of prediction Is regression Significant? Intercept Slope