Chapter 12 Simple Linear Regression
Tujuan Perkuliahan Yang akan dibahas pada bab ini: Bagaimana menggunakan analisis regresi untuk melakukan prediksi terhadap variabel dependen (tergantung) berdasarkan variabel independen (bebas) Bagaimana mengartikan koefisien regresi b0 dan b1 Bagaimana mengevaluasi asumsi dari analisis regresi dan menguji apakah asumsi tersebut sudah sesuai atau tidak bagaimana mengevaluasi asumsi dari analisis regresi dan menguji apakah asumsi tersebut sesuai atau tidak
Korelasi vs. Regresi Diagram scatter dapat digunakan untuk menunjukkan hubungan antara dua variabel Analisis korelasi digunakan untuk mengukur kekuatan hubungan antara dua variabel (hubungan linier) Korelasi hanya mengukur kuat atau tidaknya hubungan antara dua variabel Tidak terdapat efek sebab akibat yang diterapkan melalui korelasi Tidak terdapat efek sebab akibat yang diterapkan dengan korelasi
Analisis Regresi Analisis Regresi digunakan untuk : Memprediksi nilai variabel dependen berdasarkan nilai dari variabel independen Menjelaskan pengaruh perubahan yang terjadi pada variabel independen terhadap variabel dependen Variabel Dependen: variabel yang akan diprediksi atau dijelaskan Independent variable: variabel yang menjadi penyebab
Model Regresi Simpel Linier Hanya terdiri dari satu variabel independen, X Hubungan antara variabel X dan Y digambarkan sebagai fungsi linier Perubahan pada Y diasumsikan disebabkan oleh perubahan pada X Hubungan antara x dan y digambarkan sebagai fungsi linier
Tipe – Tipe Hubungan Hubungan Linier Hubungan Curvilinier Y Y X X Y Y
Tipe – Tipe Hubungan (lanjutan) Hubungan Kuat Hubungan Lemah Y Y X X Y
Tipe – Tipe Hubungan (lanjutan) Tidak ada Hubungan Y X Y X
Model Regresi Simpel Linier Random Error term Population Slope Coefficient Population Y intercept Independent Variable Dependent Variable Linear component Random Error component
Model Regresi Simpel Linier (lanjutan) Y Observed Value of Y for Xi εi Slope = β1 Predicted Value of Y for Xi Random Error for this Xi value Intercept = β0 Xi X
Persamaan Regresi Simpel Linier (Garis Prediksi) Persamaan regresi simpel linier mengandung estimasi garis regresi populasi Estimasi (atau prediksi) Y untuk observasi i Estimasi dari slope (kemiringan) regresi Estimasi dari intersep regresi Nilai X untuk observasi i Tingkat kesalahan individu secara acak ei memiliki nilai rata – rata 0
Metode Least Squares b0 dan b1 diperoleh dengan mencari terlebih dahulu nilai b0 dan b1 yang dapat meminimalkan perbedaan nilai sum of the squared antara Y dan :
Mencari Persamaan Least Square Koefisien b0 dan b1, serta hasil lain dari model regresi didapat melalui software Excel atau SPSS
Interpretasi dari slope dan intercept b0 adalah nilai estimasi rata – rata dari Y pada saat X bernilai nol b1 adalah estimasi perubahan rata – rata nilai Y yang disebabkan oleh perubahan satu unit X
Contoh Seorang agen penjualan rumah ingin mengetahui hubungan antara harga jual rumah dan ukuran rumah itu sendiri (diukur dengan square feet) Menggunakan 10 rumah sebagai sampel Variabel Dependen (Y) = harga rumah dalam $1000an Variabel Independen (X) = square feet
Data dari 10 rumah sampel Harga rumah $1000an (Y) Square Feet (X) 245 1400 312 1600 279 1700 308 1875 199 1100 219 1550 405 2350 324 2450 319 1425 255
Regression Statistics Excel Output Regression Statistics Multiple R 0.76211 R Square 0.58082 Adjusted R Square 0.52842 Standard Error 41.33032 Observations 10 ANOVA df SS MS F Significance F Regression 1 18934.9348 11.0848 0.01039 Residual 8 13665.5652 1708.1957 Total 9 32600.5000 Coefficients t Stat P-value Lower 95% Upper 95% Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386 Square Feet 0.10977 0.03297 3.32938 0.03374 0.18580 Persamaan regresi yang diperoleh:
SPSS Output
Manual Output
Tampilan Grafis Model harga rumah: titik (scatter plot) dan garis regresi Slope = 0.10977 Intercept = 98.248
Interpretasi dari Intercept, b0 b0 merupakan estimasi rata – rata nilai Y ketika nilai X adalah nol Pada contoh ini, tidak ada rumah yang berukuran 0 square feet, jadi b0 = 98.24833 hanya mengindikasikan bahwa, untuk rumah dalam contoh ini, $98,248.33 merupakan harga rumah yang tidak dijelaskan oleh ukuran rumah
Interpretasi dari Koefisien Slope, b1 b1 mengukur estimasi perubahan nilai rata – rata dari Y atas perubahan setiap satu unit X Pada contoh ini, b1 = .10977 menunjukkan bahwa nilai rata-rata rumah akan meningkat sebesar .10977($1000) = $109.77, untuk setiap pertambahan ukuran satu square foot
Prediksi menggunakan Analisis Regresi Prediksi harga untuk rumah dengan luas 2000 square feet: Maka prediksi harga rumah dengan luas 2000 square feet adalah 317.85($1,000s) = $317,850
Alat Ukur Variasi Total variasi dibagi menjadi dua bagian: Total Sum of Squares Regression Sum of Squares Error Sum of Squares dimana: = nilai rata – rata dari variabel dependen Yi = nilai observasi dari variabel dependen = nilai prediksi dari Y untuk nilai X yang given
Alat Ukur Variasi (lanjutan) SST = total sum of squares Mengukur variasi nilai Yi diseputar nilai rata-rata Y SSR = regression sum of squares Menjelaskan variasi hubungan dari variabel X dan variabel Y SSE = error sum of squares Variasi dari faktor – faktor lain yang diluar hubungan regresi antara variabel X dan variabel Y
Alat Ukur Variasi _ Y Yi SSE = (Yi - Yi )2 _ SST = (Yi - Y)2 _ (lanjutan) Y Yi Y SSE = (Yi - Yi )2 _ SST = (Yi - Y)2 _ Y _ SSR = (Yi - Y)2 _ Y Y X Xi
Koefisien Determinasi, r2 Koefisien Determinasi merupakan angka variasi total dari variabel dependen yang dijelaskan oleh variasi dari variabel independen Koefisien Determinasi juga sering disebut sebagai r-squared dengan notasinya r2 catatan:
SST = SSR
Contoh Perkiraan Nilai r2 Y r2 = 1 Hubungan linier sempurna dari variabel X dan Y: 100% dari variasi variabel Y dijelaskan oleh variasi variabel X X r2 = 1 Y X r2 = 1
Contoh Perkiraan Nilai r2 Y 0 < r2 < 1 Hubungan linier yang lemah antara variabel X dan Y : Sebagian tapi tidak semua variasi variabel Y dijelaskan oleh variasi dari variabel X X Y X
Contoh Perkiraan Nilai r2 Y Tidak terdapat hubungan linier antara variabel X dan Y : Nilai variabel Y tidak berpengaruh dengan variabel X. (tidak ada variasi variabel Y yang dijelaskan oleh variasi variabel X) X r2 = 0
Regression Statistics Excel Output Regression Statistics Multiple R 0.76211 R Square 0.58082 Adjusted R Square 0.52842 Standard Error 41.33032 Observations 10 ANOVA df SS MS F Significance F Regression 1 18934.9348 11.0848 0.01039 Residual 8 13665.5652 1708.1957 Total 9 32600.5000 Coefficients t Stat P-value Lower 95% Upper 95% Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386 Square Feet 0.10977 0.03297 3.32938 0.03374 0.18580 58.08% harga rumah dijelaskan oleh ukuran luas rumah, selebihnya oleh faktor lain yang tidak dijelaskan pada model ini
t Test for a Correlation Coefficient Hypotheses H0: ρ = 0 (no correlation between X and Y) H1: ρ ≠ 0 (correlation exists) Test statistic (with n – 2 degrees of freedom) Business Statistics, A First Course (4e) © 2006 Prentice-Hall, Inc.
Example: House Prices H0: ρ = 0 (No correlation) Is there evidence of a linear relationship between square feet and house price at the .05 level of significance? H0: ρ = 0 (No correlation) H1: ρ ≠ 0 (correlation exists) =.05 , df = 10 - 2 = 8 Business Statistics, A First Course (4e) © 2006 Prentice-Hall, Inc.
Example: Test Solution Decision: Reject H0 Conclusion: There is evidence of a linear association at the 5% level of significance d.f. = 10-2 = 8 a/2=.025 a/2=.025 Reject H0 Do not reject H0 Reject H0 -tα/2 tα/2 -2.3060 2.3060 3.329 Business Statistics, A First Course (4e) © 2006 Prentice-Hall, Inc.
Estimasi Standar Error Deviasi standar dari variasi variabel yang diobservasi seputar garis regresi dapat diestimasi sebagai berikut: dimana SSE = error sum of squares n = ukuran sampel
Regression Statistics Excel Output Regression Statistics Multiple R 0.76211 R Square 0.58082 Adjusted R Square 0.52842 Standard Error 41.33032 Observations 10 ANOVA df SS MS F Significance F Regression 1 18934.9348 11.0848 0.01039 Residual 8 13665.5652 1708.1957 Total 9 32600.5000 Coefficients t Stat P-value Lower 95% Upper 95% Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386 Square Feet 0.10977 0.03297 3.32938 0.03374 0.18580
Penarikan Kesimpulan Melalui Kemiringan Kurva Tingkat kesalahan (standard error) dari koefisien kemiringan regresi (b1) diuji dengan dimana: = Estimate of the standard error of the least squares slope = Standard error of the estimate
Regression Statistics Excel Output Regression Statistics Multiple R 0.76211 R Square 0.58082 Adjusted R Square 0.52842 Standard Error 41.33032 Observations 10 ANOVA df SS MS F Significance F Regression 1 18934.9348 11.0848 0.01039 Residual 8 13665.5652 1708.1957 Total 9 32600.5000 Coefficients t Stat P-value Lower 95% Upper 95% Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386 Square Feet 0.10977 0.03297 3.32938 0.03374 0.18580
Membandingkan Tingkat Kesalahan Standar (standard error) melalui Kemiringan Kurva mengukur variasi dari kemiringan garis regresi dengan sampel yang berbeda Y Y Mengukur variasi dari kemiringan garis regresi dengan sampel yang berbeda X X
Kesimpulan dari Uji Kemiringan Kurva: Uji t Uji t untuk kemiringan populasi Apakah terdapat hubungan linier antara X dan Y? Hipotesis: H0: β1 = 0 (tidak ada hubungan linier) H1: β1 0 (terdapat hubungan linier) Uji statistik: dimana: b1 = regression slope coefficient β1 = hypothesized slope Sb = standard error of the slope 1
Kesimpulan dari Uji Kemiringan Kurva: Uji t (lanjutan) Persamaan Regresi Simpel Linier: House Price in $1000s (y) Square Feet (x) 245 1400 312 1600 279 1700 308 1875 199 1100 219 1550 405 2350 324 2450 319 1425 255 Nilai tingkat kemiringan 0.1098 Apakah ukuran luas rumah mempengaruhi harga jual?
Kesimpulan dari Uji Kemiringan Kurva: Contoh penggunaan Uji t b1 H0: β1 = 0 H1: β1 0 Berdasarkan hasil Excel: Coefficients Standard Error t Stat P-value Intercept 98.24833 58.03348 1.69296 0.12892 Square Feet 0.10977 0.03297 3.32938 0.01039 t
Kesimpulan dari Uji Kemiringan Kurva: Contoh penggunaan Uji t (lanjutan) Uji Statistik: t = 3.329 b1 t H0: β1 = 0 H1: β1 0 Berdasarkan hasil Excel: Coefficients Standard Error t Stat P-value Intercept 98.24833 58.03348 1.69296 0.12892 Square Feet 0.10977 0.03297 3.32938 0.01039 d.f. = 10-2 = 8 Keputusan: Kesimpulan: Tolak H0 a/2=.025 a/2=.025 Terdapat bukti yang cukup untuk membuktikan bahwa ukuran rumah mempengaruhi harga jual Reject H0 Do not reject H0 Reject H0 -tα/2 tα/2 -2.3060 2.3060 3.329
Uji Signifikansi F Uji Statistik F: dimana Jumlah variabel independen pada model regresi Dengan mengikuti distribusi F dengan degrees of freedom numerator k dan denominator ( n – k - 1) (k = jumlah variabel independen pada model regresi)
Regression Statistics Excel Output Regression Statistics Multiple R 0.76211 R Square 0.58082 Adjusted R Square 0.52842 Standard Error 41.33032 Observations 10 ANOVA df SS MS F Significance F Regression 1 18934.9348 11.0848 0.01039 Residual 8 13665.5652 1708.1957 Total 9 32600.5000 Coefficients t Stat P-value Lower 95% Upper 95% Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386 Square Feet 0.10977 0.03297 3.32938 0.03374 0.18580 With 1 and 8 degrees of freedom P-value for the F Test
Uji Signifikansi F Uji Statistik: Keputusan: Kesimpulan: (lanjutan) Uji Statistik: Keputusan: Kesimpulan: H0: β1 = 0 H1: β1 ≠ 0 = .05 df1= 1 df2 = 8 Nilai Kritis: F = 5.32 Reject H0 at = 0.05 = .05 Terdapat bukti yang cukup bahwa ukuran rumah mempengaruhi harga jual F Do not reject H0 Reject H0 F.05 = 5.32