Analisa Data Statistik Chap 14: Regresi Linear Jamak (Multiple Linear Regression) Agoes Soehianie, Ph.D.

Slides:



Advertisements
Presentasi serupa
Teori Graf.
Advertisements

Statistika Deskriptif: Distribusi Proporsi
Kuswanto, Uji Normalitas  Untuk keperluan analisis selanjutnya, dalam statistika induktif harus diketahui model distribusinya  Dalam uji.
ANALISA BIVARIAT: KORELASI DAN REGRESI
STATISTIKA INFERENSI : UJI HIPOTESIS (SAMPEL GANDA)
BAB 8 Estimasi Interval Kepercayaan
Bulan maret 2012, nilai pewarnaan :
Analisa Data Statistik Chap 10b: Hipotesa Testing (Proporsi)
Analisa Data Statistik Chap 11: Regresi Linear
Analisa Data Statistik Chap 10a: Hipotesa Testing (Mean)
Analisa Data Statistik Chap 9a: Estimasi Statistik (Interval Kepercayaan Sampel Tunggal) Agoes Soehianie, Ph.D.
UKURAN PEMUSATAN Rata-rata, Median, Modus Oleh: ENDANG LISTYANI.
Korelasi dan Regresi Ganda
Bab 11A Nonparametrik: Data Frekuensi Bab 11A.
PENGUJIAN HIPOTESIS SAMPEL BESAR
Interval Prediksi 1. Digunakan untuk melakukan estimasi nilai X secara individu 2. Tidak digunakan untuk melakukan estimasi parameter populasi yang tidak.
PEMBANDINGAN BERGANDA (Prof. Dr. Kusriningrum)
Bab 11B
REGRESI LINIER BERGANDA
Statistika Parametrik
Analisis Variansi.
1 Analisis Variansi Statistika I (Inferensi) Ch. Enny Murwaningtyas 31 Maret 2009.
Analisis Variansi Satu Arah
Analisa Data Statistik Chap 11: ANOVA
Statistika Deskriptif
BAB 13 PENGUJIAN HIPOTESA.
Bab 6B Distribusi Probabilitas Pensampelan
Analisis Variansi.
UJI HOMOGENITAS DATA SATU VARIABEL UJI T DAN ANOVA
UKURAN PENYEBARAN DATA
REGRESI DAN KORELASI SEDERHANA
Uji Normalitas.
Bab 8B Estimasi Bab 8B
ESTIMASI MATERI KE.
Rabu 23 Maret 2011Matematika Teknik 2 Pu Barisan Barisan Tak Hingga Kekonvergenan barisan tak hingga Sifat – sifat barisan Barisan Monoton.
ANOVA DUA ARAH.
Pendugaan Parameter dan Besaran Sampel
Pengujian Hipotesis Parametrik 2
VIII. UJI HIPOTESIS Pernyataan Benar Salah Ada 2 Hipotesis Hipotesis H
Luas Daerah ( Integral ).
Uji Hipotesa.
REGRESI LINIER SEDERHANA
Analisis Regresi Kelompok 3 3SK1
NILAI RATA-RATA (CENTRAL TENDENCY)
VI. ESTIMASI PARAMETER Estimasi Parameter : Metode statistika yang berfungsi untuk mengestimasi/menduga/memperkirakan nilai karakteristik dari populasi.
Statistika 2 Regresi dan Korelasi Linier Topik Bahasan:
Selamat Datang Dalam Kuliah Terbuka Ini
Bulan FEBRUARI 2012, nilai pewarnaan :
AREAL PARKIR PEMERINTAH KABUPATEN JEMBRANA
Bab 10 Struktur Sekor Struktur Sekor
Metode Shapiro-Wilks dan Kolmogorov-Smirnov untuk Uji Normalitas
Bab 13A Nonparametrik: Data Peringkat I Bab 13A
PENGUJIAN HIPOTESA Probo Hardini stapro.
PENGUJIAN HIPOTESIS SAMPEL BESAR
Bab 9B Analisis Variansi Bab 9B
PENGUJIAN HIPOTESIS RATA-RATA (MEAN) 1 SAMPEL
HIPOTESIS & UJI VARIANS
Statistika Deskriptif: Statistik Sampel
SAMPLING DAN DISTRIBUSI SAMPLING
Bab 8A Estimasi 1.
DISTRIBUSI FREKUENSI.
Statistika Deskriptif: Distribusi Proporsi
PENGUJIAN HIPOTESIS SAMPEL BESAR
Teknik Numeris (Numerical Technique)
Korelasi dan Regresi Ganda
PENGUJIAN HIPOTESIS SAMPEL BESAR
Korelasi dan Regresi Linear Berganda
ANALISIS KORELASI DAN REGRESI LINIER
DISTRIBUSI PELUANG Pertemuan ke 5.
Analisa Data Statistik Chap 13: Regresi Linear (Lanjutan)
Transcript presentasi:

Analisa Data Statistik Chap 14: Regresi Linear Jamak (Multiple Linear Regression) Agoes Soehianie, Ph.D

LATAR BELAKANG Sering kali ada lebih dari 1 variabel independen (Xk) yang menentukan variabel dependen (Y). Sehingga model Regresi Jamak (Multiple Regression Model) diperlukan. Jikalau hubungan antara Y dan Xk linear maka model disebut Model Regresi Linear Jamak (Multiple Linear Regression Model). Untuk populasi model tsb, berarti nilai rata-rata Y akan diberikan oleh Y = β0 + β1X1 + β2X2 + ….+ βkXk Dan estimasi bagi Y yang diperoleh dari sampel adalah:

MENGHITUNG KOEFISIEN Misalkan dari sampel diperoleh data {Yi, X1i, X2i, …, Xki} untuk i=1,n maka model regresi linear jamaknya adalah: Dengan ei adalah random error. Memakai cara yg sama dengan regresi linear, didefinisikan SSE: Dengan diferensiasi thd b0, b1, dst hasilnya = 0, maka diperoleh satu set sistem persamaan linear bari b0,b1, ….

Persamaan Bagi Koefisien Sistem Persamaan Linear ini diselesaikan dengan metoda yg dikenal, misalnya Eliminasi-Gauss atau Gauss-Jordan, Dekomposisi LU dll

Contoh Sebuah studi tentang emisi NOx dari sebuah truk dilakukan untuk melihat pengaru dari kelembaban, suhu, dan tekanan udara mempengaruhi emisi NOx. Model yg ingin dites adalah: Dengan Y adalah kadar (ppm) dari NOx yg diemisi truk, X1 : kelembaban, X2 : suhu dan X3 : tekanan udara saat percobaan. Y = β0 + β1X1 + β2X2 + β3X3   NOX(ppm) Kelembaban(%) Suhu(F) Tekanan (Psi) No Y X1 X2 X3 1 0.9 72.4 76.3 29.18 2 0.96 34.3 77.1 29.24 3 10.7 79 29.78 4 1.1 12.9 67.4 29.39 5 1.15 8.3 66.8 29.69 6 1.03 20.1 76.9 29.48 7 31.5 29.63 8 0.78 96.6 78.7 29.29 9 0.82 107.4 86.8 29.03 10 0.95 54.9 70.9 29.37 Sum 9.79 449.1 756.8 294.08 Average 0.979 44.91 75.68 29.408

Matrix SPL bagi Koefisien Y = β0 + β1X1 + β2X2 + β3X3

Tabel Perhitungan Manual X1*X2 X1*X3 X2*X3 X12 X22 X32 X1Y X2Y X3Y 5524.12 2112.632 2226.434 5241.76 5821.69 851.4724 65.16 68.67 26.262 2644.53 1002.932 2254.404 1176.49 5944.41 854.9776 32.928 74.016 28.0704 845.3 318.646 2352.62 114.49 6241 886.8484 10.7 79 29.78 869.46 379.131 1980.886 166.41 4542.76 863.7721 14.19 74.14 32.329 554.44 246.427 1983.292 68.89 4462.24 881.4961 9.545 76.82 34.1435 1545.69 592.548 2267.012 404.01 5913.61 869.0704 20.703 79.207 30.3644 2422.35 933.345 2278.547 992.25 877.9369 34.65 84.59 32.593 7602.42 2829.414 2305.123 9331.56 6193.69 857.9041 75.348 61.386 22.8462 9322.32 3117.822 2519.804 11534.76 7534.24 842.7409 88.068 71.176 23.8046 3892.41 1612.413 2082.333 3014.01 5026.81 862.5969 52.155 67.355 27.9015 35223.04 13145.31 22250.455 32044.63 57594.06 8648.816 403.447 736.36 288.0946 3522.304 1314.531 2225.0455 3204.463 5759.406 864.8816 40.3447 73.636 28.80946 Σ Mean

Matrix SPL dan SOlusi = Mb = N Salah satu cara solusi : b =M-1 N M-1 10 449.1 756.8 294.08 b0 9.79 32044.63 35223.04 13145.31 b1 403.447 57594.06 22250.46 b2 736.36 8648.816 b3 288.0946 = Mb = N Salah satu cara solusi : b =M-1 N M-1 Y = 0.5455 -0.0025X1 – 0.0042X2 + 0.0293X3

Perluasan : Regresi Polinomial Model multiple regresi linear juga bisa langsung diterapkan untuk model regresi polinomial: Y = b0 + b1x + b2x2+b3x3 + ….+ bnxn Dengan analogi : x = x1 x2=x2 x3 = x3 …. Xn = xn dengan Substitusi ini semua rumus yang dipakai untuk menghitung koefisien b0, b1 dst bisa dipergunakan dengan penyesuaian seperlunya. Soal. Diberikan data berikut X 0 1 2 3 4 5 6 7 8 Y 9.1 7.3 3.2 4.6 4.8 2.9 5.7 7.1 8.8 Buatlah kurva regresi Y thd X jika Y = b0+b1X + b2X2 + b3X3

ANOVA UNTUK REGRESI JAMAK LINEAR Hipotesa yg ingin diperiksa adalah : H0 : β1= β2= β3= β4=… 0 berarti Y tidak bergantung semua Xk H1 : Paling tidak ada 1 nilai βk ≠ 0 Untuk memeriksa kebenaran hipotesa ini bisa digunakan F-test, dengan nilai F: Dengan v1=k dan v2=n-(k+1) dan test 1 ekor bagian atas. Jadi H0 ditolak Jika F > Fkritis SUmber Variasi Sum Squares Derajat Kebebasan Mean Square F Regresi SSR k MSR= SSR/k MSR/MSE Error SSE n-(k+1) MSE=SSE/ {n-(k+1)} TOTAL SST n-1

ANOVA: Sumber-sumber Variansi SSTot SSE SSR X : mean (X,Y)

TESTING INVIDUAL KOEFISIEN Untuk masing-masing koefisien, dapat dilakukan test hipotesa H0 : βk = 0 H1 : βk ≠ 0 Dengan mempergunakan variabel test: Variabel t ini terdistribusi menurut student-t dengan derajat kebebasan v=n-(k+1). Dengan Sbk adalah standard error dari koefisien bk. Perhitungan Sbk secara manual rumit, melibatkan elemen diagonal dari matrix variansi-kovariansi. (Lihat Text Book)

INTERVAL BAGI KOEFISIEN Interval kepercayaan 100(1-α)% bagi koefisien βk adalah: Variabel t ini terdistribusi menurut student-t dengan derajat kebebasan v=n-(k+1).

Contoh. (Y-Y' ) 2 (Y-Ym)2 (Y' - Ym)2 No X1 X2 X3 Y Prediksi Temp Insul   X1 X2 X3 Y Prediksi No Temp Insul Age Cost Y' (Y-Y' ) 2 (Y-Ym)2 (Y' - Ym)2 1 35 3 6 250 258.9 79.46 2002.56 2879.85 2 29 4 10 360 296.0 4098.12 23947.56 8232.56 36 7 165 176.7 137.01 1620.06 814.82 60 9 43 118.2 5648.75 26325.06 7584.99 5 65 92 91.8 0.05 12825.56 12877.12 30 200 246.1 2121.96 27.56 1665.85 355 335.1 396.44 22425.06 16858.22 8 290 307.8 317.44 7182.56 10519.96 21 11 230 264.6 1196.57 612.56 3521.41 55 120 176.0 3134.97 7267.56 856.10 54 12 73 26.2 2193.63 17490.06 32071.87 48 205 139.2 4333.23 0.06 4366.21 13 20 15 400 352.9 2218.25 37927.56 21801.03 14 39 320 231.9 7769.76 13167.56 707.76 72 70.2 3.26 17755.56 18240.30 16 272 310.2 1458.82 4455.56 11013.35 17 58 94 75.9 328.10 12376.56 16734.93 18 40 190 192.4 5.53 232.56 166.36 19 27 235 218.8 262.69 885.06 183.40 139 216.4 5991.23 4389.06 124.39 Sum 744 127 140 4105 41695 212916 171220 Mean 37.2 6.35 205.25 41616 210913 168341 Ym: Y mean Y’: Y Prediksi

Hipotesa Testing (Global) Hipotesa yg ingin diperiksa adalah : H0 : β1= β2= β3=0 berarti Y tidak bergantung semua Xk H1 : Paling tidak ada 1 nilai βk ≠ 0 Untuk memeriksa kebenaran hipotesa ini bisa digunakan F-test, dengan nilai F: Dengan jumlah data n=20 dan jumlah variabel independen k=3

Contoh. Dilakukan multiple regresi linear: Y = b0 + b1X1+ b2X2+ b3X3 Hasilnya adalah: b0 b1 b2 b3 Persamaan Regresinya: Yprediksi= Y = 427.19 – 4.583X1 -14.831X2+ 6.101X3 Dari model ini kemudian bisa dihitung: SStot=SSE+SSR

Contoh. Dari tabel diperoleh: SSE = 41 695 SSR = 171 200 SSTot = 212 916 Banyak data n=20, banyak variabel bebas k=3 SUmber Variasi Sum Squares Derajat Kebebasan Mean Square F Regresi SSR k MSR= SSR/k MSR/MSE Error SSE n-(k+1) MSE=SSE/ {n-(k+1)} TOTAL SSTot n-1 SUmber Variasi Sum Squares Derajat Kebebasan Mean Square F Regresi 171 200 3 57 073.5 21.9 Error 41 695 20-(3+1) 2606.0 TOTAL 212 916 19

Contoh. Dari tabel F untuk v1=3 danv2=16, dan tingkat signifikan α=0.05 Diperoleh nilai kritis F adalah F(3,16) = 3.24. Hasil perhitungan menunjukkan F=21.9. Karena 21.9 > 3.24 maka H0 ditolak, sehingga tidak benar kalau dikatakan bahwa X1, X2 dan X3 seluruhnya tidak menentukan nilai Y.

Line Fit

Koefisien Korelasi Jamak dan Determinasi Jamak Koefisien Determinasi Jamak (Multiple Determination) R2 adalah total variasi data Y yang bisa dijelaskan oleh model regresi, yaitu: Yaitu variansi karena regresi dibagi variasi total. Sedangkan R : koefisien korelasi jamak = Selain itu juga didefinisikan Adjusted R2 R2 selalu bertambah dengan penambahan variabel independen. R2adj memperhitungkan pengaruh ini, sehingga akan “menghukum” overfitted model.

Koefisien Korelasi Jamak dan Determinasi Jamak Dari tabel diperoleh: SSE = 41 695 SSR = 171 200 SSTot = 212 916 Banyak data n=20, banyak variabel bebas k=3 Selain itu juga didefinisikan Adjusted R2 Koefisien adjusted R2 baru berarti bilamana dalam pembentukan model ingin diketahui apakah penambahan variabel independen baru memang memperbaiki model atau tidak.

Hasil Output Excell

TESTING INVIDUAL KOEFISIEN Untuk masing-masing koefisien, dapat dilakukan test hipotesa H0 : β1 = 0 H0 : β2 = 0 H0 : β3 = 0 H1 : β1 ≠ 0 H1 : β2 ≠ 0 H1 : β3 ≠ 0 Dari output Excell Sb1 = standard error b1 = 0.772, maka t1 Hasil ini bisa dilihat juga di output Excell tsb (kolom tstat), demikian juga untuk t2 =-3.119 dan t3 = 1.521. Dari Output Excell hal itu bisa secara cepat dilihat pada nilai P-value yang menyatakan luas daerah sebelah kanan nilai t-hitung

TESTING INVIDUAL KOEFISIEN Test ini adalah test 2 ekor dengan derajat kebebasan v=n-(k+1) = 20-(3+1)=16. Untuk tingkat signifikan α = 0.05 maka t0.025 (v=16) = 2.120 (dari tabel). Berarti H0 di tolak jika thitung < -2.12 atau thitung > 2.12. Berarti dari t1 = -5.93 t2 =-3.119 dan t3 = 1.521, H0 ditolak untuk t1, t2 dan diterima untuk t3. Berarti variabel X1 (temp) dan X2(insulasi) memiliki pengaruh signifikan pada biaya Y (cost), sedangkan X3 (age) tidak berkontribusi secara signifikan thd Y(cost).

INTERVAL BAGI KOEFISIEN Interval bagi koefisien βk untuk tingkat kepercayaan 95% dapat juga disusun. Nilai t0.025 =2.12 untuk v=20-(3+1) Hasil tsb juga dapat dilihat pada output Excell. Pada kolom lower95% dan Upper 95%. Terlihat memang interval 95% bagi koefisien Age membentang dari -2.405 hingga 14.607!