Analisis Regresi Regresi Linear Sederhana KULIAH KE 9 MMP UNRI
Pengantar Dua variabel numerik ingin diketahui hubungannya Dua variabel numerik salah satu variabel dianggap sebagai variabel yang mempengaruhi variabel lainnya Variabel yang mempengaruhi X, variabel bebas, variabel penjelas Variabel yang dipengaruhi Y, variabel tak bebas, variabel respon
Hati-hati menentukan variabel bebas dan variabel tak bebas Hubungan berat badan dan tinggi badan Apakah ada hubungan Kalau ada, mana yang bebas dan mana yang tak bebas
Perhatikan hubungan Y = a + bX X variabel bebas Y variabel tak bebas
Perhatikan penomena berikut Hasil panen dan banyak pupuk yang di gunakan Y = a + bX X Volume pupuk yang digunakan Y Hasil Panen
Bentuk Lain Regresi linear berganda Hasil panen tidak hanya ditentukan oleh volume pupuk yang diberikan, tapi juga curah hujan/pengairan X1 = volume pupuk (Var Bebas) X2 = Curah hujan/Pengairan ( ? Var Bebas) Y = ao + a1X1 + a2X2
Perhatikan bentuk regresi linear sederhana Y = a + bX ??? Bagaimana menentukan koefisien a dan koefisien b ???? Persamaan Regresi kita buat dari data sampel (penaksir)
Menentukan persamaan regresi Metoda tangan bebas Gambarkan titik-titik sampel Buat regresi penduganya Maka metoda ini tidak valid
Ini tidak valid karena ada kehendak yang subjektif
Pengantar Misalnya ingin melihat hubungan antara pengeluaran untuk iklan (ads expenditures, X) dengan penerimaan melalui penjualan (sales revenue, Y) Tahun 1 2 3 4 5 6 7 8 9 10 X 11 12 13 14 15 Y 44 40 42 46 48 52 54 58 56 60
Bagaimana menentukan a dan b
Rumus I
Mari kerja dengan exel untuk contoh berikut X = banyak pengunjung toko Y = banyak pembeli X 56 54 33 42 34 48 62 50 38 60 55 Y 46 28 44 26 29 39 23 36 37 Ini cara semi manual, nanti kita lihat dengan excel
Rumus ke dua
Ini cara semi manual, nanti kita lihat dengan excel
Memberi makna dari persamaan regresi Misalkan hubunan antara biaya iklan yang dikeluarkan (X) dengan penjualan adalah Y = 7.6 + 3.5333X Ingat bilang koefisian dari X (b > 0) berarti grarik Naik dari kiri ke kanan Jika b < 0 grafik Turun dari kiri ke kanan
Interpretasi a dan b a = besarnya nilai Y ketika X sebesar 0 b = besarnya perubahan nilai Y ketika X berubah satu satuan. Tanda koefisien b menunjukkan arah hubungan X dan Y Pada kasus ilustrasi a = 7.6 = besanya pendapatan jika tidak ada belanja iklan adalah 7.6 b = 3.533 = jika belanja iklan dinaikkan 1 juta dolar maka penjualan naik 3.533 juta dolar
Untuk prediksi Kita bisa membuat prediksi berapakah pendapatan yang akan diperoleh jika biaya pengeluaran iklan dinaikkan sampai 20 juta dollar Ingat prediksi TERBATAS MAKA DIPERLUKAN UJI LINEARITAS UJI HIPOTESI UNTUK REGRESI
Pengantar Y = a + bX Ingin dibuat model Model memuat error, selisih nilai sebenarnya dengan dugaan berdasar model
Bagaimana mendapatkan a dan b? Metode yang digunakan : OLS (ordinary least squares), mencari a dan b sehingga jumlah kuadrat error paling kecil Cari penduga a dan b sehingga minimum
Rumus lain Rata-rata X Rata-rata Y
Ilustrasi Perhitungan b = 106 / 30 = 3.533 a = 50 – 3.533 (12) = 7.60
Interpretasi a dan b a = besarnya nilai Y ketika X sebesar 0 b = besarnya perubahan nilai Y ketika X berubah satu satuan. Tanda koefisien b menunjukkan arah hubungan X dan Y Pada kasus ilustrasi a = 7.6 = besanya sales revenue jika tidak ada belanja iklan adalah 7.6 mlo b = 3.533 = jika belanja iklan dinaikkan 1 juta dolar maka sales revenue naik 3.533 juta dolar
Uji Signifikasi Koefisien b H0 : b = 0 (artinya X tidak mempengaruhi Y) H1 : b 0 (artinya X mempengaruhi Y) Tolak H0 jika nilai t melebihi nilai t pada tabel dengan derajat bebas (n-2) pada nilai peluang /2 Tolak H0 jika nilai-p <
Uji signifikansi koefisien b Nilai sb = 0.52 Nilai t = 6.79 Nilai t pada tabel (db = 8, = 5%) = 2.306 Kesimpulan : Tolak H0, data mendukung kesimpulan adanya pengaruh ads expenditure terhadap sales revenue.
Ukuran Kebaikan Model Menggunakan koefisien determinasi (R2, R-squared) R-squared bernilai antara 0 s/d 1 R-squared adalah persentase keragaman data yang mampu diterangkan oleh model R-squared tinggi adalah indikasi model yang baik
Ukuran Kebaikan Model Model dalam ilustrasi bisa ditunjukkan memiliki R-squared 0.85 atau 85%
di SAS PRC FREQ DATA = sas-data-set; MODEL dependent = independent; RUN;
data contoh; input X Y; label X = 'ads expenditures (juta $)' Y = 'revenue (juta ($)'; cards; 10 44 9 40 11 42 12 46 11 48 12 52 13 54 13 58 14 56 15 60 ; proc reg data=contoh; model Y = X; run;
nilai p pengujian pengaruh X thd Y The REG Procedure Model: MODEL1 Dependent Variable: Y revenue (juta ($) Number of Observations Read 10 Number of Observations Used 10 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 1 374.53333 374.53333 45.77 0.0001 Error 8 65.46667 8.18333 Corrected Total 9 440.00000 Root MSE 2.86065 R-Square 0.8512 Dependent Mean 50.00000 Adj R-Sq 0.8326 Coeff Var 5.72131 Parameter Estimates Parameter Standard Variable Label DF Estimate Error t Value Pr > |t| Intercept Intercept 1 7.60000 6.33232 1.20 0.2644 X ads expenditures (juta $) 1 3.53333 0.52228 6.77 0.0001 nilai p pengujian pengaruh X thd Y
koefisien regresi Y = 7.6 + 3.53 X R2 The REG Procedure Model: MODEL1 Dependent Variable: Y revenue (juta ($) Number of Observations Read 10 Number of Observations Used 10 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 1 374.53333 374.53333 45.77 0.0001 Error 8 65.46667 8.18333 Corrected Total 9 440.00000 Root MSE 2.86065 R-Square 0.8512 Dependent Mean 50.00000 Adj R-Sq 0.8326 Coeff Var 5.72131 Parameter Estimates Parameter Standard Variable Label DF Estimate Error t Value Pr > |t| Intercept Intercept 1 7.60000 6.33232 1.20 0.2644 X ads expenditures (juta $) 1 3.53333 0.52228 6.77 0.0001 koefisien regresi Y = 7.6 + 3.53 X R2
proc reg data=contoh; model Y = X; symbol1 v = '=' c = blue; plot Y*X /cline = red; run;
Analisis Regresi Regresi Linear Berganda
Pengantar Pada sesi sebelumnya kita hanya menggunakan satu buah X, dengan model Y = a + bX Dalam banyak hal, yang mempengaruhi X bisa lebih dari satu. Model umum regresi linear berganda adalah Y = a + b1X1 + b2X2 + … + b3X3
Ilustrasi Ingin dicari model regresi dari sales revenue (Y), dengan variabel bebas berupa ads expenditure (X1) dan pengeluaran untuk quality control (X2) Tahun 1 2 3 4 5 6 7 8 9 10 X1 11 12 13 14 15 X2 Y 44 40 42 46 48 52 54 58 56 60
Ilustrasi Proses mencari penduga bagi koefisien a, b1, dan b2 memiliki konsep yang sama dengan model regresi sederhana, namun lebih kompleks. Output standar komputer: ANOVA pengujian simultan Pengujian Parsial Nilai dugaan koefisien Ukuran kebaikan model
Ilustrasi data contoh; input Tahun X1 X2 Y; label X1 = 'ads expenditure (juta$)' X2 = 'QC expenditure (juta$)' Y = 'sales revenue (juta$)'; cards; 1 10 3 44 2 9 4 40 3 11 3 42 4 12 3 46 5 11 4 48 6 12 5 52 7 13 6 54 8 13 7 58 9 14 7 56 10 15 8 60 ; proc reg data=contoh; model y = x1 x2; run;
Ilustrasi Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 2 409.26761 204.63380 46.61 <.0001 Error 7 30.73239 4.39034 Corrected Total 9 440.00000 Root MSE 2.09531 R-Square 0.9302 Dependent Mean 50.00000 Adj R-Sq 0.9102 Coeff Var 4.19063 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > |t| Intercept 1 17.94366 5.91914 3.03 0.0191 X1 1 1.87324 0.70334 2.66 0.0323 X2 1 1.91549 0.68101 2.81 0.0260
ANOVA Digunakan untuk menguji secara simultan pengaruh seluruh X H0: semua bi = 0 (tidak ada X yang berpengaruh terhadap Y) H1: ada bi 0 (ada X yang berpengaruh terhadap Y) Konsep dasar : ANOVA membandingkan besarnya keragaman yang terkandung dalam model dengan keragaman yang tersisa pada error model. Jika rasio keduanya besar, maka X mempengaruhi Y. Rasio itu dilambangkan dengan nilai F. Semakin besar nilai F, semakin kecil nilai-p, cenderung menolak H0.
ANOVA: ilustrasi Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 2 409.26761 204.63380 46.61 <.0001 Error 7 30.73239 4.39034 Corrected Total 9 440.00000 Seandainya kita gunakan = 5%, maka nilai-p ini lebih kecil daripada 5%, sehingga kita putuskan TOLAK H0, artinya ada X yang mempengaruhi sales revenue
Ilustrasi Modelnya Y = 17.94 + 1.87 X1 + 1.91 X2 Parameter Standard Variable DF Estimate Error t Value Pr > |t| Intercept 1 17.94366 5.91914 3.03 0.0191 X1 1 1.87324 0.70334 2.66 0.0323 X2 1 1.91549 0.68101 2.81 0.0260 Modelnya Y = 17.94 + 1.87 X1 + 1.91 X2 Uji parsial. Menguji masing-masing X. Karena p-value X1 dan X2 kecil, maka disimpulkan bahwa pengaruh keduanya terhadap sales revenue signifikan secara statistik
Ilustrasi Root MSE 2.09531 R-Square 0.9302 Dependent Mean 50.00000 Adj R-Sq 0.9102 Coeff Var 4.19063 Ukuran kebaikan model : R2. Penambahan X lain dalam model akan selalu meningkatkan nilai R2, namun menurunkan derajat bebas error. Agar evaluasi terhadap kebaikan model tidak terganggu, nilai R2 dikoreksi menjadi Adjusted R2.
Peramalan menggunakan Regresi Model regresi bisa digunakan untuk meramal nilai Y jika kita ketahui nilai setiap variabel X Dugaan dapat berupa titik maupun selang. Dugaan selang memiliki simpangan/variasi yang lebih besar untuk nilai X yang semakin jauh dari rata-rata. Interpolasi vs Ekstrapolasi
Jika pada tahun depan (tahun ke-11) direncanakan akan mengeluarkan belanja untuk advertisement (X1) sebesar 15 juta dolar dan pengeluaran untuk quality control (X2) sebesar 9 juta dolar, berapa dugaan nilai sales revenue yang akan didapatkan?
data contoh; input Tahun X1 X2 Y; label X1 = 'ads expenditure (juta$)' X2 = 'QC expenditure (juta$)' Y = 'sales revenue (juta$)'; cards; 1 10 3 44 2 9 4 40 3 11 3 42 4 12 3 46 5 11 4 48 6 12 5 52 7 13 6 54 8 13 7 58 9 14 7 56 10 15 8 60 11 15 9 . ; proc reg data=contoh; model y = x1 x2/p cli; run;
The REG Procedure Model: MODEL1 Dependent Variable: Y sales revenue (juta$) Output Statistics Dependent Predicted Std Error Obs Variable Value Mean Predict 95% CL Predict Residual 1 44.0000 42.4225 1.0283 36.9034 47.9417 1.5775 2 40.0000 42.4648 1.7156 36.0612 48.8684 -2.4648 3 42.0000 44.2958 1.0868 38.7144 49.8772 -2.2958 4 46.0000 46.1690 1.5146 40.0554 52.2826 -0.1690 5 48.0000 46.2113 0.7705 40.9323 51.4902 1.7887 6 52.0000 50.0000 0.6626 44.8035 55.1965 2.0000 7 54.0000 53.7887 0.7705 48.5098 59.0677 0.2113 8 58.0000 55.7042 1.0868 50.1228 61.2856 2.2958 9 56.0000 57.5775 1.0283 52.0583 63.0966 -1.5775 10 60.0000 61.3662 1.3529 55.4685 67.2639 -1.3662 11 . 63.2817 1.6325 57.0007 69.5626 .