Erni Tri Astuti Sekolah Tinggi Ilmu Statistik ANALISIS REGRESI Erni Tri Astuti Sekolah Tinggi Ilmu Statistik
Analisis RegresiHubungan antar variabel X : Variabel bebas (Independent Variable) Y : Variabel tak bebas (Dependent Variable) arah hubungan : XY Syarat : Y: Berjenis data kuantitatif X: Berjenis data kuantitatif atau kualitatif/kategorik
Jenis Hubungan Antar variabel Hubungan Fungsional (Functional/Mathematical Relationships) y=f(x) Hubungan Statistik (Statistical Relationships)
Jenis data untuk Y Data Observasi diperoleh tanpa melakukan kontrol thd var. X tdk kuat menyatakan cause-effect relationships Data Eksperimen diperoleh dengan melakukan kontrol thd var. X dapat menyatakan cause-effect relationships
Konsep Dasar: Pada suatu nilai X tertentu akan tdp banyak kemungkinan nilai-nilai Y (Y akan terdistribusi mengikuti suatu fungsi peluang tertentuDistribusi Normal) dengan Nilai rata-rata E(Y) dan Nilai varians 2 tertentu Nilai rata-rata E(Y) diasumsikan berubah secara sistematik meng-ikuti perubahan nilai X, yg digambarkan dalam bentuk garis linier Nilai varians 2 pada setiap nilai X akan sama
Prosedur dalam analisis regresi: Identifikasi dan pembentukan model Pendugaan parameter model Pengujian keberartian parameter Penilaian ketepatan model (goodness of fit) dan pemeriksaan asumsi
1.`Identifikasi Model scatter plot Scatter plot (diagram pencar) umumnya berguna dalam mengidentifikasi model hubungan antara variabel X dan Y. Bila pencaran titik-titik pada plot ini menunjukkan adanya suatu kecenderung-an (trend) yang linier, maka model regresi linier layak digunakan.
Model Regresi Linier Sederhana Yi = 0 + 1Xi + i (i = 1, 2, …, n) dimana : Yi : nilai dari variabel dependent pada observasi ke i o dan 1 : parameter model i : komponen error (pengaruh variabel bebas lain selain variabel X) Xi : nilai variabel bebas X pada observasi ke i n : banyaknya data observasi (sampel) Note: o dan 1 disebut juga koefisien regresi, o merupakan intercept dan 1 merupakan slope (gradien garis) yang menyatakan perubahan nilai Y untuk setiap kenaikan satu satuan X
Asumsi (Kondisi yg harus dipenuhi): Linieritas Normalitas Homoskedastisitas Independensi (tidak ada autokorelasi) Tdk ada Multikollinieritas (pada model rgresi berganda)
Pendugaan Parameter Model 2. Pendugaan Parameter Model Metoda Kuadrat terkecil (Least squre Method) meminimumkan jumlah kuadrat error Penduga Parameter yang diperoleh : Prediksi/estimasi untuk Y jika nilai X diketahui Residual (ei) :
3. Pengujian Keberartian Model Pengujian Keberartian melakukan inferensia hasil sampel ke populasi (membuat estimasi/penduga interval dan pengujian hipotesis parameter) Penduga Interval untuk o dengan tingkat keyakinan (1-)100%: Penduga Interval untuk 1 dengan tingkat keyakinan (1-)100%:
Uji Hipotesis Tentang 1 (T – test) a. H0: 1 = 0 b. H0: 1 ≤ 0 c. H0: 1 ≥ 0 H1: 1 ≠ 0 H1: 1 > 0 H1: 1 < 0 Statistik Uji: Keputusan pada tingkat sign. : Tolak H0 jika a. b. c. Kesimpulan : Jika Ho ditolak, maka dengan tingkat kepercayaan (1- )100%, terdapat hubungan yang linier antara variabel X dan variabel Y
Pendekatan ANOVA dalam Analisis Regresi Dasar: Partisi dari Sum Squares Total (SST) dan derajat bebas SST = SSE + SSR df n – 1 = n – 2 + 1 Rumus untuk penghitungan
Ilustrasi Geometris Partisi Jumlah Kuadrat Yi
Mean Squares (MS): SS dibagi dengan derajat bebasnya Tabel ANOVA untuk Regresi Linear Sederhana Source of Variation SS df MS E{MS} F* Regression 1 MSR Error n–2 MSE Total n–1
Anova tersebut dapat digunakan untuk menguji (F – Test) Hipotesisa : H0: 1 = 0 vs H1: 1 ≠ 0 Keputusan : Tolak H0 jika F* > F(1-;1, n-2) Note : Equivalence of F Test and t Test Untuk tertentu, Statistik Uji F* adalah equivalent dengan statistik uji t* dua arah F(1-;1, n-2) = t2 (/2 , n-2)
4. Penilaian Ketepatan Model (Goodness of Fit) Koefisien Determinasi (R2) Mengukur proporsi keragaman/variasi dari observasi Y yang dapat dijelaskan oleh garis regresinya atau variabel bebas yg digunakan. Nilainya: 0 ≤ R2 ≤ 1, makin mendekati 1 berarti model regresi yg digunakan makin tepat/baik
Koefisien korelasi suatu ukuran yang menyatakan erat tidaknya hubungan linier yang ada antara variable X dan Y, nilai korelasi dirumuskan sebagai tanda positif atau negatif dari R sesuai dengan tanda positif atau negatif pada parameter 1
Various degrees of linear correlation
Various degrees of linear correlation
Pemeriksaan Asumsi: Linieritas, plot antara nilai-nilai residual (ei) dengan nilai-nilai Xi , Jika pencaran titik yang terbentuk tersebar secara acak di sekitar nol, maka asumsi linieritas terpenuhi. Normalitas, plot antara residual yang diurutkan e(i) dengan nilai harapannya E(e(i)) (Normal Probability Plot) Jika pencaran titik-titik nya membentuk atau mendekati suatu garis linier maka asumsi kenormalan terpenuhi. Homoskedastisitas, sama halnya seperti pada linieritas jika plot antara ei dengan Xi menunjukkan pola yang acak, atau plot antara ei dengan Yi menunjukkan pola acak, maka asumsi kesamaan varians (homoske-dastisitas) terpenuhi
Independensi/Autokorelasi, sering terjadi terutama jika data yang digunakan untuk analisis regresi merupakan data time series. Autokorelasi dapat menimbulkan masalah serius terutama pada nilai penduga dari varians sample (MSE). Pemeriksaan dengan membuat plot antara et (residual pada waktu ke t) dengan waktu (t), atau dengan statistik Durbin Watson Multikollinieritas, adalah korelasi antar variabel bebas pada model regresi berganda. Pemeriksaan awal dengan mencari nilai korelasi antar peubah bebas atau dengan melihat nilai VIF (Variance Inflaction Factor).Nilai VIF yang besar (>5) mengindikasikan adanya multikollinieritas
Model Regresi Linier Berganda Secara umum model regresi berganda dengan p variable bebas adalah : Dengan: Yi : nilai variabel respons untuk obesrvasi ke i (i=1,2,..n) j : nilai koefisien regresi ke j (j=0, 1,2, …,p) Xij : nilai variabel bebas ke j dari observasi ke i
Dalam Notasi Matriks:
Penduga Koefisien Regresi Dengan metoda kuadrat terkecil, penduga untuk vector parameter : Penduga untuk E(Y) Penduga error (residual)
Inferensia Koefisien Regresi Uji Parameter simultan (Uji F) Ho: atau H1: paling tidak ada satu
Uji Parameter simultan SST = Y’Y-1/n(Y’JY) ; J matriks satuan SSR=SST-SSE tolak Ho jika Fobs > F (p, n-p-1) atau significance p-value < Jika Ho ditolak artinya paling tidak ada salah satu variable bebas yang memiliki hubungan linier dengan variabel Y. Dilanjutkan dengan uji parsial
Uji Parameter Parsial
Model Regresi Polynomial Model Regresi Polynomial Ordo ke – r (1 variabel bebas) Digunakan jika scatter plot menunjukkan pola yang tidak linier. Untuk pendugaan dan pengujian parameter ekivalen dengan regresi berganda Sebelum dilakukan pendugaan parameter, untuk menghindari multikolinieritas, dilakukan transformasi untuk nilai var bebas X : xi =Xi-X
Variabel Bebas Kualitatif/Kategorik Dibuat Indicator variable/Dummy variabel meng”kuantitatifkan” data kualitatif, dengan kode 0 atau 1 Bila satu variabel bebas memiliki k kategori, maka akan dibuat sebanyak (k-1) variabel indikator, yg masing2 bernilai 0 atau 1 Selanjutnya pendugaan dan pengujian parameter ekivalen dengan regresi berganda
PEMILIHAN MODEL REGRESI TERBAIK 1. Backward Elimination, tahap pertama akan memasukkan semua variable bebas X, kemudian secara bertahap akan mengeluarkan satu-persatu X yang tidak potensial. Prosedur seleksi akan terhenti bila dikeluarkannya suatu variable bebas tidak lagi secara significant mereduksi SSE atau menambah nilai R2. Forward Elimination, metoda ini bekerja berkebalikan dari metoda backward dan dimulai dengan memasukkan variabel bebas yang memiliki korelasi paling erat dengan variabel tak bebasnya (variabel yang paling potensial untuk memiliki hubungan linier dengan Y ). Kemudian secara bertahap memasukkan variabel bebas yang petensial berikutnya. Prosedur seleksi akan terhenti sampai tidak ada lagi variabel bebas yang potensial Stepwise Elimination,. Metoda stepwise memiliki prosedur yang hampir sama dengan metoda forward, hanya saja bila suatu variabel bebas telah masuk pada satu tahapan, dapat saja pada tahapan berikutnya variabel tersebut dikeluarkan karena menjadi tidak potensial lagi dibandingkan dengan variabel yang masuk model setelahnya.