Statistika 2 Regresi dan Korelasi Linier Topik Bahasan: Oleh : Edi M. Pribadi, SP., MSc. E-mail: edi_mp@staff.gunadarma.ac.id edi_mp@ymail.com
1. Regresi Linier Sederhana Cakupan Materi Regresi Linier Sederhana Korelasi Linier Regresi Berganda Korelasi Berganda 1. Regresi Linier Sederhana Persamaan Regresi : Model regresi adalah persamaan matematik yang memungkinkan dalam peramalan nilai variabel tak bebas dari satu atau lebih variabel bebas Study tentang pengaruh 1 variabel bebas thd variabel tak bebas → regresi sederhana Sedangkan jika ada 2 atau lebih variabel bebas → regresi berganda x (Independent Variable) y y = a + bx Dependent Variable)
Dua variabel yang berhubungan (bivariat) diplotkan dalam grafik yaitu ‘diagram pencar’, yang menyatakan berbagai pola hubungan tertentu : Hubungan positif linier Hubungan negatif linier Hubungan non-linier (eksponential) Tidak ada hubungan Analisis Regresi : Dua kegunaan pokok analisis regresi, yaitu : Memperoleh suatu persamaan dan garis yang menyatakan hubungan antara 2 variabel Pendugaan nilai ‘dependent variable’, y, dengan nilai tertentu ‘dependent variable’, x, yang diketahui berdasarkan hubungan dalam persamaan regresi y = a + bx → y = dependent variable x = independent variable a, b = parameter / konstanta regresi linier sederhana
Analisis Korelasi : Mengukur keeratan hubungan antara 2 variabel yang didasarkan pada persamaan regresi Bukan meramalkan nilai variabel y Kekuatan hubungan antara 2 variabel dinyatakan dalam suatu bilangan yang disebut ‘koefesien korelasi’, yang dilambangkan dengan r2 Pola hubungan, antara lain : Korelasi positif → tinggi, rendah Korelasi negatif → tinggi, rendah Korelasi nol Persamaan dan Garis Regresi Regresi sederhana hanya memiliki 2 variabel, yaitu 1 dependent dan independent variable Linier → terdapat hubungan garis lurus antara kedua variabel Persamaan hubungan linier 2 variabel x dan y : y = a + bx → y = dependent variable a = konstanta / y-intercept x = independent variable b = konstanta / slope
Diketahui persamaan regresi y = 50 + 5x Jika x = 0, maka y = 50 Contoh : 50 x y y = 50 + 5x 150 100 5 10 15 1 → perubahan y perubahan x Perpotongan garis y Diketahui persamaan regresi y = 50 + 5x Jika x = 0, maka y = 50 x = 10, maka y = 100 Analisis Regresi Linier Sederhana : Model regresi linier sederhana : y = A+ Bx → deterministic model → tiap satu nilai x memiliki satu nilai y (exact relationship) Dalam kenyataannya, hubungan x dan y → not exact y = A + Bx + є → dimana є (=baca epsilon) adalah random error → A dan B merupakan parameter populasi maka garis regresi yang dihasilkan disebut ‘garis regresi populasi’ → Selalu digunakan sampel data dlm penentuan model regresi ŷ = a + bx + e → dimana a & b adalah nilai penduga bagi A & B
Analisis regresi dengan sampel data akan menghasilkan galat e e = y – ŷ → e = random error atau galat untuk sampel data Σe = Σ(y – ŷ) → ŷ = nilai prediksi untuk y x y Garis regresi e = galat Untuk menentukan garis regresi yang baik, digunakan metode “Least Square” atau “jumlah kuadrat terkecil” Dalam hal ini dihasilkan garis “Least Square”, dimana a dan b menghasilkan jumlah kuadrat galat minimum SSE = Σe2 = Σ(y – ŷ)2 SSE = Error Sum of Square
Untuk garis regresi “Least Square” dimana ŷ = a + bx ; a = ў - bx ˉ dimana SS = Sum of Square ; ў dan x = rata-rata ˉ Contoh : Tentukan garis regresi “Least Square” dari data income dan belanja ($/hari) untuk 7 keluarga pada tabel berikut : Income (x) 35 49 21 39 15 28 25 Belanja (y) 9 7 11 5 8 Jawab : y = a + bx Step untuk menghitung a dan b : Step 1. Menghitung Σx, Σy, x, ў Σx = 212 → x = Σx/n = 212/7 = 30.29 Σy = 64 → ў = Σy/n = 64/7 = 9.14 ˉ ˉ
Step 2. Menghitung Σxy dan Σx2 Step 3. Menghitung SSxy dan SSxx Step 4. Menghitung a dan b → a = ў – bx = 9.14 – (0.26) (30.29) = 1.14 ˉ Sehingga model regresi pendugaan ŷ = a + bx adalah : ŷ = 1.14 + 0.26 x Garis yang dihasilkan disebut garis regresi “Least Square”, yang memberikan regresi belanja atas income. Dengan model regresi pendugaan bisa memprediksi nilai y pada nilai x tertentu Contoh : Berapa biaya belanja yang dikeluarkan suatu sampel keluarga yang memiliki income $35/hari. ˉ
e = -1.39 → nilai pendugaan y lebih besar dari nilai y yang sebenarnya Jawab : ŷ = 1.14 + (0.26)(35) = $10.39 → ŷ = $10.39 y = $9 e = -1.39 → nilai pendugaan y lebih besar dari nilai y yang sebenarnya e = galat = y – ŷ = 9 – 10.39 = -1.39 4 x y ŷ = 1.14 + 0.26 x 12 8 10 20 30 e = galat y aktual = 9 40 Titik penduga ˉ
Interpretasi Nilai a dan b ŷ = 1.14 + 0.26 x → Diperoleh dari data sampel dimana nilai x → 15 ≤ x ≤ 49 → Hanya pada selang nilai x tsb, persamaan ŷ = 1.14 + 0.26 x, dapat diaplikasikan dan menghasilkan nilai y yang valid → ŷ yang dihasilkan adalah nilai rata-rata pendugaan, µy|x → Nilai b, bisa positif atau negatif b positif → hubungan x dan y linier positif b negatif → hubungan x dan y linier negatif x y b > 0 x y b < 0 Linier Negatif Linier Positif
Simpangan Baku Galat Simpangan baku galat suatu populasi, σe, mengukur sebaran error di sekitar garis regresi populasi σe biasanya unknown, sehingga nilainya diduga dari nilai Se, yaitu simpangan baku galat dari sampel data SSE = Σe2 = Σ(y – ŷ)2 n - 2 adalah derajat bebas df Koefesien Determinasi Suatu model regresi dianggap baik, dapat dinilai dari koefesien determinasi, yang dinotasikan : ρ2 → dihitung untuk data populasi r2 → dihitung untuk data sampel Nilai r2 → 0 ≤ r2 ≤1 Makin besar nilai r2, makin baik suatu model regresi, dimana variabel y sangat berhubungan dengan variabel x
2. Korelasi Linier Korelasi linier mengukur keeratan hubungan atau asosiasi linier antara 2 variabel Koefesien korelasi linier mengukur bagaimana dekat titik-titik dalam diagram pencar tersebar di sekitar garis regresi Koefesien korelasi linier merupakan akar dari koefesien determinasi dinotasikan : ρ → dihitung untuk data populasi r → dihitung untuk data sampel Nilai ρ dan r → -1 ≤ ρ ≤ 1 dan -1 ≤ r ≤ 1 y y y r = 1 r = -1 r = 0 x x x Korelasi Linier Positif Korelasi Linier Negatif Tidak Korelasi Linier
Korelasi linier sederhana, dinotasikan r, dihitung dengan rumus : y y y y x x x x Korelasi Linier positif kuat ( r mendekati 1) Korelasi Linier positif lemah ( r + mendekati 0) Korelasi Linier negatif kuat ( r mendekati -1) Korelasi Linier negatif lemah ( r - mendekati 0) Korelasi linier sederhana, dinotasikan r, dihitung dengan rumus :
Tentukan persamaan garis regresinya Latihan : Nilai kuis (x) dan ujian akhir semester (y) dari 9 mahasiswa adalah sebagai berikut : x 77 50 71 72 81 94 96 99 67 y 82 66 78 34 47 85 68 Tentukan persamaan garis regresinya Dugalah nilai ujian akhir dari seorang mahasiswa yang nilai kuisnya adalah 85 Tabel berikut menunjukkan besarnya income per minggu (dalam dolar) dan biaya telepon untuk 10 keluarga sebagai sampel yang diambil acak. Income 55 45 36 32 30 13 41 15 40 Phone Bill 35 78 102 56 75 26 130 42 59 85 Tentukan SSxx, SSyy, SSxy Tentukan SSE Tentukan simpangan baku galat Tentukan koefesien determinasi Tentukan koefesien korelasi
3. Regresi Linier Berganda Dalam regresi berganda dinyatakan hubungan antara sebuah variabel dependen (y) dengan 2 atau lebih variabel independen (x) If ada n variable independen, maka variabel tersebut → x1, x2, x3 …. xn Regresi bergada kemudian menentukan nilai a, b1, b2, b3 …. bn untuk mendapatkan persamaan regresinya y = a + b1x1 + b2x2 + b3x3 + ... + bnxn b1 = koefisien x1 , b2 koefisien x2 , dst. Untuk menentukan nilai a, b1, b2, b3 …. bn maka digunakan persamaan normal : → a.n + b1 . Σx1 + b2 . Σx2 + b3 . Σx3 = Σy → a. Σx1 + b1 . Σ(x1 . x1) + b2 . Σ(x2 . x1) + b3 . Σ(x3 . x1) = Σ(y.x1 ) → a. Σx2 + b1 . Σ(x1 . x2) + b2 . Σ(x2 . x2) + b3 . Σ(x3 . x2) = Σ(y.x2 ) → a. Σx3 + b1 . Σ(x1 . x3) + b2 . Σ(x2 . x3) + b3 . Σ(x3 . x3) = Σ(y.x3 ) → ……………….. → a. Σxn + b1 . Σ(x1 . xn) + b2 . Σ(x2 . xn) + b3 . Σ(x3 . xn) = Σ(y.xn)
Contoh : Tabel berikut menunjukkan jumlah penjualan (y) dalam hubungannya dengan lamanya pengalaman sebagai sales (x1) dan nilai test iq (x2) dari 8 orang sales dalam suatu periode tertentu. Tentukan persamaan garis regresinya Sales A B C D E F G H y 9 6 4 3 5 8 2 x1 1 x2 Jawab : Sales y x1 x2 y2 x12 x22 x1. x2 y. x1 y. x2 A 9 6 3 81 36 18 54 27 B 5 2 25 4 10 30 12 C 16 8 D 1 E F 15 G 64 48 24 H Total Σy = 40 Σ x1 = 30 Σ x2 = 16 Σ y2 = 224 Σ x12= 136 Σ x22= 38 Σx1. x2= 68 Σ y.x1= 178 Σ y.x2= 94
Didapatkan 3 persamaan normal : → a.n + b1 . Σx1 + b2 . Σx2 = Σy 8 a + 30 b1 + 16 b2 = 40 …………………………………………….… (1) → a. Σx1 + b1 . Σ(x1 . x1) + b2 . Σ(x2 . x1) = Σ(y.x1 ) 30 a + 136 b1 + 68 b2 = 178 ………………………………………..... (2) → a. Σx2 + b1 . Σ(x1 . x2) + b2 . Σ(x2 . x2) = Σ(y.x2 ) 16 a + 68 b1 +38 b2 = 94 ……………………….……………….…….. (3) Dengan cara eliminasi ketiga persamaan tersebut didapatkan : a = -0.4545 ; b1 = 0.7273 ; b2 = 1.3636 Maka persamaan regresi yang dihasilkan ŷ = -0.4545 + 0.7273 x1 + 1.3636 x2 Simpangan Baku Simpangan baku regresi berganda dapat dihitung dengan formula sebagai berikut : Dari contoh di atas, maka simpangan bakunya adalah :
4. Korelasi dan determinasi Berganda Untuk contoh acak {(x1, x2, y)}, koefesien determinasi berganda contoh dilambangkan dengan r2y.12 Untuk contoh diatas, maka : Dengan koefesien determinasi 0.9, artinya bahwa bidang regresi : ŷ = -0.4545 + 0.7273 x1 + 1.3636 x2 dapat menjelaskan 90% keragaman dalam y berhubungan dengan variabel x1 dan x2 Koefesien korelasi, r adalah akar dari koefesien determinasi. Sehingga :