Analisa Data Statistik Chap 13: Regresi Linear (Lanjutan) Agoes Soehianie, Ph.D
ANOVA UNTUK ANALISA KUALITAS REGRESI Misal kita punya n data {Xi,Yi}, dan kemudian dilakukan analisa regresi, sehingga bisa ditaksir besarnya variansi bagi Y: Atau secara ringkas ditulis sbb: SST = SSR + SSE SST : tak lain adalah SYY SSR : Regression Sum Squares merupakan variasi dari Y yg bisa dijelaskan oleh model regresi SSE : random error squares yg mencerminkan variasi di sekitar garis regresi Sehingga bisa dituliskan : SYY = SSR + SSE atau SSR = SYY – SSE Padahal SSE =SYY – b*SXY (lihat bab sebelumnya) Sehingga SSR = b*SXY
ANOVA UNTUK ANALISA KUALITAS REGRESI Hipotesa yg ingin diperiksa adalah apakah memang ada kaitan antara X dan Y, jadi : H0 : β = 0 berarti Y tidak bergantung X! H1 : β ≠ 0 Untuk memeriksa kebenaran hipotesa ini bisa digunakan F-test, dengan nilai F: Dengan nilai S2 = SSE/(n-2). H0 akan ditolak pada tingkat signifikan α, jika Fα(1,n-2). Secara skematik komputasinya disajikan dalam tabel berikut ini: SUmber Variasi Sum Squares Derajat Kebebasan Mean Square F Regresi SSR 1 SSR/1 SSR/{SSE/(n-2)} Error SSE n-2 SSE/(n-2) TOTAL SST n-1
ANOVA UNTUK ANALISA KUALITAS REGRESI Jikalau H0 berhasil ditolak artinya terdapat jumlah variasi data Y yg signifikan yg bisa dijelaskan oleh model regresi yaitu kebergantungan Y secara linear thd X Test-F ini merupakan alternatif terhadap test yang menggunakan distribusi student t. Dalam Bab yg sebelumnya telah ditunjukkan kita bisa memeriksa hipotesa: H0 : β = β0 H1 : β ≠ β0 Dengan mempergunakan variabel test: Jikalau β0=0, maka testnya menjadi
ANOVA UNTUK ANALISA KUALITAS REGRESI Sedikit pengolahan menunjukkan: Tetapi: b= SXY/SXX, sehingga Tetapi yang terakhir ini tak lain adalah nilai F.
Data dengan Pengulangan Pengukuran
Data Dengan Pengulangan Pengukuran Seringkali dalam pengukuran dimungkinkan untuk sebuah nilai Xi diulang beberapa kali untuk mendapatkan beberapa nilai Yi1, Yi2, dst. Pengukuran ulang ini memberi cara untuk mengevaluasi model regresi linear secara lebih akurat. Dengan cara ini Error Sum Squares terdiri dari dua komponen: variasi dari Y untuk sebuah nilai X error murni (pure) krn experiment dan kontribusi yg disebut Lack of Fit variasi sistematik yg disebabkan suku order tinggi (non linear) Misalkan ada k grup data berdasarkan kesamaan X. Variansi yg murni (pure) dari experiment, SSE (pure) adalah: dan variansi Y= S2=SSE(pure)/(n-k)
Data Dengan Pengulangan Pengukuran Sedangkan variansi SSE yg umum adalah: Dengan derajat kebebasan = n-2. Dan variansi karena Lack of Fit adalah = SSE – SSE (pure), dengan derajat kebebasan (k-2).
BELUM SELESAI KONSEP LACK of FIT Sedangkan variansi SSE yg umum adalah: BELUM SELESAI
Tabel Perhitungan Lack of Fit SUmber Variasi Sum Squares Derajat Kebebasan Mean Square F Error Regresi SSR SSE 1 n-2 SSR/1 SSR/S2 Lack of Fit SSE- SSE (pure) k-2 Pure Error SSE (pure) n-k TOTAL SST n-1
Contoh. SXY SXX SYY SSE SSE (pure) Lack of Fit x y Xe=X-Xm Ye=Y-Ym x y Xe=X-Xm Ye=Y-Ym Xe^2 Ye^2 Xe*Ye Yteori (Y-Yteor)i^2 Ygrup (Y-Ygrup)^2 1 150 77.4 -75 -9.08 5625.00 82.51 681.25 77.74 0.12 77.43 0.00 2 76.7 -9.78 95.71 733.75 1.09 0.54 3 78.2 -8.28 68.61 621.25 0.21 0.59 4 200 84.1 -25 -2.38 625.00 5.68 59.58 83.57 0.28 84.10 5 84.5 -1.98 3.93 49.58 0.86 0.16 6 83.7 -2.78 7.75 69.58 0.02 7 250 88.9 25 2.42 5.84 60.42 89.40 0.25 89.27 0.13 8 89.2 2.72 7.38 67.92 0.04 9 89.7 3.22 10.35 80.42 0.09 0.19 10 300 94.8 75 8.32 69.17 623.75 95.22 0.18 95.13 0.11 11 94.7 8.22 67.51 616.25 0.27 12 95.9 9.42 88.67 706.25 0.46 Sum 2700 1037.8 37500 513.12 4370.00 1037.80 3.87 2.66 Mean 225 86.48333 3125 42.76 364.17 86.48 0.32 0.22 SXY SXX SYY SSE SSE (pure)
Contoh.
TRANSFORMATION Bentuk Fungsi Asal Transformasi Regresi Y=A exp (Bx) Exponen Ln(Y) = Ln(A) + Bx Y* = Ln(Y) vs X Y=AxB Pangkat Log(Y)=Log(A)+ B*log(X) Y*=Log(Y) vs X* = Log(X) Y= A + B/X Resiprok Y = A + B (1/X) Y*=Y vs X*=1/X Y=X/(A+BX) Hiperbola (1/Y)=B+A(1/X) Y*=1/Y vs X*=(1/X)
Bentuk Fungsi
Implikasi Transformasi Pada Regresi Linear Beberapa definisi variasi. 3. Variasi Random Jumlah total kuadrat selisih data dengan rata-rata sampel yg terkait Dengan G adalah banyak group, ng adalah banyak sampel di group-g. Dapat dibuktikan bahwa ketiga variasi tsb saling terkait: SStotal = SST + SSE
TEST ANOVA 1. Hipotesa H0: μ1= μ2= μ3 = …. H1: tidak semua rata-rata populasi sama 2. Tentukan tingkat signifikan α 3. Daerah kritis Test statistiknya adalah F-test dengan dimana MST : Mean Squares of Treatments (between groups) MSE : Mean Squares of Errors (within errors) Dengan k : jumlah grup dan n adalah banyak total semua data. Derajat kebebasan F adalah (v1=k-1) untuk pembilang dan (v2=n-k) untuk penyebut. Tentukan nilai kritis Fα(v1,v2) = Fkritis. Tolak H0 jika Fhitung > Fkritis
TEST ANOVA 4. Perhitungan 5. Keputusan Bandingkan Fhitung dengan Fkritis 6. Kesimpulan TABEL ANOVA Sumber variasi Sum of Squares Derajat kebebasan Mean Squares Fhitung Treatment (antar grup) SST k-1 MST=SST/(k-1) MST/MSE Error (dalam grup) SSE n-k MSE=SSE/(n-k) Total SS total n-1
TEST ANOVA – Contoh Prof. Xsentrik memiliki 22 murid di kuliah Statistik. Murid-murid tsb diminta memberikan rating thd perkuliahannya dalam 4 kategori: Baik sekali, Baik, Cukup dan Jelek. Setelah itu diakhir kuliah diperoleh data nilai akhir Statistik para murid tsb. GRUP Baik sekali Baik Cukup Jelek 1 2 3 4 94 75 70 68 90 73 85 77 76 72 80 83 78 65 88 74
SOlusi - Excell Anova: Single Factor SUMMARY Groups Count Sum Average Variance Baik sekali 4 349 87.25 36.91667 Baik 5 391 78.2 58.7 Cukup 7 510 72.85714 30.14286 Jelek 6 414 69 13.6 ANOVA Source of Variation SS df MS F P-value F crit Between Groups 890.6838 3 296.8946 8.990643 0.000743 3.159908 Within Groups 594.4071 18 33.02262 Total 1485.091 21
SOlusi – Manual (menghitung rata-rata dalam grup dan grand) Baik sekali Baik Cukup Jelek 1 2 3 4 ------------------------------------------------------------------------------ 94 75 70 68 90 68 73 70 85 77 76 72 80 83 78 65 88 80 74 68 65 65 ---------------------------------------------------------------------------------------------------- Σ 349 391 510 414 Rata-rata 87.25 78.2 72.86 69 Rata-rata dalam grup Rata-rata grand
SOlusi – Menghitung SSE (variasi antar grup) Jumlah data di Grup1 : 4 Grup 2 : 5 Grup 3 : 7 Grup 4 : 6 SST = 890.68
SOlusi – Menghitung Variasi Dalam Grup 45.56 10.24 8.16 1.00 7.56 104.04 0.02 1.00 5.06 1.44 9.88 9.00 52.56 23.04 26.45 16.00 96.04 51.02 25.00 23.59 16.00 61.73 ---------------------------------------------------------------------------------- 110.75 234.8 180.86 68 SSE = 110.75+234.8+180.86+68 = 594.41
SOlusi – Menghitung Variasi Total 337.22 0.40 31.77 58.31 206.31 58.31 6.95 31.77 87.68 1.86 0.13 13.22 19.04 54.22 5.59 113.13 152.86 19.04 2.68 58.31 113.13 113.13 ---------------------------------------------------------------------------------------------- 650.26 267.66 234.93 332.25 SStotal = 1485.09
SOlusi – Ringkasan Hitungan Variasi antar grup : SST = 890.68 v1 = 4-1=3 MST= SST/v1=296.89 Variasi dalam grup : SSE = 594.41 v2 = 22-4=18 MSE=SSE/v2=33.02 Variasi total : SSTotal = 1485.09 Fhitung = MST/MSE = 296.89/33.02 = 8.99 Dengan derajat kebebasan v1=3 dan v2=18
SOlusi – Testing Hipotesis 1. Hipotesa H0: μ1= μ2= μ3 = μ4 H1: tidak semua rata-rata populasi sama 2. tingkat signifikan α = 5% 3. Daerah kritis Test statistiknya adalah F-test. F(v1,v2) = MST/MSE dengan dengan v1=k-1 = 4-1 = 3 dan v2= n-k = 22-4 = 18 Nilai kritis F0.025 (3,18) = 3.16 Tolak H0 jika F> 3.16 4. Perhitungan Fhitung = MST/MSE = 296.89/33.02 = 8.99 5. Keputusan : Karena F > 3.16 maka H0 ditolak 5. Kesimpulan : Tidak semua rata-rata grup sama