ANALISIS REGRESI DENGAN DUA VARIABEL BEBAS
PENDAHULUAN Dalam menjelaskan variabel respon umumnya tidak cukup hanya dengan satu variabel bebas. Kita lihat kembali contoh pada pertemuan pertama. Hubungan antara konsumsi dengan pendapatan mingguan. Tentunya tidak cukup menjelaskan variabel konsumsi hanya dari pendapatan mingguan. Sangatlah wajar jika ada variabel lain yang juga berkontribusi seperti, jumlah anggota keluarga, status sosial dll.
Model Regresi Multipel Hubungan antara 1 variabel dependen dengan dua atau lebih variabel independen Random Error Population Y-intercept Population slopes Dependent (Response) variable for sample Independent (Explanatory) variables for sample model
REGRESI DENGAN DUA PEUBAH BEBAS Perhatikan model regresi : Yi=0+ 1X1i +2X2i+i ; i=1,2,3,…,n Asumsi X : non stokastik i ~N(0,2)
Model Regresi Populasi Bivariate model 12
Model Regresi Sampel Bivariate model 13
Asumsi Ingat Kembali Asumsi Gauss Markov : E(i)=0 Cov(i j)=0 untuk ij Var(i )=2 Cov(i ,X1i) =Cov(i ,X2i)=0 Ada satu tambahan asumsi lagi yaitu Asumsi NonMultikolenieritas 1X1i+2X2i=0
PENAFSIRAN PERSAMAAN REGRESI Dengan konsep kejadian beryarat kita akan peroleh : E(Yi|X1,X2)=0+ 1X1 +2X2 Dalam kata-kata, memberikan rata-rata nilai yang diharapkan bersyarat dari Y dengan syarat nilai X1 dan X32 yang tetap atau tertentu.
Arti Koefisien Regresi Partial Misalkan 1. 1 menyatakan perubahan nilai rata-rata Y, E(Yi| X1,X2), untuk tiap unit perubahan dalam X1, dengan menjaga agar X2 konstan.
Makna Menjaga Konstan Mengendalikan ????? Misalkan Hasil Produksi (Y) dipengaruh oleh Tenaga Kerja (X1) dan Modal (X2). Misalkan kita meningkatkan masukkan tenaga X1 satu unit yang menghasilkan satu peningkatan dalam produksi Y. Bisakah kita menganggap bahwa peningkatan produksi hanya dipengaruhi oleh X1 saja???. Untuk menyatakan seberapa besar pengaruh dari X1 kita harus dapat mengendalikan X2. Mengendalikan ?????
Mengendalikan X2 Tahap 1 : Regresikan Y hanya atas X2 Yi=^0+^2X2 +wi Tahap 2 : Regresikan X1 atas X2 X1i=^’0+^’2X2 +vi Tahap 3 : Regresikan wi atas vi wi=^0+ ^1 v2 +zi
Data Mari kita buat contoh buatan dengan model : Y^=3-8X1+4X2 No. X1 0.40 0.16 0.4 2 0.60 0.36 -0.4 3 0.80 0.64 -0.8 4 1.00 -1.0 5 1.20 1.44 6 1.40 1.96 7 1.60 2.56 8 1.80 3.24 1.6 9 2.00 4.00 3.0 10 2.20 4.84 4.8 11 2.40 5.76 6.8 12 2.60 6.76 9.2 13 2.80 7.84 12.0 14 3.00 9.00 15.0 15 3.20 10.24 18.4 16 3.40 11.56 22.0 17 3.60 12.96 26.0 18 3.80 14.44 30.4 19 16.00 35.0 20 4.20 17.64 40.0
Model Yi=0+ 1X1i+ 2X2i+i Kita ingin menaksir 0 , 1 , dan 2. Melalui OLS akan diperoleh :
Persamaan Normal
Jika (XtX) matriks non singulir maka :
Sehingga dapat dilakukan perhitungan :
Tabel Analisis Varians Dua Variabel Bebas
Perhitungan Df JK RJK F Sign.F Regresi 2 3329.7674 1664.8837 Df JK RJK F Sign.F Regresi 2 3329.7674 1664.8837 1148841.8001 0.0000 Residual 17 0.0246 0.0014 Total 19 3329.7920
Memasukkan Peubah Satu-Persatu Meregresikan X2 terhadap Y. Untuk lebih mudahnya digunakan program Excel.
Kita misalkan sisaannya dengan Observation Residuals 1 4.4672 2 3.1983 3 2.1417 4 1.0976 5 0.2659 6 -0.5534 7 -1.1602 8 -1.5547 9 -1.9367 10 -2.1063 11 -2.2635 12 -2.2083 13 -1.9406 14 -1.6606 15 -1.1681 16 -0.6632 17 0.0542 18 0.9839 19 1.9260 20 3.0806
Meregresikan X2 terhadap X1
Kita misalkan sisaannya dengan Observation Residuals 1 4.4672 2 3.1983 3 2.1417 4 1.0976 5 0.2659 6 -0.5534 7 -1.1602 8 -1.5547 9 -1.9367 10 -2.1063 11 -2.2635 12 -2.2083 13 -1.9406 14 -1.6606 15 -1.1681 16 -0.6632 17 0.0542 18 0.9839 19 1.9260 20 3.0806
Regresikan Y-Y^(X2) dengan X1-X^1(X2)
Kita Jabarkan : Hasilnya sama dengan Model Regresi Pertama. Apa artinya ????
Pengaruh Satu Variabel Bebas Regresikan X1 terhadap Y
PERHATIKAN KEMBALI REGRESI 2 VARIABEL BEBAS DI AWAL
DISUSUN KEMBALI Tabel Analisis Variansi X1 Masuk Duluan Sumber JK Df Total Tanpa Koreksi 5785.12 20 Rataan b0 2455.328 1 Total Dikoreksi 3329.792 19 Regresi X1 X2 | b0 3329.7674 2 1664.884 1.15E+06 Karena Regresi X1|b0 2880.3850 2880.385 1.99E+06 Karena Regresi X2|b1 b0 449.3824 3.10E+05 Sisa 0.0246 17 0.001449 Tabel Analisis Variansi X2 Masuk Duluan Sumber JK Df RJK F Total Tanpa Koreksi 5785.12 20 Rataan b0 2455.328 1 Total Dikoreksi 3329.792 19 Regresi X1 X2 | b0 3329.7674 2 1664.884 1.15E+06 Karena Regresi X2|b0 3248.9895 3248.989 2.24E+06 Karena Regresi X1|b2 b0 80.7779 80.77788 5.57E+04 Sisa 0.0246 17 0.001449
R2 R2 karena X1 =2880.3850/3329.792=0.865035=86.5% R2 karena X2 Setelah X1 Masuk =449.3824/3329.792=0.134958=13.5% R2 karena X1 dan X2 =3329.7674/3329.792=0.999993=100% R2 karena X2 =3248.9895/3329.792=0.975733=97.57% R2 karena X1 Setelah X2 Masuk =80.7779/3329.792=0.024259=2.43%
Visualisasi Sy Y R1 R2 R X1 X2 R=97.57%-13.50%=86.50%-2.43%=84.07%
RATAAN KUADRAT SISA (S2) Bila hanya X1 dalam model maka s2=(3329.792-2880.3850)/18=449.41/18=24.9671 s =4.9967 Bila hanya X2 dalam model maka s2=(3329.792-3248.9895)/18=80.80/18=4.4890 s=2.1187 Bila X1 dan X2 dalam model maka : s2=(3329.79 -3329.7674)/17=0.02464/17=0.001449 s=0.03807
Simpangan Baku ^1 dan ^2
Simpangan Baku ^1 dan ^2 Bila hanya X1 dalam model maka s(^1)= 0.9688 jika dimasukkan X2 maka s(^1)= 0.033855 Bila hanya X2 dalam model maka s(^2)=0.0872 jika dimasukkan X1 maka s(^2)= 0.007183 Cara menghitungnya akan di bahas pada bagian selanjutnya.
Menafsirkan Koefisien Regresi Perhatikan tanda dari koefisien Perhatikan apakah data yang digunakan skala pengukuran sama atau berbeda Untuk dapat membandingkan koefisien regresi skala data haruslah sama Interpretasi koefisien regresi ke-i dalam regresi multipel mengasumsikan bahwa variabel Xj pengaruhnya konstan dalam model. (ij)
Contoh : Misalkan X1 bertambah 1 maka
Nilai R2 dan R2 yang Disesuaikan R2 fungsi yang nilainya tidak pernah turun. Semakin banyak variabel bebas dalam model maka R2 akan semakin besar. Bagaimana membandingkan dua model dengan variabel tak bebas sama dan jumlah variabel bebasnya berbeda. Perbandingan didasarkan pada R2 yang disesuaikan terhadap derajat bebasnya.
Y A B D C X2 X1 E A+B+C+D=1 R2Y1=B+C R2Y2=C+D R212=C+E R2Y12=B+C+D Squared correlation coefficients represent proportions of variance explained Y A A+B+C+D=1 R2Y1=B+C R2Y2=C+D R212=C+E R2Y12=B+C+D B D C X2 X1 E
Squared partial correlation represents a fully partialled proportion of the variance in Y Kuadrat Korelasi Partial Y dengan X1 dengan menjaga X2 konstan : r2Y1.2=B/(A+B) Kuadrat Korelasi Partial Y dengan X2 dengan menjaga X1 konstan : r2Y2.1=D/(A+D)
A squared semipartial correlation represents the proportion of all the variance in Y that is associated with one predictor but not with any of the other predictors. Kuadrat semi partial korelasi Y dengan X1 dimana efek X2 terhadap X1 telah dihilangkan adalah: Kuadrat semi partial korelasi Y dengan X2 dimana efek X1 terhadap X2 telah dihilangkan adalah: Rumus Koefisien Semipartial Korelasi :
TUGAS 3 Diketahui data berikut : Taksir model regresinya Ujilah apakah persamaan regresisecara keselurhan berarti Berapa besar variasi Y yang diterangkan oleh X dan Z secara bersama-sama Berapa besar variasi yang diterangkan oleh X bila yanya Z saja dalam model dan berapa oleh Z sesudah X masuk Hitung rYX.Z Kapankan Anda mengharap rYX.Z=rYX . Berikan lasan jawaban anda secara matematis maupun verbal. No. Y X Z 1 5.0 21 2.4 2 4.8 20 3 4.5 16 4 18 2.5 5 3.2 6 3.9 3.1 7 12 8 3.3 2.7 9 4.6 13 10 4.9 11 4.0 17 3.6 24 2.8 5.2 3.5 14 3.8 2.6 15 2.0 4.1 5.1 2.1 4.3 19 1.9
REGRESI DALAM LAMBANG MATRIKS
REGRESI DALAM LAMBANG MATRIKS Pandang kembali persamaan : Yi=0+ 1Xi+i Kalau dijabarkan : Y1=0+ 1X1+1 Y2=0+ 1X2+2 …………………………… Yn=0+ 1Xn+n Dalam notasi matrix : Prediksi :
Model Regresi dengan k Komponen Yi=0+ 1X1i+ 2X2i+ …..+kXki+I Dalam notasi matriks :
VEKTOR DAN MATRIK PEUBAH ACAK Misalkan Z dan W merupakan peubah acak
TEOREMA Bila A dan B dua matrik dan W vektor peubah acak, maka : E(AW)=AE(W) E(AWB)=AE(W)B Bila Z = AW maka Z=AWAt Z=E[(Z-E(Z))(Z-E(Z))t] =E[(AW-E(AW))(AW-E(WA))t] =AE[(W-E(W))(W-E(W))t]At =AWAt
METODE KUADRAT TERKECIL DENGAN MATRIKS Perhatikan Model Regresi : Y=X^+e
SIFAT TAKSIRAN KUADRAT TERKECIL Model Regresi Populasi : Y=X+ E()=0 =2I E(Y)=X Y=2I Sifat Penaksir ^=(XtX)-1XtY Takbias : E(^)=E[(XtX)-1XtY]=(XtX)-1XtE(Y)=(XtX)-1XtX=I= Varians Minimum : ^=(XtX)-1Xt Y X(XtX)-1 = Y(XtX)-1(Xt X)(XtX)-1 =Y(XtX)-1=2(XtX)-1 Bahwa ^ =2(XtX)-1 merupakan varians terkecil dari semua penaksir linear tak bias dijamin oleh teorema Gauss-Markov.
Teorema Gauss-Markov Teorema : Penaksir kuadrat terkecil ^=(XtX)-1XtY mempunyai varians terkecil dalam himpunan semua penaksir linear tak bias. Bukti : Misalkan * merupakan penaksir linier LAIN tak bias dari . Misalkan bentuknya : *= [(XtX)-1Xt+U]Y Untuk suatu matriks U yang merupakan fungsi dari X Jadi : E(*)= E[(XtX)-1Xt+U]Y = [(XtX)-1Xt+U]E(Y ) = [(XtX)-1Xt+U]X = +UX =(I+ UX) Agar * penaksir tak bias dari maka haruslah UX=0.
Lanjutan : *=[(XtX)-1Xt +U]Y [ (XtX)-1Xt+U]t =[(XtX)-1Xt +U]Y [X(XtX)-1+Ut] =[(XtX)-1Xt X(XtX)-1+UX(XtX)-1 +(XtX)-1XtUt+UUt] Y =[(XtX)-1+UX(XtX)-1 +(XtX)-1Xt+UUt] Y Perhatikan :UX=XtUt=0 =[(XtX)-1+UUt] Y Perhatikan bahwa UUt adalah nondefinit negatif semua unsur diagonalnya berbentuk kuadrat jadi terbukti bahwa variansi dari setiap unsur dari vektor * selalu lebih besar atau paling kecil sama dengan unsur ^
PENGUJIAN HIPOTESIS KESELURUHAN DAN DAERAH KEPERCAYAAN Teorema :
Mencari Jumlah Kuadrat Galat (JKG) Perhatikan e adalah penaksir dari Mencari E(JKGalat)
p=k+1 : banyak parameter Var(ei)=2(1-hii) dengan hii menyatakan unsur diagonal utama matriks H dan kov(ei,ej)=-2hij, bila hij unsur di luar diagonal dari H
Mencari Jumlah Kuadrat Regresi (JKR) Adalah jumlah kuadrat regresi yang belum dikoreksi jadi belum dikurangi dengan
TABEL ANOVA Di bawah H0 : =0 , E(RKRegresi)=E(RKSisa)=2 Tetapi jika 0 maka nisbah tersebut lebih besar dari 1
Pengujian Hipotesis Hipotesis : H0 : =0 vs H0 : 0 Tolak H0 jika: Fhitung = RKRegresi/RKSisa > 1 Secara berarti. Pengujian ini dilakukan dengan membandingkan Fhitung dengan F tabel pada dk1=k+1 , dk2=n-(k+1) Jika H0 ditolak maka pertanyaan berikutnya : parameter yang mana yang berbeda dengan nol dan seberapa jauh berbeda dengan nol.
Daerah Kepercayaan Daerah kepercayaan dari dengan kepercayaan 1- adalah himpunan semua titik yang memenuhi :
Uji F Sebagian Pandang persamaan regresi berikut : Y=0+1X1+2X2+ (1) Misal dibandingkan dengan model : Y=*0+*1X1+* (2) Pertanayaan : Apakah seharusnya X2 ada dalam model atau tidak?? Kasus ini bisa dipandang dua arah yaitu : Menambahkan variabel X2 pada persamaan 2 atau Mengurangkan variabel X2 dari persamaan 1. Kedua cara memberikan hasil pengujian yang sama.
Hipotesis Uji Hipotesis : H0 : 2 = 0 H1 : 2 0 Jika H0 diterima, maka model terbaik adalah model 2. Jika H0 ditolak maka model terbaik adalah model 1. Perhatikan Misalkan : JKR1 & JKG1 menyatakan jumlah kuadrat regresi dan Galat model 1(full model) JKR2& JKG2 menyatakan jumlah kuadrat regresi dan Galat model 2(reduce model) Perubahan penambahan/pengurangan JKR akibat penambahan dan pengurangan X2 adalah JKR1-JKR2. Perhatikan JKR1 JKR2 Perubahan jumlah kuadrat regresi tentunya berpengaruh pada perubahan jumlah kuadrat galat.
Hubungan JKR1 dengan JKG1 JKG1=JKT1-JKR1 Jika variabel prediktor berkurang JKR1 mengecil dan JKG1 membesar. Jika variabel prediktor bertambah JKR1 membesar dan JKG1 mengecil. Perubahan dalam jumlah kuadrat Galat (JKG) adalah JKG2 – JKG1 Sehingga : JKR1-JKR2=JKG2-JKG1 Derajat bebas : JKR 1db=2 dan JKR2 db=1 sehingga JKR1-JKR2 db=1 JKG 1db=(n-3) dan JKG2 db=(n-2) sehingga JKG2-JKG1 db=1
ANALISIS RESIDUAL Kekurang cocokan (lack of fit) Pemeriksaan sisa Berbagai plot (rajah) sisa Sisa dan data berpengaruh
Kekurang cocokan (lack of fit) Bagaimana kita tahu model fit dengan data ??? Goodness of fit Vs Lack of Fit ??? Goodness of fit R2 Tinggi R2=1-JKGalat/JKTotal Lack of Fit : RKGalat/ σ2 ≈ 1
Jika Model Benar Jika model benar maka ^2 akan menjadi penduga tak bias dari 2 Jika kita memiliki sebuah model yang tidak terlalu sulit untuk mencocokkan dengan data atau secara mudah kita ketahui telah mengambil bentuk yang salah maka ^2 akan menaksir terlalu tinggi nilai dari 2. Jika kita memiliki sebuah model yang kompleks dan sangat sesuai dengan data maka ^2 akan menaksir terlalu rendah nilai dari 2.
Contoh Model yang tepat ditunjukkan oleh garis lengkung sedangkan model yang salah ditunjukkan oleh garis horisontal. Penduga 2 akan menjadi penduga tak bias untuk model kuadratik namun akan menjadi penduga oversetimate untuk model linier.
^2 /2 1 (Model Cocok dengan Data) Soooooo….??? Kita harus menamukan sebuah prosedur pengujian untuk membandingkan antara ^2 dengan 2 Terdapat dua kondisi yaitu : 2 diketahui 2 Tidak diketahui Dengan prinsip : ^2 /2 1 (Model Cocok dengan Data)
Prinsip Respons = Pola umum (prediksi) + Pola acak Bila model tepat maka pola sisa akan acak dan rataan kuadrat sisa akan merupakan penaksir σ2 yang tak bias. Bila antara model dgn data sudah terdapat kecocokan yang baik maka Rataan kuadrat sisa/ σ2 ≈ 1. Umumnya σ2 tidak diketahui, jadi harus ditaksir.
2 Diketahui 2 biasanya diketahui dari penelitian sebelumnnya atau perdefinisi. Ingat kembali bahwa : Menyatakan lack of fit (atau ketidakcocokan model ) terbukti jika :
Contoh Sebuah contoh analisis regresi dengen metode penaksirannya adalah weighted least square. Pembobotnya adalah wi=1/var yi. Secara implisit varians error adalah 1. Sehingga diasumsikan bahwa varians dari error 1. Buka R Library(faraway) data(strongx) strongx g <- lm(crossx~energy, weights=sdˆ-2, strongx) summary(g)
Output Linear Call: lm(formula = crossx ~ energy, data = strongx, weights = sd^-2) Residuals: Min 1Q Median 3Q Max -2.323e+00 -8.842e-01 1.266e-06 1.390e+00 2.335e+00 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 148.473 8.079 18.38 7.91e-08 *** energy 530.835 47.550 11.16 3.71e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.657 on 8 degrees of freedom Multiple R-squared: 0.9397, Adjusted R-squared: 0.9321 F-statistic: 124.6 on 1 and 8 DF, p-value: 3.710e-06
Apakah model sudah cocok dengan data ???? Coba dulu model yang lain. Perhatikan secara seksama scatterplot crossx dengan energy. Code R plot(strongx$energy,strongx$crossx,xlab="Energy",ylab="Crossection") abline(g$coef) g2 <-lm(crossx~energy + I(energy^2), weights=sd^-2, strongx) summary(g2) x <- seq(0.05,0.35,by=0.01) lines(x,g2$coef[1]+g2$coef[2]*x+g2$coef[3]*x^2,lty=2)
Perbandingan Model Linear dan Kuadratik
Output Kuadratik Call: lm(formula = crossx ~ energy + I(energy^2), data = strongx, weights = sd^-2) Residuals: Min 1Q Median 3Q Max -0.89928 -0.43508 0.01374 0.37999 1.14238 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 183.8305 6.4591 28.461 1.7e-08 *** energy 0.9709 85.3688 0.011 0.991243 I(energy^2) 1597.5047 250.5869 6.375 0.000376 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error : 0.6788 on 7 degrees of freedom Multiple R-squared: 0.9911, Adjusted R-squared: 0.9886 F-statistic: 391.4 on 2 and 7 DF, p-value: 6.554e-08
Menghitung Statistika Chi-square 0.679ˆ2*7 [1] 3.2273 > 1-pchisq(3.32273,7) [1] 0.85363 Kesimpulan : Tidak cukup petunjuk untuk menyatakan model kuadratik tidak cocok dengan data
JKSisa = JK Kekurang cocokan + JK Galat murni 2 Tidak Diketahui Umumnya σ2 tidak diketahui, jadi harus ditaksir Dibutukan replikasi Prinsip : JKSisa = JK Kekurang cocokan + JK Galat murni
Konsep Sisa ke j pada pengamatan xi adalah : Kuadaratkan dan jumlahkan maka diperoleh :
Perhatikan Rataan replikasi : JKSisa pada replikasi (Pure Error) = Jumlah kuadrat galat murni = Dengan dk galat murni = n – m Jumlah kuadrat galat ketidacocokan model =
Pengujian Jika kedua galat tersebut terakhir dibagi dgn masing-masing dk –nya maka diperoleh RK. Dengan membanding kedua rataan kuadrat kita peroleh uji F sbb: Fhitung = RKC/RGM Jika Fhitung > Ftabel(m-2,n-m;) maka model dinyatakan tidak cocok. Bentuk hipotesis uji : H0 : Model Cocok H1 : Model Tidak Cocok
Tabel Anova
Contoh Misalkan diketahui data korosi campuran logam setelah direndam dalam air laut selama 60 hari. Variabel yang tercatat adalah kandungan besi dan banyaknya korosi miligram/luas dalam satu hari. Code R data(corrosion) corrosion g <- lm(loss~Fe, data=corrosion) summary(g) plot(corrosion$Fe,corrosion$loss,xlab="Iron content",ylab="Weight loss") abline(g$coef) ga <- lm(loss~factor(Fe), data=corrosion) points(corrosion$Fe,ga$fit,pch=18) anova(g,ga) gp <- lm(loss~Fe+I(Fe^2)+I(Fe^3)+I(Fe^4)+I(Fe^5)+I(Fe^6),corrosion) plot(loss~Fe, data=corrosion,ylim=c(60,130)) grid <- seq(0,2,len=50) lines(grid,predict(gp,data.frame(Fe=grid))) summary(gp)$r.squared R
Contoh Galat Murni 98.5517 No. X y dk 1 120 38.4 0.00 2 126 41.6 3 135 dk 1 120 38.4 0.00 2 126 41.6 3 135 46.2 6.48 4 49.8 5 143 55.9 6 150 61.2 0.98 7 59.8 8 155 66.5 5.29 9 63.4 10 65.8 11 160 67.5 12 162 68.7 85.81 13 81.8 14 170 75.8 15 172 78.6 Total 98.5517 Contoh Galat Murni
Analisis Dengan Minitab
Output df SS MS F Significance Regression 1 2232.008 197.7753 3.05E-09 df SS MS F Significance Regression 1 2232.008 197.7753 3.05E-09 Residual 13 146.7125 11.28557 Kekurang Cocokan 8 48.1608 6.0201 0.3054 <1 Tdk berarti Galat Murni 5 98.5517 19.7103 Total 14 2378.72
Analisis Dengan R Code R dlack<-read.table("e:/KULIAH/PASCA STATISTIKA UNPAD/DATA/dlack.txt",sep="\t", header=TRUE) dlack g1<-lm(y~X,data=dlack) summary(g1) plot(dlack$X,dlack$y,xlab="X",ylab="Ylab") abline(g1$coef) g2<-lm(y~factor(X),data=dlack) points(dlack$X,dlack$y,pch=18) anova(g1,g2)
Output R Call: lm(formula = y ~ X, data = dlack) Residuals: Min 1Q Median 3Q Max -2.9047 -2.0453 -0.2000 0.4984 10.5638 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -61.55304 8.78578 -7.006 9.26e-06 *** X 0.81969 0.05829 14.063 3.05e-09 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 3.359 on 13 degrees of freedom Multiple R-squared: 0.9383, Adjusted R-squared: 0.9336 F-statistic: 197.8 on 1 and 13 DF, p-value: 3.050e-09
Output R Analysis of Variance Table Model 1: y ~ X Model 2: y ~ factor(X) Res.Df RSS Df Sum of Sq F Pr(>F) 1 13 146.712 2 5 98.552 8 48.161 0.3054 0.9335
Scatterplot
Perlunya Pemeriksaan Sisaan Diagnostik dalam analisis regresi berguna dalam perbaikan model. Secara spesifik manfaat dari diagnosa dapat menjelaskan hasil yang tidak sesuai dengan yang diharapkan seperti: Tanda dari koefisien, Nonsignifikan dari sejumlah prediktor, Model baik kinerjanya buruk
Residuals and Leverage
Apa yang bisa diamati??? Terlihat bahwa e1, e2, …,en tidak bebas dan variansinya juga tidak sama. Var(ei) = σ2 (1 – hii) Ingat H = X(X`X)-1X` , jadi hij = xi`(X`X)-1xj , ∑hii=p. Dari H = H2 diperoleh hii = ∑ hii2, dan dengan sedikit perhitungan dapat ditunjukkan bahwa 0 ≤ hii ≤ 1 dan -0,5 ≤ hij ≤ 0,5 hii : leverage
Perhatikan
Sumber Influence R-Student High leverage Untuk mendeteksi data yang berpengaruh dalam arah y Nilainya menjadi indikasi telah terjadi error yang besar dalam prediksi data ke-i. Statistik ini tidak menilai besarnya pengaruh data ini atau menentukan statistik mana yang dipengaruhinya. High leverage Untuk mendeteksi data mana yang berpengaruh dalam arah x karena matriks H menghasilkan jarak standar dari sebuah titik xi kepada pusat data , nilainya menjadi indikasi bagi data yang berpengaruh terhadap koefisien regresi juga kriteria kinerja.
Kesimpulan hii & R-Student ??? Dari kedua statistik ini maka dapat disimpulkan bahwa sebuah titik dengan R-student besar dan hii besar sangat berpotensi sebagai sebuah titik yang sangat berpengaruh (influential ) teradap sejumlah aspek dalam regresi Kaitan dengan Outlier : outlier belum tentu influential high leverage belum tentu influential influential observation belum tentu outlier
Berapa Besar R-Student Dari pemahaman tentang standar error, sebuah nilai yang umum dipakai untuk ti adalah 2. Nilaiini menunjukkan bahwa residu menyimpang dari reratanya, yaitu nol, sejauh dua standar error. Oleh karenanya titik dengan ti 2 atau ti -2 dimasukan kedalam kategori perlu diagnosa lebih lanjut. Dalam hal diagonal HAT, yaitu hii, nilainya ditetapkan dengan pertimbangan bahwa (banyak parameter dalam regresi). Sehingga wajar jika sebagai norm dipakai rerata , dan kalsifikasi dikerjakan dengan pedoman jika sebuah titik mempunyai akan dimasukan kedalam kategori perlu diagnosa lebih lanjut.
Diagnostik Besarnya Pengaruh Potensi setiap titik dalam mempengaruhi hasil regresi, seperti dibahas di atas, dikerjakan melalui statistik hii dan R-student (ti). Adanya sebuah titik yang sangat bepengaruh dapat merubah kesimpulan yang diperoleh sebelumnya. Apabila diperhatikan kembali, penilaian pengaruh titik ini dikerjakan dengan cara membandingkan hasil regresi yang melibatkan titik tsb. Dengan hasil seandainya titik tersebut disisihkan. Penyisihan titik didasarkan kepada informasi yang diberikan oleh kedua statistik, hii dan R-student (ti).
Pengaruh Terhadap Nilai Prediksi (DFFITS) Untuk menilai besarnya pengaruh sebuah titik terhadap perubahan yang terjadi pada prediksi dipakai statistik DFFITS (DFFITS)i =
Simpulan Statistik ini menggambarkan berapa standar error perubahan yang terjadi dalam prediksi seandainya xi disisihkan dari data. Dari perumusannya nampak bahwa pada hakekatnya statistik ini sama dengan R-student yang diperbesar atau diperkecil oleh besarnya leverage. Ketergantungannya kepada kedua statistik ini menyebabkan : (DFFITS)i besar jika xi merupakan outlier (ti besar) atau high leverage (hii ~ 1) (DFFITS)i sedang jika xi bukan leverage (hii ~ 0) (DFFITS)i kecil jika xi merupakan high leverage (hii ~ 0) dengan ti kecil Jadi (DFFITS)i merupakan kombinasi dari leverage dan error dalam arah y. Nilai (DFFITS)i yang besar ( ) menyatakan bahwa xi mempunyai pengaruh yang besar terhadap nilai prediksi.
Pengaruh Terhadap Koefisien Regresi Untuk menilai besarnya pengaruh sebuah titik terhadap perubahan yang terjadi pada koefisien regresi dipakai statistik DFBETAS. (DFBETAS)j,i = Nilai (DFBETAS)j,i yang besar ( ) menyatakan bahwa xi mempunyai pengaruh yang besar terhadap koefisien regresi ke-j. Selain nilainya, tandanya juga memberi informasi berharga, misalnya diperoleh nilai (DFBETAS)j,i besar dan negatif, dan dalam masalah yang dihadpi koefisien yang negatif tidak ada artinya. Maka hasil ini kemungkinan disebabkan oleh titik xi.
Melalui statistik DFBETAS dikaji pengaruh titik xi terhadap koefisien regresi satu persatu. Untuk melihat dampak sebuah titik xi pada semua koefisien regresi sekaligus gunakan statistik Cook’s D, disebut Cook’s Distance. Statistik ini menyatakan jarak antara b dengan b-i. Nilainya yang besar ( ) mencerminkan pengaruh yang besar dari titik xi terhadap semua koefisien. Kemudian apabila ingin diketahui koefisien regresi mana yang dipengaruhi gunakan DFBETAS.
TRANSFORMASI
Transformasi Variabel Y Box dan Cox (1964) mengusulkan penggunaan transformasi : untuk data yang positif (y>0). Jika data negatif, maka ditambah dengan suatu tetapan. Box dan Cox menggunakan metode kemungkinan maksimum untuk menaksir λ . Nilai taksiran λ ditentukan dengan mencari nilai minimum JKS sebagai fungsi dari λ. Caranya untuk berbagai nilai λ, diregresikan respon terhadap peubah bebas, digambarkan grafik JKS(λ) sebagai fungsi dari λ, kemudian dari grafik ditentukan nilai λ yang meminimumkan JKS.
Contoh Nomor x y 1 1.1 79.57 7 8.4 2231.54 2 2.7 288.14 8 8.8 2473.41 3 3.3 437.58 9 9.6 2864.86 4 4.5 749.88 10 10.4 3241.56 5 5.9 1147.72 11 10.9 3596.17 6 7.1 1588.68 12 12.3 4678.13
Dari data diatas dapat dibuat plot y terhadap x seperti tampak pada Gambar 5. Dari plot diatas terlihat bahwa y tidak cukup linear sebagai fungsi dari x, walaupun R2 sebesar 95.5%. Berikut tampilan output minitab :
Output MINITAB Regression Analysis: y versus x The regression equation is y = - 892 + 401 x Predictor Coef SE Coef T P Constant -891.9 217.2 -4.11 0.002 x 400.94 27.60 14.53 0.000 S = 327.906 R-Sq = 95.5% R-Sq(adj) = 95.0% Analysis of Variance Source DF SS MS F P Regression 1 22697816 22697816 211.10 0.000 Residual Error 10 1075223 107522 Total 11 23773039
Transformasi Box Cox R2 sebesar 95.5% sudah relatif sangat besar. Namun dengan transformasi model ini dapat lebih baik lagi. Respon y akan ditransformasikan dengan terlebih dahulu menentukan nilai taksiran λ. Dengan penggunaan program minitab pada menu Box-Cox Transformation, sudah dapat dengan mudah ditentukan nilai y* hasil transformasi secara otomatis. Sehingga nilai y* dapat diregresikan terhadap peubah x. Hasil output Box-Cox Transformation dapat dilihat taksiran λ terletak pada 0< λ<1, dan λ=0,5 memberikan nilai yang minimum. Sehingga fungsi transformasi yang ditentukan adalah .
Output Data Setelah Ditransformasi Regression Analysis: y* versus x The regression equation is y* = 3.20 + 5.24 x Predictor Coef SE Coef T P Constant 3.2024 0.3296 9.72 0.000 x 5.23883 0.04187 125.11 0.000 S = 0.497563 R-Sq = 99.9% R-Sq(adj) = 99.9% Analysis of Variance Source DF SS MS F P Regression 1 3875.2 3875.2 15652.98 0.000 Residual Error 10 2.5 0.2 Total 11 3877.7
Terlihat dari output minitab diatas bahwa model menjadi y. =3. 20+5 Terlihat dari output minitab diatas bahwa model menjadi y*=3.20+5.24x dengan R2 sebesar 99.9% dan plot antara y* dan x menjadi linear. Sehingga model ini menjadi lebih baik dari sebelum dilakukan transformasi
Transformasi X Transformasi ini digunakan bila suku galat dianggap telah memenuhi asumsi kenormalan, tetapi belum semua peubah bebas x1, x2, …, xk terkait secara linear dengan respon y. Box dan Tidwell (1962) mengusulkan transformasi : Dan model menjadi :
Mendapatkan nilai Nilai α ditaksir melalui proses iterasi dan kekonvergenan. Pada nilai limit α, JKS mencapai minimum sebagai fungsi dari α. Iterasi dapat dimulai dari α-1 dan dilanjutkan beberapa langkah sebagai berikut >>diregresikan (α=1) . >>dibentuk peubah baru z, dan z=x.lnx. >>diregresikan y terhadap x dan z : . >>ditentukan 1=(c1/b1)+1 >>dipandang peubah baru x*=x1 dan diulangi proses semula sampai deretan 1, 2,… menuju 1 akhirnya dan diambil k dengan =1, 2,…, k, bila iterasi dilakukan k kali.
Contoh Nomor x y 1 2.3 5.05 12 6.2 3.15 2 1.4 7.06 13 4.9 3.94 3 10.3 2.4 14 3.5 3.75 4 6.7 3.36 15 4.74 5 8.4 3.49 16 9.4 3.17 6 9.2 3.63 17 6.9 2.89 7 5.3 4.46 18 7.6 2.99 8 4.7 3.84 19 0.8 9.72 9 7.1 3.34 20 1.2 6.3 10 3.8 3.44 21 0.7 10.55 11 5.6 3.97
Hasil Tanpa Transformasi Hasil output minitab memberikan sebagai berikut : Regression Analysis: y versus x The regression equation is y = 7.48 - 0.570 x Predictor Coef SE Coef T P Constant 7.4788 0.6163 12.14 0.000 x -0.5703 0.1041 -5.48 0.000 S = 1.38458 R-Sq = 61.2% R-Sq(adj) = 59.2% Analysis of Variance Source DF SS MS F P Regression 1 57.568 57.568 30.03 0.000 Residual Error 19 36.424 1.917 Total 20 93.992
Dari output diatas terlihat bahwa hubungan antara y dan x tidak liner dan R2 sebesar 61.2% belum cukup besar untuk menjelaskan model. Sehingga diperlukan transformasi untuk memperbaiki model. Proses iterasi didapat α = -1.064 atau untuk lebih memudahkan dalam perhitungan secara tehnis nilai α menjadi α = -1.0. berikut hasil output minitab setelah dilakukan transformasi terhadap x dengan α = -1.0 atau fungsi
Hasil Data X Transformasi Regression Analysis: y versus x* The regression equation is y = 2.53 + 5.58 x* Predictor Coef SE Coef T P Constant 2.5250 0.1357 18.60 0.000 x* 5.5767 0.2621 21.27 0.000 S = 0.446452 R-Sq = 96.0% R-Sq(adj) = 95.8% Analysis of Variance Source DF SS MS F P Regression 1 90.205 90.205 452.57 0.000 Residual Error 19 3.787 0.199 Total 20 93.992
Dari output minitab terlihat bahwa model menjadi y=2. 53+5. 58x Dari output minitab terlihat bahwa model menjadi y=2.53+5.58x* dengan R2 menjadi lebih besar yaitu sebesar 96.0% dan hubungan antara y dan x* menjadi linear. Sehingga model ini menjadi lebih baik dari sebelumnya.