ANALISIS REGRESI DENGAN DUA VARIABEL BEBAS

ANALISIS REGRESI DENGAN DUA VARIABEL BEBAS

PENDAHULUAN Dalam menjelaskan variabel respon umumnya tidak cukup hanya dengan satu variabel bebas. Kita lihat kembali contoh pada pertemuan pertama. Hubungan antara konsumsi dengan pendapatan mingguan. Tentunya tidak cukup menjelaskan variabel konsumsi hanya dari pendapatan mingguan. Sangatlah wajar jika ada variabel lain yang juga berkontribusi seperti, jumlah anggota keluarga, status sosial dll.

Model Regresi Multipel
Hubungan antara 1 variabel dependen dengan dua atau lebih variabel independen Random Error Population Y-intercept Population slopes Dependent (Response) variable for sample Independent (Explanatory) variables for sample model

REGRESI DENGAN DUA PEUBAH BEBAS
Perhatikan model regresi : Yi=0+ 1X1i +2X2i+i ; i=1,2,3,…,n Asumsi X : non stokastik i ~N(0,2)

Model Regresi Populasi
Bivariate model 12

Model Regresi Sampel Bivariate model 13

Asumsi Ingat Kembali Asumsi Gauss Markov : E(i)=0 Cov(i j)=0 untuk ij Var(i )=2 Cov(i ,X1i) =Cov(i ,X2i)=0 Ada satu tambahan asumsi lagi yaitu Asumsi NonMultikolenieritas 1X1i+2X2i=0

PENAFSIRAN PERSAMAAN REGRESI
Dengan konsep kejadian beryarat kita akan peroleh : E(Yi|X1,X2)=0+ 1X1 +2X2 Dalam kata-kata, memberikan rata-rata nilai yang diharapkan bersyarat dari Y dengan syarat nilai X1 dan X32 yang tetap atau tertentu.

Arti Koefisien Regresi Partial
Misalkan 1. 1 menyatakan perubahan nilai rata-rata Y, E(Yi| X1,X2), untuk tiap unit perubahan dalam X1, dengan menjaga agar X2 konstan.

Makna Menjaga Konstan Mengendalikan ?????
Misalkan Hasil Produksi (Y) dipengaruh oleh Tenaga Kerja (X1) dan Modal (X2). Misalkan kita meningkatkan masukkan tenaga X1 satu unit yang menghasilkan satu peningkatan dalam produksi Y. Bisakah kita menganggap bahwa peningkatan produksi hanya dipengaruhi oleh X1 saja???. Untuk menyatakan seberapa besar pengaruh dari X1 kita harus dapat mengendalikan X2. Mengendalikan ?????

Mengendalikan X2 Tahap 1 : Regresikan Y hanya atas X2 Yi=^0+^2X2 +wi Tahap 2 : Regresikan X1 atas X2 X1i=^’0+^’2X2 +vi Tahap 3 : Regresikan wi atas vi wi=^0+ ^1 v2 +zi

Data Mari kita buat contoh buatan dengan model : Y^=3-8X1+4X2 No. X1
0.40 0.16 0.4 2 0.60 0.36 -0.4 3 0.80 0.64 -0.8 4 1.00 -1.0 5 1.20 1.44 6 1.40 1.96 7 1.60 2.56 8 1.80 3.24 1.6 9 2.00 4.00 3.0 10 2.20 4.84 4.8 11 2.40 5.76 6.8 12 2.60 6.76 9.2 13 2.80 7.84 12.0 14 3.00 9.00 15.0 15 3.20 10.24 18.4 16 3.40 11.56 22.0 17 3.60 12.96 26.0 18 3.80 14.44 30.4 19 16.00 35.0 20 4.20 17.64 40.0

Model Yi=0+ 1X1i+ 2X2i+i Kita ingin menaksir 0 , 1 , dan 2. Melalui OLS akan diperoleh :

Persamaan Normal

Jika (XtX) matriks non singulir maka :

Sehingga dapat dilakukan perhitungan :

Tabel Analisis Varians Dua Variabel Bebas

Perhitungan Df JK RJK F Sign.F Regresi 2 3329.7674 1664.8837
Df JK RJK F Sign.F Regresi 2 0.0000 Residual 17 0.0246 0.0014 Total 19

Memasukkan Peubah Satu-Persatu
Meregresikan X2 terhadap Y. Untuk lebih mudahnya digunakan program Excel.

Kita misalkan sisaannya dengan
Observation Residuals 1 4.4672 2 3.1983 3 2.1417 4 1.0976 5 0.2659 6 7 8 9 10 11 12 13 14 15 16 17 0.0542 18 0.9839 19 1.9260 20 3.0806

Meregresikan X2 terhadap X1

Kita misalkan sisaannya dengan
Observation Residuals 1 4.4672 2 3.1983 3 2.1417 4 1.0976 5 0.2659 6 7 8 9 10 11 12 13 14 15 16 17 0.0542 18 0.9839 19 1.9260 20 3.0806

Regresikan Y-Y^(X2) dengan X1-X^1(X2)

Kita Jabarkan : Hasilnya sama dengan Model Regresi Pertama. Apa artinya ????

Pengaruh Satu Variabel Bebas
Regresikan X1 terhadap Y

PERHATIKAN KEMBALI REGRESI 2 VARIABEL BEBAS DI AWAL

DISUSUN KEMBALI Tabel Analisis Variansi X1 Masuk Duluan Sumber JK Df
Total Tanpa Koreksi 20 Rataan b0 1 Total Dikoreksi 19 Regresi X1 X2 | b0 2 1.15E+06 Karena Regresi X1|b0 1.99E+06 Karena Regresi X2|b1 b0 3.10E+05 Sisa 0.0246 17 Tabel Analisis Variansi X2 Masuk Duluan Sumber JK Df RJK F Total Tanpa Koreksi 20 Rataan b0 1 Total Dikoreksi 19 Regresi X1 X2 | b0 2 1.15E+06 Karena Regresi X2|b0 2.24E+06 Karena Regresi X1|b2 b0 5.57E+04 Sisa 0.0246 17

R2 R2 karena X1 = / = =86.5% R2 karena X2 Setelah X1 Masuk = / = =13.5% R2 karena X1 dan X2 = / = =100% R2 karena X2 = / = =97.57% R2 karena X1 Setelah X2 Masuk = / = =2.43%

Visualisasi Sy Y R1 R2 R X1 X2 R=97.57%-13.50%=86.50%-2.43%=84.07%

RATAAN KUADRAT SISA (S2)
Bila hanya X1 dalam model maka s2=( )/18=449.41/18= s = Bila hanya X2 dalam model maka s2=( )/18=80.80/18= s= Bila X1 dan X2 dalam model maka : s2=( )/17= /17= s=

Simpangan Baku ^1 dan ^2

Simpangan Baku ^1 dan ^2
Bila hanya X1 dalam model maka s(^1)= jika dimasukkan X2 maka s(^1)= Bila hanya X2 dalam model maka s(^2)= jika dimasukkan X1 maka s(^2)= Cara menghitungnya akan di bahas pada bagian selanjutnya.

Menafsirkan Koefisien Regresi
Perhatikan tanda dari koefisien Perhatikan apakah data yang digunakan skala pengukuran sama atau berbeda Untuk dapat membandingkan koefisien regresi skala data haruslah sama Interpretasi koefisien regresi ke-i dalam regresi multipel mengasumsikan bahwa variabel Xj pengaruhnya konstan dalam model. (ij)

Contoh : Misalkan X1 bertambah 1 maka

Nilai R2 dan R2 yang Disesuaikan
R2 fungsi yang nilainya tidak pernah turun. Semakin banyak variabel bebas dalam model maka R2 akan semakin besar. Bagaimana membandingkan dua model dengan variabel tak bebas sama dan jumlah variabel bebasnya berbeda. Perbandingan didasarkan pada R2 yang disesuaikan terhadap derajat bebasnya.

Y A B D C X2 X1 E A+B+C+D=1 R2Y1=B+C R2Y2=C+D R212=C+E R2Y12=B+C+D
Squared correlation coefficients represent proportions of variance explained Y A A+B+C+D=1 R2Y1=B+C R2Y2=C+D R212=C+E R2Y12=B+C+D B D C X2 X1 E

Squared partial correlation represents a fully partialled proportion of the variance in Y
Kuadrat Korelasi Partial Y dengan X1 dengan menjaga X2 konstan : r2Y1.2=B/(A+B) Kuadrat Korelasi Partial Y dengan X2 dengan menjaga X1 konstan : r2Y2.1=D/(A+D)

A squared semipartial correlation represents the proportion of all the variance in Y that is associated with one predictor but not with any of the other predictors. Kuadrat semi partial korelasi Y dengan X1 dimana efek X2 terhadap X1 telah dihilangkan adalah: Kuadrat semi partial korelasi Y dengan X2 dimana efek X1 terhadap X2 telah dihilangkan adalah: Rumus Koefisien Semipartial Korelasi :

TUGAS 3 Diketahui data berikut : Taksir model regresinya
Ujilah apakah persamaan regresisecara keselurhan berarti Berapa besar variasi Y yang diterangkan oleh X dan Z secara bersama-sama Berapa besar variasi yang diterangkan oleh X bila yanya Z saja dalam model dan berapa oleh Z sesudah X masuk Hitung rYX.Z Kapankan Anda mengharap rYX.Z=rYX . Berikan lasan jawaban anda secara matematis maupun verbal. No. Y X Z 1 5.0 21 2.4 2 4.8 20 3 4.5 16 4 18 2.5 5 3.2 6 3.9 3.1 7 12 8 3.3 2.7 9 4.6 13 10 4.9 11 4.0 17 3.6 24 2.8 5.2 3.5 14 3.8 2.6 15 2.0 4.1 5.1 2.1 4.3 19 1.9

REGRESI DALAM LAMBANG MATRIKS

REGRESI DALAM LAMBANG MATRIKS
Pandang kembali persamaan : Yi=0+ 1Xi+i Kalau dijabarkan : Y1=0+ 1X1+1 Y2=0+ 1X2+2 …………………………… Yn=0+ 1Xn+n Dalam notasi matrix : Prediksi :

Model Regresi dengan k Komponen
Yi=0+ 1X1i+ 2X2i+ …..+kXki+I Dalam notasi matriks :

VEKTOR DAN MATRIK PEUBAH ACAK
Misalkan Z dan W merupakan peubah acak

TEOREMA Bila A dan B dua matrik dan W vektor peubah acak, maka :
E(AW)=AE(W) E(AWB)=AE(W)B Bila Z = AW maka Z=AWAt Z=E[(Z-E(Z))(Z-E(Z))t] =E[(AW-E(AW))(AW-E(WA))t] =AE[(W-E(W))(W-E(W))t]At =AWAt

METODE KUADRAT TERKECIL DENGAN MATRIKS
Perhatikan Model Regresi : Y=X^+e

SIFAT TAKSIRAN KUADRAT TERKECIL
Model Regresi Populasi : Y=X+ E()= =2I E(Y)=X Y=2I Sifat Penaksir ^=(XtX)-1XtY Takbias : E(^)=E[(XtX)-1XtY]=(XtX)-1XtE(Y)=(XtX)-1XtX=I= Varians Minimum : ^=(XtX)-1Xt Y X(XtX)-1 = Y(XtX)-1(Xt X)(XtX)-1 =Y(XtX)-1=2(XtX)-1 Bahwa ^ =2(XtX)-1 merupakan varians terkecil dari semua penaksir linear tak bias dijamin oleh teorema Gauss-Markov.

Teorema Gauss-Markov Teorema : Penaksir kuadrat terkecil ^=(XtX)-1XtY mempunyai varians terkecil dalam himpunan semua penaksir linear tak bias. Bukti : Misalkan * merupakan penaksir linier LAIN tak bias dari . Misalkan bentuknya : *= [(XtX)-1Xt+U]Y Untuk suatu matriks U yang merupakan fungsi dari X Jadi : E(*)= E[(XtX)-1Xt+U]Y = [(XtX)-1Xt+U]E(Y ) = [(XtX)-1Xt+U]X =  +UX =(I+ UX) Agar * penaksir tak bias dari  maka haruslah UX=0.

Lanjutan : *=[(XtX)-1Xt +U]Y [ (XtX)-1Xt+U]t =[(XtX)-1Xt +U]Y [X(XtX)-1+Ut] =[(XtX)-1Xt X(XtX)-1+UX(XtX)-1 +(XtX)-1XtUt+UUt] Y =[(XtX)-1+UX(XtX)-1 +(XtX)-1Xt+UUt] Y Perhatikan :UX=XtUt=0 =[(XtX)-1+UUt] Y Perhatikan bahwa UUt adalah nondefinit negatif semua unsur diagonalnya berbentuk kuadrat jadi terbukti bahwa variansi dari setiap unsur dari vektor * selalu lebih besar atau paling kecil sama dengan unsur ^

PENGUJIAN HIPOTESIS KESELURUHAN DAN DAERAH KEPERCAYAAN
Teorema :

Mencari Jumlah Kuadrat Galat (JKG)
Perhatikan e adalah penaksir dari  Mencari E(JKGalat)

p=k+1 : banyak parameter
Var(ei)=2(1-hii) dengan hii menyatakan unsur diagonal utama matriks H dan kov(ei,ej)=-2hij, bila hij unsur di luar diagonal dari H

Mencari Jumlah Kuadrat Regresi (JKR)
Adalah jumlah kuadrat regresi yang belum dikoreksi jadi belum dikurangi dengan

TABEL ANOVA Di bawah H0 : =0 , E(RKRegresi)=E(RKSisa)=2
Tetapi jika 0 maka nisbah tersebut lebih besar dari 1

Pengujian Hipotesis Hipotesis : H0 : =0 vs H0 : 0 Tolak H0 jika: Fhitung = RKRegresi/RKSisa > 1 Secara berarti. Pengujian ini dilakukan dengan membandingkan Fhitung dengan F tabel pada dk1=k+1 , dk2=n-(k+1) Jika H0 ditolak maka pertanyaan berikutnya : parameter yang mana yang berbeda dengan nol dan seberapa jauh berbeda dengan nol.

Daerah Kepercayaan Daerah kepercayaan dari  dengan kepercayaan 1- adalah himpunan semua titik  yang memenuhi :

Uji F Sebagian Pandang persamaan regresi berikut :
Y=0+1X1+2X2+ (1) Misal dibandingkan dengan model : Y=*0+*1X1+* (2) Pertanayaan : Apakah seharusnya X2 ada dalam model atau tidak?? Kasus ini bisa dipandang dua arah yaitu : Menambahkan variabel X2 pada persamaan 2 atau Mengurangkan variabel X2 dari persamaan 1. Kedua cara memberikan hasil pengujian yang sama.

Hipotesis Uji Hipotesis : H0 : 2 = 0 H1 : 2  0
Jika H0 diterima, maka model terbaik adalah model 2. Jika H0 ditolak maka model terbaik adalah model 1. Perhatikan Misalkan : JKR1 & JKG1 menyatakan jumlah kuadrat regresi dan Galat model 1(full model) JKR2& JKG2 menyatakan jumlah kuadrat regresi dan Galat model 2(reduce model) Perubahan penambahan/pengurangan JKR akibat penambahan dan pengurangan X2 adalah JKR1-JKR2. Perhatikan JKR1  JKR2 Perubahan jumlah kuadrat regresi tentunya berpengaruh pada perubahan jumlah kuadrat galat.

Hubungan JKR1 dengan JKG1 JKG1=JKT1-JKR1 Jika variabel prediktor berkurang JKR1 mengecil dan JKG1 membesar. Jika variabel prediktor bertambah JKR1 membesar dan JKG1 mengecil. Perubahan dalam jumlah kuadrat Galat (JKG) adalah JKG2 – JKG1 Sehingga : JKR1-JKR2=JKG2-JKG1 Derajat bebas : JKR 1db=2 dan JKR2 db=1 sehingga JKR1-JKR2 db=1 JKG 1db=(n-3) dan JKG2 db=(n-2) sehingga JKG2-JKG1 db=1

ANALISIS RESIDUAL Kekurang cocokan (lack of fit) Pemeriksaan sisa
Berbagai plot (rajah) sisa Sisa dan data berpengaruh

Kekurang cocokan (lack of fit)
Bagaimana kita tahu model fit dengan data ??? Goodness of fit Vs Lack of Fit ??? Goodness of fit  R2 Tinggi R2=1-JKGalat/JKTotal Lack of Fit : RKGalat/ σ2 ≈ 1

Jika Model Benar Jika model benar maka ^2 akan menjadi penduga tak bias dari 2 Jika kita memiliki sebuah model yang tidak terlalu sulit untuk mencocokkan dengan data atau secara mudah kita ketahui telah mengambil bentuk yang salah maka ^2 akan menaksir terlalu tinggi nilai dari 2. Jika kita memiliki sebuah model yang kompleks dan sangat sesuai dengan data maka ^2 akan menaksir terlalu rendah nilai dari 2.

Contoh Model yang tepat ditunjukkan oleh garis lengkung sedangkan model yang salah ditunjukkan oleh garis horisontal. Penduga 2 akan menjadi penduga tak bias untuk model kuadratik namun akan menjadi penduga oversetimate untuk model linier.

^2 /2 1 (Model Cocok dengan Data)
Soooooo….??? Kita harus menamukan sebuah prosedur pengujian untuk membandingkan antara ^2 dengan 2 Terdapat dua kondisi yaitu : 2 diketahui 2 Tidak diketahui Dengan prinsip : ^2 /2 1 (Model Cocok dengan Data)

Prinsip Respons = Pola umum (prediksi) + Pola acak Bila model tepat maka pola sisa akan acak dan rataan kuadrat sisa akan merupakan penaksir σ2 yang tak bias. Bila antara model dgn data sudah terdapat kecocokan yang baik maka Rataan kuadrat sisa/ σ2 ≈ 1. Umumnya σ2 tidak diketahui, jadi harus ditaksir.

2 Diketahui 2 biasanya diketahui dari penelitian sebelumnnya atau perdefinisi. Ingat kembali bahwa : Menyatakan lack of fit (atau ketidakcocokan model ) terbukti jika :

Contoh Sebuah contoh analisis regresi dengen metode penaksirannya adalah weighted least square. Pembobotnya adalah wi=1/var yi. Secara implisit varians error adalah 1. Sehingga diasumsikan bahwa varians dari error 1. Buka R Library(faraway) data(strongx) strongx g <- lm(crossx~energy, weights=sdˆ-2, strongx) summary(g)

Output Linear Call: lm(formula = crossx ~ energy, data = strongx, weights = sd^-2) Residuals: Min Q Median Q Max -2.323e e e e e+00 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) e-08 *** energy e-06 *** --- Signif. codes: 0 ‘***’ ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: on 8 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 1 and 8 DF, p-value: 3.710e-06

Apakah model sudah cocok dengan data ????
Coba dulu model yang lain. Perhatikan secara seksama scatterplot crossx dengan energy. Code R plot(strongx$energy,strongx$crossx,xlab="Energy",ylab="Crossection") abline(g$coef) g2 <-lm(crossx~energy + I(energy^2), weights=sd^-2, strongx) summary(g2) x <- seq(0.05,0.35,by=0.01) lines(x,g2$coef[1]+g2$coef[2]*x+g2$coef[3]*x^2,lty=2)

Perbandingan Model Linear dan Kuadratik

Output Kuadratik Call: lm(formula = crossx ~ energy + I(energy^2), data = strongx, weights = sd^-2) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) e-08 *** energy I(energy^2) *** --- Signif. codes: 0 ‘***’ ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error : on 7 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 2 and 7 DF, p-value: 6.554e-08

Menghitung Statistika Chi-square
0.679ˆ2*7 [1] > 1-pchisq( ,7) [1] Kesimpulan : Tidak cukup petunjuk untuk menyatakan model kuadratik tidak cocok dengan data

JKSisa = JK Kekurang cocokan + JK Galat murni
2 Tidak Diketahui Umumnya σ2 tidak diketahui, jadi harus ditaksir Dibutukan replikasi Prinsip : JKSisa = JK Kekurang cocokan + JK Galat murni

Konsep Sisa ke j pada pengamatan xi adalah : Kuadaratkan dan jumlahkan maka diperoleh :

Perhatikan Rataan replikasi : JKSisa pada replikasi (Pure Error) =
Jumlah kuadrat galat murni = Dengan dk galat murni = n – m Jumlah kuadrat galat ketidacocokan model =

Pengujian Jika kedua galat tersebut terakhir dibagi dgn masing-masing dk –nya maka diperoleh RK. Dengan membanding kedua rataan kuadrat kita peroleh uji F sbb: Fhitung = RKC/RGM Jika Fhitung > Ftabel(m-2,n-m;) maka model dinyatakan tidak cocok. Bentuk hipotesis uji : H0 : Model Cocok H1 : Model Tidak Cocok

Tabel Anova

Contoh Misalkan diketahui data korosi campuran logam setelah direndam dalam air laut selama 60 hari. Variabel yang tercatat adalah kandungan besi dan banyaknya korosi miligram/luas dalam satu hari. Code R data(corrosion) corrosion g <- lm(loss~Fe, data=corrosion) summary(g) plot(corrosion$Fe,corrosion$loss,xlab="Iron content",ylab="Weight loss") abline(g$coef) ga <- lm(loss~factor(Fe), data=corrosion) points(corrosion$Fe,ga$fit,pch=18) anova(g,ga) gp <- lm(loss~Fe+I(Fe^2)+I(Fe^3)+I(Fe^4)+I(Fe^5)+I(Fe^6),corrosion) plot(loss~Fe, data=corrosion,ylim=c(60,130)) grid <- seq(0,2,len=50) lines(grid,predict(gp,data.frame(Fe=grid))) summary(gp)$r.squared R

Contoh Galat Murni 98.5517 No. X y dk 1 120 38.4 0.00 2 126 41.6 3 135
dk 1 120 38.4 0.00 2 126 41.6 3 135 46.2 6.48 4 49.8 5 143 55.9 6 150 61.2 0.98 7 59.8 8 155 66.5 5.29 9 63.4 10 65.8 11 160 67.5 12 162 68.7 85.81 13 81.8 14 170 75.8 15 172 78.6 Total Contoh Galat Murni

Analisis Dengan Minitab

Output df SS MS F Significance Regression 1 2232.008 197.7753 3.05E-09
df SS MS F Significance Regression 1 3.05E-09 Residual 13 Kekurang Cocokan 8 6.0201 0.3054 <1 Tdk berarti Galat Murni 5 Total 14

Analisis Dengan R Code R
dlack<-read.table("e:/KULIAH/PASCA STATISTIKA UNPAD/DATA/dlack.txt",sep="\t", header=TRUE) dlack g1<-lm(y~X,data=dlack) summary(g1) plot(dlack$X,dlack$y,xlab="X",ylab="Ylab") abline(g1$coef) g2<-lm(y~factor(X),data=dlack) points(dlack$X,dlack$y,pch=18) anova(g1,g2)

Output R Call: lm(formula = y ~ X, data = dlack) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) e-06 *** X e-09 *** --- Signif. codes: 0 ‘***’ ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: on 13 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 1 and 13 DF, p-value: 3.050e-09

Output R Analysis of Variance Table Model 1: y ~ X Model 2: y ~ factor(X) Res.Df RSS Df Sum of Sq F Pr(>F)

Scatterplot

Perlunya Pemeriksaan Sisaan
Diagnostik dalam analisis regresi berguna dalam perbaikan model. Secara spesifik manfaat dari diagnosa dapat menjelaskan hasil yang tidak sesuai dengan yang diharapkan seperti: Tanda dari koefisien, Nonsignifikan dari sejumlah prediktor, Model baik kinerjanya buruk

Residuals and Leverage

Apa yang bisa diamati??? Terlihat bahwa e1, e2, …,en tidak bebas dan variansinya juga tidak sama. Var(ei) = σ2 (1 – hii) Ingat H = X(X`X)-1X` , jadi hij = xi`(X`X)-1xj , ∑hii=p. Dari H = H2 diperoleh hii = ∑ hii2, dan dengan sedikit perhitungan dapat ditunjukkan bahwa 0 ≤ hii ≤ 1 dan -0,5 ≤ hij ≤ 0,5 hii : leverage

Perhatikan

Sumber Influence R-Student High leverage
Untuk mendeteksi data yang berpengaruh dalam arah y Nilainya menjadi indikasi telah terjadi error yang besar dalam prediksi data ke-i. Statistik ini tidak menilai besarnya pengaruh data ini atau menentukan statistik mana yang dipengaruhinya. High leverage Untuk mendeteksi data mana yang berpengaruh dalam arah x karena matriks H menghasilkan jarak standar dari sebuah titik xi kepada pusat data , nilainya menjadi indikasi bagi data yang berpengaruh terhadap koefisien regresi juga kriteria kinerja.

Kesimpulan hii & R-Student ???
Dari kedua statistik ini maka dapat disimpulkan bahwa sebuah titik dengan R-student besar dan hii besar sangat berpotensi sebagai sebuah titik yang sangat berpengaruh (influential ) teradap sejumlah aspek dalam regresi Kaitan dengan Outlier : outlier belum tentu influential high leverage belum tentu influential influential observation belum tentu outlier

Berapa Besar R-Student
Dari pemahaman tentang standar error, sebuah nilai yang umum dipakai untuk ti adalah  2. Nilaiini menunjukkan bahwa residu menyimpang dari reratanya, yaitu nol, sejauh dua standar error. Oleh karenanya titik dengan ti  2 atau ti  -2 dimasukan kedalam kategori perlu diagnosa lebih lanjut. Dalam hal diagonal HAT, yaitu hii, nilainya ditetapkan dengan pertimbangan bahwa (banyak parameter dalam regresi). Sehingga wajar jika sebagai norm dipakai rerata , dan kalsifikasi dikerjakan dengan pedoman jika sebuah titik mempunyai akan dimasukan kedalam kategori perlu diagnosa lebih lanjut.

Diagnostik Besarnya Pengaruh
Potensi setiap titik dalam mempengaruhi hasil regresi, seperti dibahas di atas, dikerjakan melalui statistik hii dan R-student (ti). Adanya sebuah titik yang sangat bepengaruh dapat merubah kesimpulan yang diperoleh sebelumnya. Apabila diperhatikan kembali, penilaian pengaruh titik ini dikerjakan dengan cara membandingkan hasil regresi yang melibatkan titik tsb. Dengan hasil seandainya titik tersebut disisihkan. Penyisihan titik didasarkan kepada informasi yang diberikan oleh kedua statistik, hii dan R-student (ti).

Pengaruh Terhadap Nilai Prediksi (DFFITS)
Untuk menilai besarnya pengaruh sebuah titik terhadap perubahan yang terjadi pada prediksi dipakai statistik DFFITS (DFFITS)i =

Simpulan Statistik ini menggambarkan berapa standar error perubahan yang terjadi dalam prediksi seandainya xi disisihkan dari data. Dari perumusannya nampak bahwa pada hakekatnya statistik ini sama dengan R-student yang diperbesar atau diperkecil oleh besarnya leverage. Ketergantungannya kepada kedua statistik ini menyebabkan : (DFFITS)i besar jika xi merupakan outlier (ti besar) atau high leverage (hii ~ 1) (DFFITS)i sedang jika xi bukan leverage (hii ~ 0) (DFFITS)i kecil jika xi merupakan high leverage (hii ~ 0) dengan ti kecil Jadi (DFFITS)i merupakan kombinasi dari leverage dan error dalam arah y. Nilai (DFFITS)i yang besar ( ) menyatakan bahwa xi mempunyai pengaruh yang besar terhadap nilai prediksi.

Pengaruh Terhadap Koefisien Regresi
Untuk menilai besarnya pengaruh sebuah titik terhadap perubahan yang terjadi pada koefisien regresi dipakai statistik DFBETAS. (DFBETAS)j,i = Nilai (DFBETAS)j,i yang besar ( ) menyatakan bahwa xi mempunyai pengaruh yang besar terhadap koefisien regresi ke-j. Selain nilainya, tandanya juga memberi informasi berharga, misalnya diperoleh nilai (DFBETAS)j,i besar dan negatif, dan dalam masalah yang dihadpi koefisien yang negatif tidak ada artinya. Maka hasil ini kemungkinan disebabkan oleh titik xi.

Melalui statistik DFBETAS dikaji pengaruh titik xi terhadap koefisien regresi satu persatu. Untuk melihat dampak sebuah titik xi pada semua koefisien regresi sekaligus gunakan statistik Cook’s D, disebut Cook’s Distance. Statistik ini menyatakan jarak antara b dengan b-i. Nilainya yang besar ( ) mencerminkan pengaruh yang besar dari titik xi terhadap semua koefisien. Kemudian apabila ingin diketahui koefisien regresi mana yang dipengaruhi gunakan DFBETAS.

TRANSFORMASI

Transformasi Variabel Y
Box dan Cox (1964) mengusulkan penggunaan transformasi : untuk data yang positif (y>0). Jika data negatif, maka ditambah dengan suatu tetapan. Box dan Cox menggunakan metode kemungkinan maksimum untuk menaksir λ . Nilai taksiran λ ditentukan dengan mencari nilai minimum JKS sebagai fungsi dari λ. Caranya untuk berbagai nilai λ, diregresikan respon terhadap peubah bebas, digambarkan grafik JKS(λ) sebagai fungsi dari λ, kemudian dari grafik ditentukan nilai λ yang meminimumkan JKS.

Contoh Nomor x y 1 1.1 79.57 7 8.4 2 2.7 288.14 8 8.8 3 3.3 437.58 9 9.6 4 4.5 749.88 10 10.4 5 5.9 11 10.9 6 7.1 12 12.3

Dari data diatas dapat dibuat plot y terhadap x seperti tampak pada Gambar 5. Dari plot diatas terlihat bahwa y tidak cukup linear sebagai fungsi dari x, walaupun R2 sebesar 95.5%. Berikut tampilan output minitab :

Output MINITAB Regression Analysis: y versus x The regression equation is y = x Predictor Coef SE Coef T P Constant x S = R-Sq = 95.5% R-Sq(adj) = 95.0% Analysis of Variance Source DF SS MS F P Regression Residual Error Total

Transformasi Box Cox R2 sebesar 95.5% sudah relatif sangat besar. Namun dengan transformasi model ini dapat lebih baik lagi. Respon y akan ditransformasikan dengan terlebih dahulu menentukan nilai taksiran λ. Dengan penggunaan program minitab pada menu Box-Cox Transformation, sudah dapat dengan mudah ditentukan nilai y* hasil transformasi secara otomatis. Sehingga nilai y* dapat diregresikan terhadap peubah x. Hasil output Box-Cox Transformation dapat dilihat taksiran λ terletak pada 0< λ<1, dan λ=0,5 memberikan nilai yang minimum. Sehingga fungsi transformasi yang ditentukan adalah .

Output Data Setelah Ditransformasi
Regression Analysis: y* versus x The regression equation is y* = x Predictor Coef SE Coef T P Constant x S = R-Sq = 99.9% R-Sq(adj) = 99.9% Analysis of Variance Source DF SS MS F P Regression Residual Error Total

Terlihat dari output minitab diatas bahwa model menjadi y. =3. 20+5
Terlihat dari output minitab diatas bahwa model menjadi y*= x dengan R2 sebesar 99.9% dan plot antara y* dan x menjadi linear. Sehingga model ini menjadi lebih baik dari sebelum dilakukan transformasi

Transformasi X Transformasi ini digunakan bila suku galat dianggap telah memenuhi asumsi kenormalan, tetapi belum semua peubah bebas x1, x2, …, xk terkait secara linear dengan respon y. Box dan Tidwell (1962) mengusulkan transformasi : Dan model menjadi :

Mendapatkan nilai  Nilai α ditaksir melalui proses iterasi dan kekonvergenan. Pada nilai limit α, JKS mencapai minimum sebagai fungsi dari α. Iterasi dapat dimulai dari α-1 dan dilanjutkan beberapa langkah sebagai berikut >>diregresikan (α=1) . >>dibentuk peubah baru z, dan z=x.lnx. >>diregresikan y terhadap x dan z : . >>ditentukan 1=(c1/b1)+1 >>dipandang peubah baru x*=x1 dan diulangi proses semula sampai deretan 1, 2,… menuju 1 akhirnya dan diambil k dengan =1, 2,…, k, bila iterasi dilakukan k kali.

Contoh Nomor x y 1 2.3 5.05 12 6.2 3.15 2 1.4 7.06 13 4.9 3.94 3 10.3 2.4 14 3.5 3.75 4 6.7 3.36 15 4.74 5 8.4 3.49 16 9.4 3.17 6 9.2 3.63 17 6.9 2.89 7 5.3 4.46 18 7.6 2.99 8 4.7 3.84 19 0.8 9.72 9 7.1 3.34 20 1.2 6.3 10 3.8 3.44 21 0.7 10.55 11 5.6 3.97

Hasil Tanpa Transformasi
Hasil output minitab memberikan sebagai berikut : Regression Analysis: y versus x The regression equation is y = x Predictor Coef SE Coef T P Constant x S = R-Sq = 61.2% R-Sq(adj) = 59.2% Analysis of Variance Source DF SS MS F P Regression Residual Error Total

Dari output diatas terlihat bahwa hubungan antara y dan x tidak liner dan R2 sebesar 61.2% belum cukup besar untuk menjelaskan model. Sehingga diperlukan transformasi untuk memperbaiki model. Proses iterasi didapat α = atau untuk lebih memudahkan dalam perhitungan secara tehnis nilai α menjadi α = berikut hasil output minitab setelah dilakukan transformasi terhadap x dengan α = -1.0 atau fungsi

Hasil Data X Transformasi
Regression Analysis: y versus x* The regression equation is y = x* Predictor Coef SE Coef T P Constant x* S = R-Sq = 96.0% R-Sq(adj) = 95.8% Analysis of Variance Source DF SS MS F P Regression Residual Error Total

Dari output minitab terlihat bahwa model menjadi y=2. 53+5. 58x
Dari output minitab terlihat bahwa model menjadi y= x* dengan R2 menjadi lebih besar yaitu sebesar 96.0% dan hubungan antara y dan x* menjadi linear. Sehingga model ini menjadi lebih baik dari sebelumnya.

ANALISIS REGRESI DENGAN DUA VARIABEL BEBAS

Presentasi serupa

Presentasi berjudul: "ANALISIS REGRESI DENGAN DUA VARIABEL BEBAS"— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan

Masuk

Otorisasi melalui jaringan sosial:

ANALISIS REGRESI DENGAN DUA VARIABEL BEBAS

Presentasi serupa

Presentasi berjudul: "ANALISIS REGRESI DENGAN DUA VARIABEL BEBAS"— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan