Hypothesis Testing In Full Rank Model Uji hipotesis diantaranya untuk menjawab pertanyaan pertanyaan berikut: Apakah model yang dibentuk apakah sebagian besar observed variable mampu menjelaskan variasi dalam variabel respon? Apakah hanya sebagian atau seluruh variabel observasi mampu menjelaskan variasi dalam variable respon? Apakah variabel tertentu dalam model dapat digunakan untuk mengestimasi respon?
Uji Kesesuaian Model Kita lihat model linier berikut: yi =β0+ β1 Xi1+ β2 Xi2+…+βkXik+εi, i=1,2,…,n Apakah model di atas sudah sesuai(cocok)? Artinya, apakah model linier tersebut variabel-variabel observasi dapat menjelaskan variasi dari variabel respon? Jika tidak, maka semua koefisien model akan sama dengan nol, sebaliknya minimal terdapat satu koefisien model yang tidak sama dengan nol.
Uji terhadap model di atas, sbb: H0 : β1 = 0 H1 : β1 ≠ 0 Asumsi yang digunakan dalam uji model ini adalah random errors berdistribusi normal dengan E[ε]=0 dan Var ε=σ2I. Akibatnya y vektor random nx1 juga berdistribusi normal dengan rata-rata Xβ dan varians σ2I.
Metode yang digunakan untuk menguji hipotesis ini adalah analysis of variance (ANOVA). ANOVA adalah teknik analitik dimana jumlah kuadrat didistribusikan kedalam beberapa komponen sumber. Disini y΄y (jumlah kuadrat variabel respon) dipecah menjadi bagian-bagian yang lebih berarti. Residual sum of squares, yang merefleksikan variasi random atau variasi yang tidak dijelaskan dalam respon, dapat dinyatakan sebagai:
SSRes =y΄y – y΄X(X΄X)-1X΄y y΄y = y΄X(X΄X)-1X΄y +SSRes y΄X(X΄X)-1X΄y merefleksikan variasi dalam variabel respon yang tidak acak, sama artinya dengan variase dalam variabel respon yang dijelaskan oleh model regresi linier. y΄X(X΄X)-1X΄y disebut dengan model or regression sum of squares, yang dinotasikan dengan SSModel atau SSReg. Jika y΄y disebut dengan SSTotal, maka jumlah kuadrat total dapat dinyatakan sebagai: SSTotal = SSReg + SSRes
Pengujian ini membutuhkan pengetahuan tentang distribusi probabilitas dari SSReg/σ2 dan SSRes/σ2 serta hubungan antara keduanya. Theorema 4.1. SSReg adalah notasi dari jumlah kuadrat regresi dalam model rank penuh, maka SSReg/σ2 mengikuti distribusi chi-square dengan derajat bebas p=k+1 dan parameter noncentral
Theorema 4.2. SSRes adalah notasi dari jumlah kuadrat residual dalam model rank penuh, maka SSRes/σ2 mengikuti distribusi chi-square dengan derajat bebas n-p. Theorema 4.3. SSReg/σ2 dan SSRes/σ2 adalah bentuk kuadrat yang saling bebas. Theorema 4.4. Jika X adalah matriks nxp rank penuh, maka X΄X adalah positive definite.
Pada kondisi H0 : β1 = 0 benar parameter noncentral λ berkaitan dengan SSReg/σ2 sama dengan nol. Sehingga bentuk kuadrat ini mengikuti distribusi chi-square dengan derajat bebas p. SSReg/σ2 dan SSRes/σ2 saling bebas, dan H0 benar ratio: Mengikuti distribusi F dengan derajat bebas p dan n-p.
s2 adalah penduga tak bias untuk σ2, atau E(MSRes)= σ2 s2 adalah penduga tak bias untuk σ2, atau E(MSRes)= σ2. E(MSReg) = E[(1/p) y΄X(X΄X)-1X΄y] = (1/p)[tr(X(X΄X)-1X΄σ2I+(Xβ)΄X(X΄X)-1X΄Xβ] = (1/p)[pσ2+ β΄X΄Xβ] Jika hipotesis nol tidak benar, maka β≠0. Sejak X΄X adalah positive definite, β΄X΄Xβ>0 dan E[MSReg]> σ2. Sehingga ratio MSReg/MSRes lebih besar dari 1.
ANOVA Table Source of Variation Sum of Square Degrees of Freedom Mean Square F Ratio Regression y΄X(X΄X)-1X΄y P SSReg/p MSReg/MSRes Residual y΄y–y΄X(X΄X)-1X΄y n-p SSRes/n-p Total y΄y n
Uji Hipotesis thd Subvektor β Apakah x1, x2, …, xk mampu menjelaskan variasi dari variabel respon? Jika demikian, variabel mana yang paling penting? Untuk menjawab pertanyan di atas perlu menguji hipotesis subset dari parameter β. Pertama-tama pilih r parameter pertama dari β.
Jika r parameter pertama sudah ditentukan, kita dapat partisi vektor parameter menjadi: Matriks X juga dipartisi menjadi [X1|X2], dimana X1 terdiri atas r kolom pertama matriks X dan X2 adalah sisanya yaitu p-r kolom terakhir matrik X.
Hipotesis yang akan di uji adalah: H0: 𝛾 1 =0 H1: 𝛾 1 ≠0 Dengan kata lain hipotesis nol menguji r parameter pertama tidak menjelaskan variasi dari variabel respon, dengan alternatif parameter tersebut menjelaskan variasi variabel respon. Secara matematis, dapat dibandingkan dua model, yaitu model di bawah H0 dan H1.
Model di bawah H0 hanya terdiri atas p-r parameter terakhir, dan disebut dengan reduced model. Dalam bentuk matriks: y = X2 𝛾 1 + ε* Model berdasarkan H1 terdiri atas semua parameter dan disebut dengan full model. Dinyatakan dalam bentuk matriks: y = Xβ + ε
Jumlah kuadrat regresi full model adalah: SSReg= y΄X(X΄X)-1X΄y Bentuk kuadrat ini dinotasikan dengan R(β). Jumlah kuadrat regresi reduced model yang dinotasikan dengan R( 𝛾 2 ), yaitu: R( 𝛾 2 ) = y΄X2(X2΄X2)-1X2΄y Selisih kedua jumlah kuadrat ini [R(β)-R( 𝛾 2 )] adalah komponen variasi dalam variabel respon yang tidak random tetapi tidak dapat dihitung langsung dari reduced model.
Selisih jumlah kuadrat ini disebut dengan sum of square for regression on 𝜸 𝟏 in the presence of 𝜸 𝟐 . Yaitu: R ( (𝛾 1 |𝛾 2 ) = R(β) – R( 𝛾 2 ) Jika Ho benar maka variasi dari variabel respon hanya dijelaskan oleh reduced model. Nilai R(β) akan mendekati nilai R( 𝛾 2 ), sama artinya nilai R ( (𝛾 1 |𝛾 2 ) akan sangat kecil. Jika H1 benar maka parameter βr , βr+1 ,…, βk tidak cukup untuk menjelaskan variabilitas variabel observasi, nilai R ( (𝛾 1 |𝛾 2 ) akan sangat besar.
Secara matematik uji hipotesis dapat dibangun dari persamaan berikut: y΄y = y΄X2(X2΄X2)-1X2΄y + y΄[X(X΄X)-1X΄ – X2(X2΄X2)-1X2΄]y + y΄[I – X(X΄X)-1X΄]y y΄y = R( 𝛾 2 ) + R ( (𝛾 1 |𝛾 2 ) + SSRes kemudian y΄y/σ2 = R( 𝛾 2 ) /σ2 + R ( (𝛾 1 |𝛾 2 ) /σ2 + SSRes/σ2
Lemma 4. 1 Rank matriks X2(X2΄X2)-1X2΄ adalah p-r Lemma 4 Lemma 4.1 Rank matriks X2(X2΄X2)-1X2΄ adalah p-r Lemma 4.2 Matriks X(X΄X)-1X΄ – X2(X2΄X2)-1X2΄ adalah idempoten Lemma 4.3 Rank matriks X(X΄X)-1X΄ – X2(X2΄X2)-1X2΄ adalah r Lemma 4.4 Rank matriks [I – X(X΄X)-1X΄] adalah n-p
Theorema 4.5. Jika z adalah nx1 variabel random multivariate normal dengan rata-rata μ dan variance I. Misal z΄z = Σy΄Aiy Kondisi yang perlu dan cukup untuk bentuk kuadrat dengan random variabelnya saling bebas dan berdistribusi chi-square noncentral dengan parameter ri dan λi, dengan ri =r(Ai) dan λi=½μ΄Aiμ adalah Σri =n.
Misal z=y/σ maka E(z)=μ=Xβ/ σ Var(z)=Var y/σ=I y΄y/σ2 = z΄z = {y΄X2(X2΄X2)-1X2΄y}/σ2 + {y΄[X(X΄X)-1X΄ – X2(X2΄X2)-1X2΄]y}/σ2 + {y΄[I – X(X΄X)-1X΄]y}/σ2 Rank matriks pd ruas kanan adalah (p-r) + r + (n-p) = n
{y΄[X(X΄X)-1X΄ – X2(X2΄X2)-1X2΄]y}/σ2=R ( (𝛾 1 |𝛾 2 )/σ2 mengikuti distribusi chi-square noncentral dengan rank r dan parameter noncentral λ = (1/2σ2) (Xβ)΄[X(X΄X)-1X΄ – X2(X2΄X2)-1X2΄]Xβ Telah dijelaskan sebelumnya bahwa besaran R ( (𝛾 1 |𝛾 2 ) merupakan indikasi ditalok tidaknya hipotesis nol. Dalam uji statistik harus diketahui distribusi dibawah hipotesis nol benar.
Theorema 4.6. Jika H0: 𝛾 1 =0 benar, maka statistik 𝑅( 𝛾 1 | 𝛾 2 ) 𝑟 𝑆𝑆 𝑅𝑒𝑠 𝑛−𝑝 mengikuti distribusi F dengan derajat bebas r dan n-p.
Source of Variation Sum of Square Degrees of Freedom Mean Square F Ratio Regression Full Model R(β) p Reduced Model R( 𝛾 2 ) p-r 𝛾 2 in presence of 𝛾 1 R(β) – R( 𝛾 2 ) r 𝑅( 𝛾 1 | 𝛾 2 ) 𝑟 𝑅( 𝛾 1 | 𝛾 2 ) 𝑟 𝑆𝑆 𝑅𝑒𝑠 𝑛−𝑝 Residual y΄y – R(β) n-p 𝑆𝑆 𝑅𝑒𝑠 𝑛−𝑝 Total y΄y n
“Corrected” Sums of Square Anova yang dibahas sebelumnya didasarkan pada ”uncorrected” sums of square. Hipotesis bahwa β0≠0 jarang sekali menjadi perhatian penting bagi peneliti, dibandingkan hipotesis bahwa variabel2 bebas berarti dengan adanya intercept. Uji hipotesis ini tidak ada jumlah kuadrat dr reduced model, model hanya terdiri dari sebuah intercept, yang diberikan: 𝑅 𝛾 2 = 𝑖=1 𝑛 𝑦 𝑖 2 𝑛
Source of Variation Sum of Square Degrees of Freedom Mean Square F Ratio Regression Full Model R(β) p=k+1 Reduced Model R( 𝛾 2 )=(Σyi)2/n 1 𝛾 2 in presence of 𝛾 1 R(β) – R( 𝛾 2 ) p-1=k 𝑅( 𝛾 1 | 𝛾 2 ) 𝑘 𝑅( 𝛾 1 | 𝛾 2 ) 𝑘 𝑆𝑆 𝑅𝑒𝑠 𝑛−𝑝 Residual y΄y – R(β) n-p=n-k-1 𝑆𝑆 𝑅𝑒𝑠 𝑛−𝑝 Total y΄y n
Pengukuran total variasi dalam respons y΄y merupakan variasi disekitar titik nol, jika diasumsikan bahwa dengan tidak adanya variabel bebas, maka respons akan bervariasi disekitar nilai tertentu (bukan nol). Yaitu disekitar rata-rata 𝑦 , dan pengukuran variasinya adalah: (Corrected Sums of Square) 𝑖=1 𝑛 ( 𝑦 𝑖 − 𝑦 ) 2 = 𝑖=1 𝑛 𝑦 𝑖 2 − 𝑖=1 𝑛 𝑦 𝑖 2 𝑛 = 𝑦 ′ 𝑦−𝑅( 𝛾 2 )
𝑅 𝛾 2 = 1 𝑛 𝑖=1 𝑛 𝑦 𝑖 2 Besaran di atas disebut dengan correction factor.
Source of Variation Sum of Square Degrees of Freedom Mean Square F Ratio Regression 𝑅( 𝛾 1 | 𝛾 2 ) k 𝑅( 𝛾 1 | 𝛾 2 ) 𝑘 𝑅( 𝛾 1 | 𝛾 2 ) 𝑘 𝑆𝑆 𝑅𝑒𝑠 𝑛−𝑝 Residual 𝑆𝑆 𝑅𝑒𝑠 n-p=n-k-1 𝑆𝑆 𝑅𝑒𝑠 𝑛−𝑝 Total y΄y-(Σyi)2/n n-1