PRAYOGI HAMONANGAN PANGABEAN SUNIARTA DEVI DEVIARTA CHAPTER 2 KELOMPOK 2 : WIWIK ASTUTI BURANDA JANNATAN HARIYRAH PRAYOGI HAMONANGAN PANGABEAN SUNIARTA DEVI DEVIARTA
ANALISIS REGRESI DUA VARIABEL : BEBERAPA IDE MENDASAR pada bab ini dan tiga bab selanjutnya, kita akan memperkenalkan kepada pembaca teori dasar dari analisis regresi yang paling sederhana yaitu : regresi bivaria: (dua variable-bivariate ) atau regresi dua variable, regresi dimana variable dependen (regresan) berhubungan dengan satu variable penjelas (regresor). Kasus inilah yang akan dibahas pertama, bukan karena masalah kemudahan, namun karena alasan bahwa ide-ide dasar dari analisis regresi ini terkandung dalam analisis regresi sederhana yang mudah dan mungkin untuk dimengerti, serta dapat diilustrasikan dengan bantuan grafik dua dimensi.
2.1 sebuah Contoh Hipotesis Seperti yang di jabarkan pada subbab 1.2 analisis regresi member penekanan pada mengestimasi dan/atau membuat prediksi dan nilai rerata (populasi) variable dependen berdasarkan nilai variabel (variable-variabel) penjelas yang telah diketahui atau ditentukan.
X→ Y ↓ 80 100 120 140 160 180 200 220 240 260 55 60 65 70 75 74 85 88 79 84 90 94 98 93 95 103 108 113 115 102 107 110 116 118 125 130 135 136 144 145 137 152 157 160 162 155 165 175 189 178 185 191 TOTAL 325 462 445 707 678 750 685 1043 966 1211 Rerata kondisional Y, E ( Y | X ) 77 89 101 149 161 173
Pada table tersebut mengacu pada populasi total dari 60 keluarga disebuah komunitas hipotesis, dengan pendapatan mingguan (X) dan pengeluaran konsumsi mingguan (Y), yang keluarnya dinyatakan dalam dollar ke-60 keluarga ini dibagi kedalam 10 kelompok pendapatan (dari $80 sampai $260) dan pengeluaran mingguan setiap kelurga dari kelompok-kelompok ini disajikan dalam table. Oleh karena itu, kita memiliki 10 nilai X yang tetap untuk setiap Y yang berkaitan dengan nilai X tersebut., sehingga dengan kata lain, terdapat 10 subpopulasi Y. Ada beberapa variasi yang dapat dipertimbangkan dari pengeluaran konsumsi mingguan pada setiap kelompok pendapatan, yang dapat kita lihat dengan jelas pada figure 2.1. Akan tetapi, gambaran yang secara umum dapat dilihat, dengan mengesampingkan variasi dari pengeluaran konsumsi mingguan antar kelompok pendapatan), secara rata-rata pengeluaran konsumsi mingguan meniongkat seiring dengan peningkatan pendapatan. Untuk melihat seecara lebih jeelas lagi Tabel 2.1 tersaji rerata, atau rata-rata dari pengeluaran konsumsi mingguan sehubungan dengan ke-10 tingkat pendapatan. Jadi sehubungan.
pengeluaran konsumsi mingguan, $ Figur 2.1 Distribusi secara kondisional (bersyarat) dan pengeluaran untuk berbagai tingkat pendapatan (data dari table 2.1) pengeluaran konsumsi mingguan, $ Pendapatan mingguan, $
1/5 X → ↓ 2 Probabilitas kondisional p(Y| Xi ) 1/6 1/7 80 100 120 140 160 180 200 220 240 260 2 Probabilitas kondisional p(Y| Xi ) 1/5 1/6 1/7 Rerata kondisional Y 66 77 89 101 113 125 137 149 161 173 Dengan tingkat pendapatan mingguan sebesar $80, rerata pengeluaran konsumsinya adalah sebesar $65, sedangkan sehubungan dengan tingkat pendapatan $200, rerata pengeluaran konsumsinya adalah sebesar $137. Secara menyeluruh, kita memiliki 10 nilai rerata dari 10 subpopulasi Y. kita menyebut nilai rerata ini adalah nilai ekspetasi kondisional/bersyarat (conditional expeted values) karena nilainya bergantung nilai tertentu dari ( dengan kondisi) setiap variable X. secara simbolis, kita lambangkan dengan E(Y | X), yang kemudian dibaca sebagai nilai ekspetasi dari Y untuk setiap nilai X (lihat juga table 2.2)
pengeluaran konsumsi mingguan, $ Pendapatan mingguan, $ Figur 2.2 Garis regresi populasi ( data dari table 2.1 )
2.2 Konsep Fungsi Regresi Populasi Dari diskusi sebelumnya, serta Figur 2.1 dan 2.2, jelas bahwa untuk setiap rerata kondisional E(Y|Xi) adalah sebuah fungsi linear dari Xi, merupakan nilai X yang telah ditentukan secara simbolis. E ( Y | Xi ) = F( Xi ) Dimana F (Xi) melambangkan beberapa fungsi dari penjelas X. dalam contoh yang kita berikan E( Y | Xi ), adalah sebuah fungsi linear dari Xi Persamaan (2.2.1) dikenal sebagai fungsi espektasi kondisonal (conditional expectation function—CEF) atau lebih pendek lagi dikenal sebagai FRP (fungsi regresi populasi—population regretion function). Fungsi ini kurang lebih menyatakan bahwa nilai ekspektasi dari distrubusi Y dari Xi yang telah ditetapkan, adalah fungsi yang berhubungan dengan Xi. Dalam terminology yang lebih singkat lagi, fungsi tersebut menjelaskan bagaiman rerata atau rata-rata respons Y yang bervariasi mengikuti X.
pendekatan awal atau hipotesisnya adalah kita dapat mengasumsikan bahwa FRP E(Y|Xi) adalah sebuah funsi linear Xi missal, dari tipe E(Y|Xi) = β1+β2Xi Dimana β1 dan β2 tidak diketahui, namun merupakan parameter yang telah ditetapkan atau dikenal sebagai koefisien regresi β1 dan β2 juga dikenal sebagai intercept dan koefisien kemiringan. Persamaan (2.2.1) sendiri dikenal sebagai fungsi regresi populasi linear. Beberapa ungkapan alternative yang digunakan dalam literatur-literatur adalah model regresi populasi linear atau hanya menyebutkan regresi populasi linear. Berdasarkan urutan, istilah regresi, persamaan regresi memiliki arti yang sama ketika digunakan.
2.3 Makna Istilah Linear Oleh karena buku ini membahas lebih banyak mengenai model-model linear,seperti Persamaan (2.2.2),maka sangatlah penting untuk mengetahui arti sebenarnya dari terminologi linear sebab dapat diartikan dalam dua cara yang berbeda. Linear dalam Variabel Arti paling pertama dan mungkin yang paling “alamiah” dari linearitas adalah ekspektasi kondisional Y adalah sebuah fungsi linear Xi,sebagai contoh,Persamaan (2.2.2).6 Secara geometris,kurva regresi dalam kasus ini adalah sebuah garis lurus.Dalam interprestasinya,sebuah fungsi regresi seperti E(Y│Xi ) = β1+β2Xi2,bukan merupakan fungsi linear karena variabel X muncul dengan sebuah pangkat atau indeks 2.
Linearitas dalam Parameter Interprestasi kedua dari linearitas adalah bahwa ekspektasi kondisional dari Y , E(Y │ Xi) adalah sebuah fungsi linear dari parameter-parameternya,β; bisa saja linear atau bisa juga tidak linear untuk variabel X-nya.7 Dalam Interprestasi ini, E( Y │ Xi) = β1+β2Xi2 adalah model regresi (dalam parameter) linear.Untuk melihatnya lebih lanjut,misal : X bernilai 3.Oleh karena itu,E( Y│ X = 3 ) = β1+9β2, yang jelas linear dalam parameter β1 dan β2.Semua model yang disajikan dalam Figur 2.3 adalah model regresi linear (MRL),yaitu model linear dalam parameter.
Dari kedua interprestasi mengenai linearitas,linearitas dalam parameter relevan terhadap pembentukan teori regresi yang baru saja dibahas.Oleh karena itu,dari sekarang terminologi regresi “linear” akan selalu berarti sebuah regresi yang linear dalam parameter-parameternya; β-nya (yaitu parameternya) berpangkat satu saja.Parameter untuk variabel penjelasnya,atau X-nya,bisa saja linear atau tidak linear.Secara skematis,terdapat pada Tabel2.3 . Jadi, E(Y│Xi) = β1 + β2Xi,yang linear untuk keduanya,parameter dan variabel,atau MRL,dan juga E(Y│Xi ) = β1 + β2Xi2 , yang linear dalam parameter,namun tidak linear dalam variabel X.
Figur 2.3 Paramater linear dalam sebuah fungsi
Tabel 2.3 Model regresi linear Model linear dalam parameter ? Model linear dalam variabel Ya Ya tidak MRL MRL Tidak MRNL MRNL Catatan: MRL : Model regresi linear MRNL : Model regresi nonlinear
2.4 Spesifikasi Stokastik dari FRP Jelas terlihat dari Figur 2.1 bahwa pendapatan keluarga meningkat,maka pengeluaran konsumsi keluarga secara rata-rata meningkat pula.Namun demikian,bagaimana dengan pengeluaran konsumsi keluarga secara individual sehubungan dengan tingkat pendapatannya (tertentu)? Jelas terlihat dari Tabel 2.1 dan Figur 2.1 bahwa pengeluaran konsumsi keluarga secara individual tidak harus selalu meningkat seiring dengan peningkatan tingkat pendapatan.Sebagai contoh,dari tabel 2.1,kita dapat melihat bahwa sehubungan dengan tingkat pendapatan $100,ada satu keluarga yang pengeluaran konsumsinya $65,lebih kecil dibandingkan dengan pengeluaran konsumsi dari dua keluarga yang pendapatan mingguannya hanya $80.Akan tetapi,perhatikan bahwa pengeluaran konsumsi rata-rata dari keluarga dengan pendapatan mingguan sebesar $100 lebih besar dibandingkan dengan pengeluaran konsumsi keluarga dengan pendapatan mingguan sebesar $80 ($77 dibandingkan dengan $65).
menyatakan deviasi dari seorang individu Y i, di sekitar nilai ekspektasinya adalah sebagai berikut: Ui = Yi – E(Y│Xi) Atau Yi = E(Y│Xi) + ui Di mana deviasi, ui, adalah sebuah variabel acak yang tidak dapat diamati dan dapat mengambil nilai positif maupun negatif.Atau,secara teknis, ui dikenal sebagai faktor gangguan stokastik ( stochastic disturbance) atau faktor kesalahan stokastik ( stochastic error term ).
Komponen ini juga dikenal sebagai komponen yang sistematik atau deterministik,dan,(2) ui yang merupakan komponen acak atau nonsistematik.Kita mesti mencoba menganalisis secara cepat sifat dari faktor gangguan stokastik,namun untuk saat ini kita mengasumsikan bahwa hal tersebut adalah pengganti atau proksi terhadap variabel yang dihilangkan atau diabaikan yang dapat saja memengaruhi Y , tetapi tidak (atau tidak dapat) dimasukkan dalam model regresi. Jika E(Y│Xi) diasumsikan linear dalam Xi, seperti yang ditunjukkan dalam Persamaan (2.2.2), Persamaan (2.4.1) dapat juga dituliskan sebagai Yi = E(Y│Xi) + ui = β1 + β2Xi + ui
Persamaan (2.4.2) menyatakan bahwa pengeluaran konsumsi dari sebuah keluarga secara linear berhubungan dengan pendapatannya ditambah dengan sebuah faktor gangguan.Jadi,pengeluaran konsumsi individu, dengan kondisi X = $80 (Lihat Tabel 2.1), dapat dinyatakan sebagai Y1 = 55 =β1 + β2 (80) + u1 Y2 = 60 =β1 + β2 (80) + u2 Y3 = 65 =β1 + β2 (80) + u3 Y4 = 70 =β1 + β2 (80) + u4 Y5 = 75 =β1 + β2 (80) + u5
Sekarang,jika kita mengambil nilai yang diekspektasikan dari Persamaan (2.4.1) di kedua sisi,kita akan dapatkan E(Y│Xi) = E [E(Y│Xi)] + E (ui│Xi) = E(Y│Xi) + E (ui│Xi) (2.4.4) Di mana penggunaannya berdasarkan fakta bahwa nilai yang diekspektasikan dari sebuah konstanta adalah nilai konstanta itu sendiri.8 Perhatikan secara seksama bahwa pada Persamaan (2.4.4),kita telah mengambil ekspektasi kondisional,yaitu kondisional terhadap X tertentu.
Oleh karena E(Y│Xi) sama saja dengan E(Y│Xi), Presamaan (2. 4 Oleh karena E(Y│Xi) sama saja dengan E(Y│Xi), Presamaan (2.4.4)berimplikasi bahwa E(ui│Xi) = 0 (2.4.5) Jadi, asumsi bahwa garis regresi melewati rerata kondisional dari Y (lihat Figur 2.2) mengimplikasikan bahwa nilai rerata kondisional dari ui (yang kondisional terhadap X tertentu) adalah nol. Dari diskusi sebelumnya,jelas bahwa Persamaan (2.2.2) dan (2.4.2) adalah bentuk yang sama jika E(ui│Xi) = 0.9 Akan tetapi,spesifikasi stokastik dari Persamaan (2.4.2) memiliki kelebihan bahwa ia menunjukkan secara jelas jika terdapat pengaruh variabel lainnya selain pendapatan yang memengaruhi pengeluaran konsumsi dan pengeluaran konsumsi keluarga secara individu tidak dapat dijelaskan secara sempurna hanya oleh variabel yang disertakan dalam model regresi.
2.5 Signifikansi Faktor Gangguan Stokastik Seperti yang telah dibahas pada Subbab 2.4, faktor gangguan ui,merupakan pengganti dari semua variabel yang telah dihilangkan dari model,namun secara kolektif memengaruhi Y.Pertanyaannya yang jelas adalah: Mengapa tidak mengenalkan variabel-variabel tersebut ke dalam model secara eksplisit? Atau,jika dibalik,mengapa tidak mengembangkan model regresi majemuk saja dengan variabel sebanyak mungkin? Ada banyak alasan yang mendasarinya.
Kerancuan teori Ketidaktersediaan data Variabel inti (core variable) Keacakan intrinsik pada perilaku manusia Variabel yang diproksi secara tidak tepat Prinsip parsimoni Bentuk fungsi yang salah Untuk semua alasan ini,gangguan stokastik ui memiliki peran yang penting dalam analisis regresi,yang akan kita lihat lebih lanjut dalam buku ini.
2.6 Fungsi Regresi Sampel Dengan menegaskan kembali pembahasan kita,bahwa selama ini kita telah membahas mengenai nilai Y yang berhubungan dengan sebuah nilai tetap X, kita telah secara terang-terangan menghindari pemikiran dalam pengumpulan sampel (perhatikan bahwa data dalam tabel 2.1 merepresentasikan populasi bukan sampel).Namun demikian,sudah saatnya bagi kita untuk menghadapi permasalahan dalam sampling,untuk beberapa kasus praktik yang kita miliki hanyalah nilai sampel Y yang berhubungan dengan beberapa nilai X yang tetap.Oleh karena itu,tugas kita sekarang adalah mengestimasikan FRP berdasarkan informasi sampel.
Sekarang, analog dengan FRP yang mendasari garis regresi populasi,kita dapat mengembangkan konsep FRS (Fungsi regresi sampel-sample regression function) untuk merepresentasikan garis regresi sampel.Penulisan sebaliknya dari Persamaan (2.2.2) untuk sampel adalah: Ŷi = β1 + β2Xi (2.6.1)
Figur 2.4 Di mana Ŷ dibaca sebagai “Y-topi” atau “Y-cap” Ŷ = merupakan pengestimasi dari E(Y│Xi) β1 = merupakan pengestimasi dari β1. β2 = merupakan pengestimasi dari β2. Kini,seperti bagaimana kita mengekspresikan FRP dalam bentuk yang mirip.Persamaan (2.2.2) dan (2.4.2), kita dapat mengekspresikan FRS pada Persamaan (2.6.1) dalam bentuk stokasinya sebagai berikut: Ŷi = β1 + β2Xi +ûi
2.7 Contoh-contoh Ilustratif Kita membuat kesimpulan untuk bab ini dengan dua buah contoh Contoh 2.11 Rerata Upah per jam Berdasarkan pendidikan Table 2.6 Rerata upah perjam berdasarkan pendidikan
Harvard University Press Cambridge. Mass 1998 Tabel 1.1 hal 5 Tahun pendidikan Rata upah $ Jumlah orang 6 7 8 9 10 11 12 13 14 15 16 17 18 4,4567 5,7700 5,9787 7,3317 7,3182 6,5844 7,8182 7,8351 11,0223 10,6738 10,8361 13,6150 13,5310 3 5 27 218 56 70 24 31 Total 528 Sumber : diadaptasi dari Arthur S Goldberger, Introdoctory Econometrics Harvard University Press Cambridge. Mass 1998 Tabel 1.1 hal 5
Tabel 2.6 menunjukkan kepada kita data mengenai tingkat pendidikan (diukur dengan jumlah tahun sekolah), rerata upah per jam yang didapatkan orang-orang untuk setiap tingkat pendidikan, dan jumlah orang untuk setiap pendidikan. Adalah Ernst Berndt yang memperoleh data pada table tersebut, dimana data yang didapatakan dari survey populasi yang dilakukan pada tahun 1985. Dengan memplot rerata upah (kondisional) terhadap pendidikan, kita akan memperoleh gambaran diagram yang ditunjukan pada Figur 2.6. kurva regresi pada figure tersebut menunjukan bagaimana rerata upah bervariasi menurut tingkat pendidikan, biasanya meningkat seiring dengan tingkat pendidikan, sebuah penemuan tidak terlalu mengherankan. Kita akan belajar pada bab selanjutnya bagaimana variable lain, selain pendidikan, dapat juga mempengaruhi tingkat upah seseorang.
Figur 2.6 hubungan antara rerata upah dan pendidikan Contoh 2.2 Nilai TBS Matematika berbanding dengan pendapatan keluarga
Terdapat beberapa penjelasan yang bisa menggambarkan hubungan positif yang telah diobservasi diantara kedua variable. Sebagai contoh, salah satu lasan adalah mahasiswa dalam keluarga dengan pendapatan yang tinggi dapat mengikuti bimbingan TBS privat. Sebagai tambahan orang tua mahasiswa ini memiliki tingkat pendidikan yang tinggi. Ada kemungkinan juga mahasiswa dengan nilai matematika yang tinggi berasal dari sekolah yang lebih baik (kondisinya). Pembaca juga dapat memberikan penjelasan lain terhadap hubungan positif yang telah diobservasi diantara kedua variable.
Figure 2.7 Hubungan antara rerata nilai TBS matematika dan rerata pendapatan keluarga
SEKIAN DAN TERIMa KASIH