Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

Analisa Data Statistik Chap 11: Regresi Linear Agoes Soehianie, Ph.D.

Presentasi serupa


Presentasi berjudul: "Analisa Data Statistik Chap 11: Regresi Linear Agoes Soehianie, Ph.D."— Transcript presentasi:

1 Analisa Data Statistik Chap 11: Regresi Linear Agoes Soehianie, Ph.D

2 Model Regresi Linear Variabel Y merupakan respons dari variabel independen x dengan hubungan Y = α + β X + ε. Dengan α dan β adalah titik poting dengan sumbu Y dan gradien yg belum diketahui, sedangkan ε adalah variabel random dengan sifat nilai rata-rata =0, dan variansi = σ 2. Dari sampel data diperoleh set data {x i,y i } ingin diperoleh model garis lurus terbaik y= a + b x, yaitu dengan mendapatkan a sebagai estimator α dan β di estimasi oleh b. Variable independen X dipilih yg error dalam pengukurannya kecil atau dapat diabaikan dibandingkan Y.

3 Garis Lurus Terbaik – Metoda Least Squares Garis lurus terbaik diperoleh dengan meminimasi residual error e k yaitu selisih antara predicted y k dengan data yg dipeoleh y k, yaitu jumlah total kuadrat residual error minimum (Sum Squares of Errors) X XXkXk YkYk ekek Garis lurus terbaik diperoleh dengan meminimasi residual error e k yaitu selisih antara predicted y k dengan data yg dipeoleh y k, yaitu jumlah total kuadrat residual error minimum (metoda Least Squares)

4 Garis Lurus Terbaik – Metoda Least Squares Untuk mendapatkan koefisien a dan b yg terbaik, maka dicari a dan b yg meminimumkan SSE, yaitu dengan menghitung turunan SSE thd a dan b: Garis lurus terbaik diperoleh dengan meminimasi residual error e k yaitu selisih antara predicted y k dengan data yg dipeoleh y k, yaitu jumlah total kuadrat residual error minimum (metoda Least Squares) Yang akan memberikan dua buah persamaan linear bagi a dan b:

5 Garis Lurus Terbaik – Metoda Least Squares Dalam notasi matrix sistem pers. Linear tsb dapat dituliskan: Garis lurus terbaik diperoleh dengan meminimasi residual error e k yaitu selisih antara predicted y k dengan data yg dipeoleh y k, yaitu jumlah total kuadrat residual error minimum (metoda Least Squares) Solusi bagi sistem pers. Linear tsb dapat diperoleh dengan berbagai cara antara lain cara Cramers:

6 Garis Lurus Terbaik – Metoda Least Squares Solusi bagi a dan b (metoda Cramers): Garis lurus terbaik diperoleh dengan meminimasi residual error e k yaitu selisih antara predicted y k dengan data yg dipeoleh y k, yaitu jumlah total kuadrat residual error minimum (metoda Least Squares) Atau :

7 Garis Lurus Terbaik – Metoda Least Squares Penyederhanaan bisa dilakukan mengingat Σ1=N, sehingga: Garis lurus terbaik diperoleh dengan meminimasi residual error e k yaitu selisih antara predicted y k dengan data yg dipeoleh y k, yaitu jumlah total kuadrat residual error minimum (metoda Least Squares) Untuk keperluan perhitungan, formula di atas dapat dituliskan sbb: Dengan

8 Notasi Garis lurus terbaik diperoleh dengan meminimasi residual error e k yaitu selisih antara predicted y k dengan data yg dipeoleh y k, yaitu jumlah total kuadrat residual error minimum (metoda Least Squares) Sehingga rumus regresi linear dapat dituliskan sbb: Untuk keperluan penulisan diperkenalkan notasi berikut:

9 Contoh Garis lurus terbaik diperoleh dengan meminimasi residual error e k yaitu selisih antara predicted y k dengan data yg dipeoleh y k, yaitu jumlah total kuadrat residual error minimum (metoda Least Squares) SXX = SYY= SXY= x s = 293/6=48.8y s =1713/6=285.5 b = SXY/SXX = a= y s -bx s = *48.8= XYXs=X-XrYs=Y-YrXs^2Ys^2Xs*YsYteori Σ

10 Contoh : Grafik Garis lurus terbaik diperoleh dengan meminimasi residual error e k yaitu selisih antara predicted y k dengan data yg dipeoleh y k, yaitu jumlah total kuadrat residual error minimum (metoda Least Squares)

11 Memahami Estimator Rata-Rata dan Variansi Garis lurus terbaik diperoleh dengan meminimasi residual error e k yaitu selisih antara predicted y k dengan data yg dipeoleh y k, yaitu jumlah total kuadrat residual error minimum (metoda Least Squares) Dengan suku error ε i diasumsikan adalah variabel random dengan rata-rata 0, dan varian konstan σ 2 yang tak bergantung pada nilai x i dipakai. Sedangkan nilai α dan β adalah nilai parameter regresi yg sesungguhnya di populasi. Jadi koefisien a dan b yg diperoleh dari satu set data percobaan hanyalah salah satu kemungkinan nilai yg mungkin saja. Kita sebut estimator bagi α adalah A dan bagi β adalah B. Dengan A dan B untuk satu set nilai {x i } yg sama bila diulang-ulang akan menghasilkan nilai (a,b) yg berbeda. Karena nilai {x i } sama, maka variansi dari A dan B hanya ditentukan dari variansi variabel y i. Sebenarnya model linear yg benar menggambarkan hubungan linear x dan y di populasi adalah:

12 Memahami Estimator Rata-Rata dan Variansi Garis lurus terbaik diperoleh dengan meminimasi residual error e k yaitu selisih antara predicted y k dengan data yg dipeoleh y k, yaitu jumlah total kuadrat residual error minimum (metoda Least Squares) Ingat σ 2 adalah variansi suku error. Bisa dibuktikan bahwa A dan B adalah unbiased estimator bagi α dan β. Maksudnya: Tentu saja asumsi distribusinya adalah bahwa rata-ratanya mencerminkan nilai parameter populasi yg sesungguhnya:

13 Partisi Variabilitas Total dan Estimator Variansi Garis lurus terbaik diperoleh dengan meminimasi residual error e k yaitu selisih antara predicted y k dengan data yg dipeoleh y k, yaitu jumlah total kuadrat residual error minimum (metoda Least Squares) Dapat dibuktikan SSE (Sum Squares of Errors) bisa dituliskan sebagai: Tetapi b= S XY /S XX sehingga:

14 Partisi Variabilitas Total dan Estimator Variansi Garis lurus terbaik diperoleh dengan meminimasi residual error e k yaitu selisih antara predicted y k dengan data yg dipeoleh y k, yaitu jumlah total kuadrat residual error minimum (metoda Least Squares) Sedangkan variansi dari Y, yaitu σ 2, diwakili oleh unbiased estimator S 2 yg besarnya adalah: Besaran S 2 ini disebut Mean Squared Errors, Sedangkan S juga disebut Standard Error Estimates bagi Y.

15 Inference Statistik ttg Slope Regresi (β) Garis lurus terbaik diperoleh dengan meminimasi residual error e k yaitu selisih antara predicted y k dengan data yg dipeoleh y k, yaitu jumlah total kuadrat residual error minimum (metoda Least Squares) Estimator bagi slope regresi β adalah B, sedangkan variabel statistik yg terkait dengan distribusi B adalah : Variabel t memiliki distribusi student-t dengan derajat kebebasan v=n-2. Dengan ini dapat dicari interval kepercayaan bagi slope (β) dan juga dilakukan testing hipotesis terhadap slope tsb.

16 Contoh: Interval Kepercayaan β Garis lurus terbaik diperoleh dengan meminimasi residual error e k yaitu selisih antara predicted y k dengan data yg dipeoleh y k, yaitu jumlah total kuadrat residual error minimum (metoda Least Squares) Dari contoh sebelumnya tentukan interval kepercayaan 95% bagi slope (β). Jawab: Interval kepercayaan 100(1- α)% diberikan oleh Jumlah data n=6, sehingga v=n-2 = 4. Interval kepercayaan 95% berarti α = 5%. Dari tabel student-t diperoleh nilai kritis t (v=4) adalah

17 Contoh: Interval Kepercayaan β Sehingga interval kepercayaan bagi slope adalah: Dari tabel tsb diperoleh: SXX = SYY= SXY= b = SXY/SXX = Sehingga: interval kepercayaan 95% bagi slope adalah: 1.?? < β < 1.??

18 Contoh: Hipotesis Testing untuk slope β Noxy Tabel disamping memberikan hasil pengukuran BOD (Biological Oxygen Demand) Y% dan Solid Reduction X(%). Periksalah hipotesa H0: β=1 dan H1: β<1 dengan tingkat signifikan 5% Noxy

19 Contoh: Hipotesis Testing Jawab: 1.Hipotesa H0: β=1 dan H1: β<1 2.Tingkat signifikan α= 5% 3.Daerah kritis Variabel statistik untuk di test adalah t: dengan derajat kebebasan v=n-2 Nilai kritis -t 0.05 = Tolak H0 jika t <

20 Contoh: Hipotesis Testing 4. Perhitungan Berdasarkan tabel data diperoleh koefisien regresi Y = a+ bX, a = b= SXX = SYY = SXY = S 2 = (SYY-b SXY)/(n-2) = ( * )/(32-2) S = Keputusan Karena t < maka H0 ditolak 6. Kesimpulan, cukup bukti untuk menolak bahwa slope = 1, dan menerima slope < 1

21 Estimasi bagi Titik Potong (a) Nilai titik potong a juga terdistribusi merata. Jika A adalah variabel random yg terkait, maka A akan terdistribusi normal, dengan nilai rata-rata μ A =α, dan variansi: Parameter t sbb: Akan terdistribusi menurut student t dengan derajat kebebasan n-2. Dengan demikian interval kepercayaan maupun hipotesa testing yang terkait dengan α dapat diformulasikan memakai rumus di atas.

22 Kualitas Fitting : Koefisien Determinasi Besaran SST = total corrected sum of squares didefinisikan sbb: Sedangkan SSE Dan SSR (regression sum squares): R: koefisien determinasi, persentase dari variansi data yg bisa dijelaskan oleh regresi. SSE : variansi karena random error = unexplained variation

23 Kualitas Fitting : Koefisien Determinasi Jika seluruh variansi bisa dijelaskan oleh regresi maka SSE=0, sehingga R=1. Sebaliknya jika regresi hanya bisa menjelaskan sedikit sekali maka R~ 0. Berapakah nilai R yang bisa dikatakan bagus? Sulit! Tergantung keperluan dan bidang dimana statistik ini dipakai. Dalam modelling menambahkan variabel bebas akan mempertinggi nilai R tentu saja, tapi tidak berarti modelnya lebih bagus.

24 Interval Kepercayaan Bagi Y Tujuan dilakukannya regresi adalah untuk membuat prediksi nilai variabel tak bebas Y bilamana diketahui sebuah nilai X tertentu. Nilai Memberikan nilai rata-rata prediksi bagi Y untuk x=x0. Diinginkan untuk mendapatkan interval kepercayaan bagi nilai Y prediksi tsb. Dapat dibuktikan bahwa distribusi rata-rata sampel Y 0 = a+bx 0 adalah normal dengan nilai rata-rata dan variansi : Sedangkan variabel statistik berikut ini terdistribusi student t dengan v=n-2

25 Interval Kepercayaan bagi Y Jadi untuk sebuah nilai X0 tertentu, kita dapat membuat interval kepercayaan bagi nilai rata-rata Y0 yg terkait, dengan interval kepercayaan (1- α)100% yaitu diberikan oleh: Dengan dan

26 Interval Prediksi Y dari 1 Kali Pengukuran Nilai prediksi yg akan dimiliki oleh Y 0 untuk satu kali pengukuran berikutnya di X 0, akan memiliki rata-rata dan variansi: Variabel statistik berikut ini memiliki distribusi student t dengan derajat kebebasan v=n-2

27 Interval Prediksi Y dari 1 Kali Pengukuran Interval kepercayaan bagi prediksi nilai yg akan dimiliki oleh Y 0 untuk satu kali pengukuran berikutnya di X 0, adalah:

28 Contoh Contoh. Data berikut ini memberikan hubungan antara frekuensi kunjungan Salesman fotocopy (X) dan jumlah mesin fotocopy terjual (Y). a) Buatlah interval kepercayaan 95% bagi rata-rata fotocopy terjual bagi salesman-salesman yg melakukan kunjungan sebanyak 25 kali b) Bilamana si Polan melakukan kunjungan 25 kali berapakah interval kepercayaan 95% bagi jumlah mesin fotocopy yg mampu dia jual?

29 SOlusi Jawab. Hasil pengolahan data memberikan: SXX = 760SYY=1850SXY=900 b = SXY/SXX = 900/760 = a = Y rata -b*X rata = 45 – *22= S 2 = (SYY-bSXY)/(n-2) =  S = 9.90 Dari tabel student t untuk v=n-2=8, t = Sehingga untuk X=25, Y = a+bX = *25 =48.55

30 SOlusi Jawab (lanjutan). Hasil pengolahan data memberikan: a) Interval kepercayaan bagi rata-rata sales untuk frekuensi kunjungan X=25 adalah – 7.64 < Y < < Y < 56.2 b) Interval prediksi bagi si Polan yg melakukan kunjungan X=25 kali:

31 SOlusi Jawab (lanjutan) – 24.1 < Y < < Y < 72.6 Wajar bagi interval prediksi bagi 1 orang si Polan jauh lebih besar dibandingkan dengan interval kepercayaan bagi rata-rata sales untuk seluruh sales untuk jumlah kunjungan yg sama yaitu 25.

32 Grafik : Garis Regresi, CI dan Prediksi

33 Koefisien Determinasi (ulangan) Arti lebih jelas daripada r didapat dari r 2 = R yang sering disebutkan sebagai koefisien determinasi sampel. Jadi R adalah: Dimana SST = SSR + SSE, dengan masing-masing adalah DI depan kita beri nama SST=SEE. SSR = Sum Squares of Residual atau regression sum squares, SSR mencerminkan bagian dari variasi data yg bisa dijelaskan oleh regresi. Sehingga R menyatakan porsi dari variasi SYY yg bisa dijelaskan dengan regresi Y thd X, atau porsi dari variabilitas variabel Y yg bisa dijelaskan oleh model regresi.

34 Hipotesis Testing untuk koefisien korelasi Untuk memeriksa kebenaran hipotesis H0: ρ = 0 H1: ρ ≠ 0 yg berkenan dengan koefisien korelasi r, maka variabel statistik yg diuji adalah Yg terdistribusi menurut student t dengan derajat kebebasan v=n-2.

35 Contoh Dalam contoh sebelumnya, tentang sales mesin fotocopy, ujilah hipotesa H0: ρ=0 dengan H1: ρ≠0 dengan tingkat signifikan 5%. Jawab: 1. Hipotesa H0: ρ=0 dengan H1: ρ≠0 2. Tingkat signifikan α = Daerah kritis : ini adalah tes 2 ekor Variabel statistik yg diuji adalah t: dengan n= 10, sehingga nilai kritis t (v=10-2=8) = Tolak H0 jika t > atau t < Perhitungan, telah dihitung r=0.759

36 Contoh 5. Keputusan Karena r > 3.297, maka H0 ditolak 6. Kesimpulan Cukup bukti untuk menyatakan bahwa ada hubungan korelasi linear antara frekuensi kunjungan (X) dengan tingkat penjualan (Y)

37 Hipotesis Testing untuk koefisien korelasi Sedangkan untuk kasus lebih umum untuk memeriksa kebenaran hipotesis H0: ρ = ρ 0 yg berkenan dengan koefisien korelasi r, maka variabel statistik yg diuji adalah Yg terdistribusi menurut distribusi normal

38 Contoh Dalam contoh sebelumnya, tentang sales mesin fotocopy, ujilah hipotesa H0: ρ=0.8 dengan H1: ρ<0.8 dengan tingkat signifikan 5%. Jawab: 1. Hipotesa H0: ρ=0.8 dengan H1: ρ< Tingkat signifikan α = Daerah kritis : ini adalah tes 1 ekor Variabel statistik yg diuji adalah Z: nilai kritis -Z 0.05 = Tolak H0 jika Z < Perhitungan, telah dihitung r=0.759, dan dalam hal ini ρ 0 =0.8

39 Contoh 5. Keputusan Karena Z> , maka H0 tidak bisa ditolak 6. Kesimpulan Tidak cukup bukti untuk menyatakan bahwa ρ < 0.8

40 ANOVA – Pilihan Model Regresi Sering analisa kualitas regresi dilakukan dengan metoda ANOVA (Analysis of Variance). Misal kita memiliki n data {x i,y i }. Telah ditunjukkan bahwa: S YY = SST = SSR + SSE atau SSR : mencerminkan variansi data yang bisa dijelaskan olehmodel. SSE : variansi di sekitar garis regresi Hipotesa yang akan di test: H0 : β=0 H1: β≠0 Ini berarti : kita menyatakan bahwa variasi data Y hanya variasi random tidak bergantung X disekitar nilai Y=α saja.

41 ANOVA – Pilihan Model Regresi Dengan H0 seperti ini dapat dibuktikan bahwa variabel-variabel berikut ini memiliki distribusi Chi-Squares ( χ 2 ) dengan derajat kebebasan yg terkait: VariabelDerajat Kebebasan

42 ANOVA – Pilihan Model Regresi Selanjutnya variabel f berikut ini : Variabel f ini Akan memiliki distribusi F dengan derajat kebebasan pembilang=1 dan penyebut n-2. H0 akan ditolak bilamana f hitung ini > f α (1,n-2). Jika H0 ditolak berarti jumlah variansi di Y yang bisa dijelaskan secara signifikan oleh model regresi yang dipilih. Telah dipakai:

43 ANOVA – Perbandingan Dengan Test t Sebelumnya statistik t berikut ini: Dipakai untuk memeriksa hipotesa: H0 : β= β 0 H1 : β≠ β 0 Bilamana β 0 =0 (kasus khusus) maka variabel t menjadi: Atau dengan b=S XY /S XX, maka distribusi t = f(1,v):

44 ANOVA – Ringkasan SUmber Variansi TABEL ANOVA Sumber variasi Sum of Squares Derajat kebebasan Mean SquaresF hitung RegresiSSRk-1MSR=SSR/1MSR/MSE atau SSR/s 2 ErrorSSEn-kMSE=SSE/(n-2)=σ 2 TotalSSTn-1 ANOVA untuk testing β=0

45 ANALISA KORELASI - Definisi Analisa korelasi ini mempelajari hubungan atau asosiasi antara beberapa variabel. Bilamana regresi dilakukan hingga menyatakan hubungan eksplisit berupa persamaan matematika, maka pada analisa korelasi hanya diwujudkan pada kekuatan hubungan itu saja yg dinyatakan oleh koefisien korelasi. Koefisien korelasi (r) : ukuran kekuatan asosiasi linear antara dua variabel. Nilai r terbatas anstara -1 sd 1. Nilai r=1 atau -1 menyatakan hubungan korelasi sempurna antara X dan Y.

46 ANALISA KORELASI - Definisi APakah nilai korelasi 0.8 bagus atau tidak, tidak ada ukuran absolut. Tergantung pada kasusnya. Untuk ilmu sosial atau ekonomi dimana banyak sekali variabel yg berpengaruh, nilai tsb sudah bagus sekali menyatakan hubungan korelasi yg kuat. Akan tetapi di bidang engineering, dimana variabel bisa dikontrol sangat ketat sekali, nilai r=0.9 mungkin baru dipandang cukup bagus. Hal lain adalah kita tidak boleh menyatakan r=0.6 adalah 2x lebih bagus dibandingkan r=0.3

47 Contoh Kita pakai contoh sebelumnya, tentang hubungan antara sales mesin fotocopy (Y) dan frekuensi kunjungan (X)

48 Contoh Dari perhitungan manual tsb diperoleh: SXX = 760SYY = 1850SXY = 900 Sehingga koefisien korelasinya., r

49 Contoh Apa artinya r=0.7590? 1. Nilainya positif, jadi ada hubungan langsung kenaikan frekuensi kunjungan (X) akan menaikkan juga volume sales (Y). 2. Karena lumayan dekat ke nilai 1 jadi agaknya memang hubungan antara frekuensi kunjungan dengan kenaikan sales cukup kuat.


Download ppt "Analisa Data Statistik Chap 11: Regresi Linear Agoes Soehianie, Ph.D."

Presentasi serupa


Iklan oleh Google