Distribusi Univariat, Multivariat, Penerapan, dan Jarak

Distribusi Univariat, Multivariat, Penerapan, dan Jarak

Distribusi Normal Univariat
Distribusi normal adalah distribusi dengan variabel acak kontinu, sehingga perhitungan probabilitasnya dilakukan dengan menentukan luas daerah di bawah kurva. Distribusi normal merupakan distribusi yang simetris dan berbentuk genta atau lonceng. Kurva distribusi normal dipengaruhi oleh nilai harapan dan variansi. Makin besar variansinya maka bentuk kurva normalnya semakin rendah dan distribusinya semakin lebar. Hal ini disebabkan karena luas di bawah kurva fungsi densitas harus sama dengan satu. Definisi. Variabel acak berdistribusi normal dengan nilai harapan μ dan variansi σ2, dinotasikan dengan , mempunyai fungsi densitas sebagai berikut:

Distribusi Normal Multivariat
Jika suatu data adalah multivariat, maka digunakan model multivariat normal. Distribusi multivariate normal adalah perluasan dari distribusi univariat normal dengan mencocokkan vector pengamatannya. Jika p dimensi adalah vektor dari variabel acak

Jika XNP (,) adalah p - variat multivariat normal dengan rata-rata  dan varians-kovarians matriks Σ, dimana

Software Uji Normalitas Multivariat
Beberapa metode statistika multivariate seperti : MANOVA, dan discriminant analysis seringkali mensyaratkan terpenuhinya asumsi distribusi multinormal. Asumsi ini diperlukan karena di dalam MANOVA dan discriminant analysis dilakukan pengujian dengan menggunakan statistik uji Wilk. Kesimpulan yang diambil berdasarkan statistik ini dikatakan sahih (valid), jika syarat distribusi multinormal dipenuhi.

macro transpose ma mb invcdf 0.5 chis; qq x.1-x.p multiply ma sinv mc mconstant i n p t chis multiply mc mb md let ss=dd<chis mcolumn d x.1-x.p dd pi q ss tt copy md tt let t=sum(ss)/n let t=tt(1) print t mmatrix s sinv ma mb mc md let d(i)=t if t>0.5 note distribusi data multinormal let n=count(x.1) set pi cova x.1-x.p s endif 1:n invert s sinv if t<=0.5 end do i=1:p note distribusi data bukan multinormal let pi=(pi-0.5)/n let x.i=x.i-mean(x.i) sort d dd enddo invcdf pi q; do i=1:n endmacro chis p. copy x.1-x.p ma; plot q*dd use i.

Dengan menggunakan software SPSS, langkah-langkah yang dilakukan sebagai berikut :
Setelah keseluruhan data yang dikumpulkan tersebut di atas dientri dalam program SPSS, selanjutnya klik menu analyze dan pilih sub menu descriptive statistics lalu explorer. Masukkan variabel-variabel ke dalam kotak dependent list. Aktifkan pilihan plots pada bagian display (kiri bawah). Pada menu Explore: Plots aktifkan kotak normality plots with tests dan nonaktifkan bagian steam-and- leaf pada bagian Descriptive. Sedangkan pada bagian Boxplots pilih none. Lalu tekan continue. Pilih OK untuk menampilkan output aplikasi SPSS.

Berdasarkan tabel output di atas dapat dilakukan uji signifikansi mengenai normalitas data. Adapun pengujian signifikansi normalitas memiliki kriteria penilaian sebagai berikut : Angka signifikansi (Sig) pada kolom Kolmogorov-Smirnov adalah Sig > 5 %, maka data berdistribusi normal. Angka signifikansi (Sig) pada kolom Kolmogorov-Smirnov adalah Sig < 5 %, maka data tidak berdistribusi normal. Beberapa hal yang perlu diperhatikan dalam menangani data yang dianggap tidak normal, yaitu : Menambah jumlah data. Selanjutnya dengan jumlah data yang baru perlu dilakukan pengujian lagi. Menghilangkan data yang dianggap penyebab tidak normalnya data. Namun demikian, pengurangan data harus dipertimbangkan akan mempengaruhi tujuan penelitian ataukah tidak dengan dihilangkannya data yang seharusnya ada. Dilakukan transformasi data, misal mengubah data ke logaritma atau ke bentuk natural atau bentuk lainnya, kemudian dilakukan pengujian ulang. Data diterima apa adanya. Untuk itu alat analisis yang dipilih harus diperhatikan.

Contoh Data COUNTRY DENSITY URBAN LIFEEXPF LIFEEXPM LITERACY BABYMORT
GDP_CAP Afghanistan 25 18 44 45 29 168 205 Bangladesh 800 16 53 35 106 202 Cambodia 55 12 52 50 112 260 China 124 26 69 67 78 377 Hong Kong 5494 94 80 75 77 5.8 14641 India 283 59 58 79 275 Indonesia 102 65 61 68 681 Japan 330 82 76 99 4.4 19860 Malaysia 43 72 66 25.6 2995 N. Korea 189 60 73 27.7 1000 Pakistan 143 32 57 101 406 Philippines 221 63 90 51 867 S. Korea 447 74 96 21.7 6627 Singapore 4456 100 88 5.7 14990 Taiwan 582 71 91 5.1 7055 Thailand 115 22 93 37 1800 Vietnam 218 20 46 230

Keterangan Variabel Variabel Penjelasan Density
Banyaknya penduduk per km persegi Urban Persentase penduduk yang tinggal di perkotaan Lifeexpf Harapan hidup penduduk perempuan (tahun) Ligeexpm Harapan hidup penduduk laki-laki (tahun) Literacy Persentase penduduk yang bisa baca-tulis Babymort Banyaknya kematian bayi per 1000 kelahiran Gdp_cap Penghasilan penduduk per kapita pertahun (US$)

Penyelesaian Hasil output Minitab

Hasil Output SPSS Tests of Normality Kolmogorov-Smirnova Shapiro-Wilk
Statistic df Sig. DENSITY .383 17 .000 .504 URBAN .202 .064 .886 .041 LIFEEXPF .169 .200* .940 .321 LIFEEXPM .126 .962 .665 LITERACY .270 .002 .822 .004 BABYMORT .163 .901 .071 GDP_CAP .299 .695 a. Lilliefors Significance Correction *. This is a lower bound of the true significance.

Kesimpulan : Data berdistribusi normal pada variabel URBAN, LIFEEXPF, LIFEEXPM, BABYMORT dan data tidak berdistribusi normal pada variabel DENSITY, LITERACY, GDB_CAP.

Dapat dijelaskan dengan plot Q-Q sebagai berikut:

Jarak Euclidean distance adalah perhitungan jarak dari 2 buah titik dalam Euclidean space. Euclidean space diperkenalkan oleh seorang matematikawan dari Yunani sekitar tahun 300 B.C.E. untuk mempelajari hubungan antara sudut dan jarak. Euclidean ini biasanya diterapkan pada 2 dimensi dan 3 dimensi. Tapi juga sederhana jika diterapkan pada dimensi yang lebih tinggi. Rumus untuk jarak Euclidean sebagai berikut:

Sebuah tinjauan cluster analysis dlama penelitian kesehatan psikologi menemukan bahwa pengukuran jarak yang paling umum digunakan dalam penelitian adalah jarak Euclidean atau kuadrat jarak Euclidean. Jarak statistik (statistical distance) adalah suatu pengukuran yang mempunyai fluktuasi random dari magnitude berbeda, dibutuhkan pemberian bobot pada tiap-tiap koordinat dengan bobot besar untuk variabilitas yang kecil dan sebaliknya. Rumus untuk jarak statistik sebagai berikut: Jarak statistik antara titik P(x1,x2) dan titik O(0,0)

Jarak statistik antara titik P(x1,x2) dan titik Q(y1,y2)

Mahalanobis distance adalah suatu pengukuran jarak yang memperhitungkan korelasi dari himpunan data. Metode Mahalanobis distance digunakan untuk mengukur jarak antara sebuah titik dengan populasi titik. Mahalanobis distance dikenalkan oleh P. C. Mahalanobis pada tahun 1936 (Wikipedia, 2008).

Algoritma Mahalanobis distance dapat dirumuskan sebagai berikut (Jennes, 2008) :
1. Menghitung nilai mean vector dan covariance matrix. Mean vector dan Covariance Matrix di hitung dengan rumus sebagai berikut:

2. Melakukan perhitungan jarak untuk semua data dengan rumus sebagai berikut :

TERIMA KASIH

Distribusi Univariat, Multivariat, Penerapan, dan Jarak

Presentasi serupa

Presentasi berjudul: "Distribusi Univariat, Multivariat, Penerapan, dan Jarak"— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan

Masuk

Otorisasi melalui jaringan sosial:

Distribusi Univariat, Multivariat, Penerapan, dan Jarak

Presentasi serupa

Presentasi berjudul: "Distribusi Univariat, Multivariat, Penerapan, dan Jarak"— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan