Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

Similarity/ Dissimilarity

Presentasi serupa


Presentasi berjudul: "Similarity/ Dissimilarity"— Transcript presentasi:

1 Similarity/ Dissimilarity
Various types of variable Data Mining: Concept and Techniques (Jiawei Han, Micheline Kamber)

2 Struktur data Data matrix (object-by-variable structure)
Struktur ini dalam bentuk tabel relasional, n objek x p variable: Dissimilarity matrix (object-by-object structure) Menyimpan kumpulan perkiraan dari seluruh pasangan n objek (n-by-n tabel) Struktur ini digunakan untuk menghitung klaster dari objek.

3 Macam-macam type data dalam suatu variabel:
Interval-scaled variable Binary variable Categorical variable Ratio variable

4 Interval scaled variable
Interval scaled variable: ukuran2 kontinu dari skala linear Contoh: tinggi, berat, koordinat latitude atau longitude (clustering rumah), temperatur cuaca

5 Interval-scaled variables
Hitung mean absolute deviation, sf: Hitung ukuran yg distandarisasikan (or Z-score)

6 Euclidean Distance Manhattan Distance

7 Contoh Penghitungan dissimilarity tanpa standarisasi

8 Dissimilarity (jarak)
Binary variable Variabel yang memiliki dua nilai 0 dan 1, dimana 0absent, 1present Bagaimana menghitung ketidaksamaan (dissimilarity) Dissimilarity (jarak)

9 Similarity:

10 Contoh variabel biner Suatu tabel rekord pasien berisi atribut: nama, gender, fever, cough, test-1,test-2, test-3, test-4 Nama object identifier Gender simetric atribute

11 Categorical variable Variabel kategori: secara umum sama dengan variabel biner namun mengambil lebih dari 2 keadaan. Contoh: map color (5 states): red, yellow, green, pink, and blue Ukuran dissimilarity: Dimana, p: jumlah variable, dan m: juml. variabel yg bernilai sama

12 Contoh Dissimilarity

13 Maka untuk categorical variable, test 1, p=1 dan d(i,j)=0 jika sama dan 1 jika beda. Sehingga dihasilkan matrik berikut:

14 Ordinal Varible Ordinal variable : mirip dengan categorical variable, namun memiliki arti dalam urutan dan berguna bila tidak dapat diukur secara objektif. Contoh: profesional rank: assistant, associate, and full for professor.

15 Jika ada nilai f dari suatu objek xif dan mempunyai states yg terurut dalam rangking 1,…, Mf, maka bisa dituliskan rif є {1, …Mf} Merubah nilai rf dengan menormalisasi :[0,1] dengan rumusan: Kemudian dicari nilai disimilarity- nya digunakan rumusan jarak

16 Contoh ordinal variable (test-2)
Ada 3 state dalam test 2: fair, good dan excellent, sehingga Mf=3 Rubah nilai dlm objek tsb dengan 3(1, 2, dan 3). Normalisasi sehingga: rank-1=0, rank-2=0.5, rank-3=1 Maka dengan rumusan Ecluidian Dist, didapatkan:

17 Ratio-scaled variable
Biasanya digunakan untuk ukuran positip pada skala non linear seperti skala exponensial dg rumusan: Contoh: pertumbuhan populasi bakteri atau kerusakan akibat radioaktif Menggunakan transformasi logaritmik dengan formula yif=log(xif), nilai yif yang digunakan sbg interval value

18 Contoh ratio-scaled variable (test-3)
Maka dgn mengaplikasikan logaritmik dari tiap2 nilai dalam test-3: didapatkan nilai: 2.65, 1.34, 2.21, dan untuk objek 1-4 Sehingga dengan rumus jarak didapatkan : Dinormalisasi , Dg membagi 1.74

19 Variable of Mixed Types
Dalam dunia nyata, sering dijumpai variable yg memiliki campuran, antara lain: interval scaled, symmetric binary, categorical, ordinal atau ratio- scaled. Maka dapat digunakan rumusan berikut untuk mencari dissimilarity: Dimana: ∂ij=0 jikaxjf atau xjf kosong & ∂ij=1 jika ada nilainya

20 Contoh perhitungan mix-variable
Jika didapatkan dari perhitungan sebelumnya didapatkan jarak dari tiap-tiap variabel (test1, test2, dan test 3: Maka dengan mengaplikasikan rumusan tersebut didapatkan

21 Final result of dissimilarity (test1, test2 & test3)


Download ppt "Similarity/ Dissimilarity"

Presentasi serupa


Iklan oleh Google