Similarity/ Dissimilarity

Slides:



Advertisements
Presentasi serupa
PERANAN STATISTIK DALAM PENELITIAN
Advertisements

Pengukuran dan Skala.
Clustering Okt 2012.
UJI PERBEDAAN (Differences analysis)
©The McGraw-Hill Companies, Inc. 2008McGraw-Hill/Irwin Statistics PENDAHULUAN.
SKALA PENGUKURAN FANNY WIDADIE.
BAB 1 PENGENALAN spss.
STATISTIK vs STATISTIKA
Uji 2 Sampel Tidak Berpasangan Bag 4b dan 4c (Uji Mann U Whitney)
Pengertian dan Peranan Statistika dan Data Statistik Pertemuan 01
PENGERTIAN STATISTIK DAN DATA
W A R N A 4/14/2017.
PERTEMUAN PERSOALAN PENUGASAN OLEH Ir. Indrawani Sinoem, MS.
Pengenalan Supervised dan Unsupervised Learning
ANALISIS KORELASI EKONOMETRIKA, SAYYIDA,S.Si,M.Si 1
Data Mining: Mengenal dan memahami data
Tim Dosen Data Mining Fakultas Informatika
Anas Tamsuri UJI STATISTIK UJI STATISTIK.
MODUL KULIAH 10 Ekstraksi Fitur Bentuk
KONSEP PENGUKURAN.
PENGANTAR STATISTIKA DAN PROBABILITAS
STATISTIK INFERENSIAL
Analisis Data Kuantitatif
STATISTIKA BISNIS BY : ERVI COFRIYANTI.
Data Hasil Ukur.
KULIAH I STATISTIK, VARIABEL, PENGUKURAN
APLIKASI SPSS DALAM STATISTIK
KONSEP PENGUKURAN DALAM PSIKOLOGI
Mengkode Data dan screening
Dr. Dewi Kurniasih, S.IP.,M.Si.
Statistik Non Parametrik
Nida Nusaibatul Adawiyah
STATISTIKA Srikandi Kumadji.
METODE KUALITATIF DAN KUANTITATIF
Pengertian Statistika
PENGANTAR STATISTIKA DAN PROBABILITAS
Clustering.
Simulasi Monte Carlo.
DATA By irfan.
Intan Silviana Mustikawati, SKM, MPH
Statistik Komputasi Pendahuluan.
PENGUJIAN HIPOTESIS KOMPARATIF K SAMPEL INDEPENDEN
PENGERTIAN STATISTIK DAN DATA
Praktikum statistik “Dengan spss”
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
STATISTIKA-Skala Ukur Data dan Korelasi
Classification Supervised learning.
DATA.
SKALA PENGUKURAN FANNY WIDADIE.
BAB 5 PENGUKURAN DEFINISI PENGUKURAN
KONSEP DAN VARIABEL DR. Dewi Kurniasih.
Jenis & Sumber Data TM 2 SIK.
Analisis Klastering K-Means Model Datamining Kelompok 1 Eko Suryana
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
DATA STATISTIKA Statistika aderismanto01.wordpress.com.
Apa itu Statistik? Chapter 1.
STATISTIK NON PARAMETRIK MINGGU 2
Data Mining DATA SET. Set Data Ada bermacam –macam cara untuk merepresentasikan data, Misalnya, atribut yang digunakan untuk menggambarkan jenis objek.
STATISTIKA Srikandi Kumadji.
STATISTIKA BENNY MUSTAPHA, S.Si., MBA..
Statistik Fery mendrofa.
Uji Dua Sampel Berpasangan
STATISTIK 1 PENDAHULUAN
KONSEP PENGUKURAN.
PENGHASILAN PETANI DAN NELAYAN (X 1000 RUPIAH)
By : Rahmat Robi Waliyansyah, M.Kom
Manfaat dan Teknik Penyajian Data
DECISION SUPPORT SYSTEM [MKB3493]
Universitas Gunadarma
KONSEP PENGUKURAN.
Transcript presentasi:

Similarity/ Dissimilarity Various types of variable Data Mining: Concept and Techniques (Jiawei Han, Micheline Kamber)

Struktur data Data matrix (object-by-variable structure) Struktur ini dalam bentuk tabel relasional, n objek x p variable: Dissimilarity matrix (object-by-object structure) Menyimpan kumpulan perkiraan dari seluruh pasangan n objek (n-by-n tabel) Struktur ini digunakan untuk menghitung klaster dari objek.

Macam-macam type data dalam suatu variabel: Interval-scaled variable Binary variable Categorical variable Ratio variable

Interval scaled variable Interval scaled variable: ukuran2 kontinu dari skala linear Contoh: tinggi, berat, koordinat latitude atau longitude (clustering rumah), temperatur cuaca

Interval-scaled variables Hitung mean absolute deviation, sf: Hitung ukuran yg distandarisasikan (or Z-score)

Euclidean Distance Manhattan Distance

Contoh Penghitungan dissimilarity tanpa standarisasi

Dissimilarity (jarak) Binary variable Variabel yang memiliki dua nilai 0 dan 1, dimana 0absent, 1present Bagaimana menghitung ketidaksamaan (dissimilarity) Dissimilarity (jarak)

Similarity:

Contoh variabel biner Suatu tabel rekord pasien berisi atribut: nama, gender, fever, cough, test-1,test-2, test-3, test-4 Nama object identifier Gender simetric atribute

Categorical variable Variabel kategori: secara umum sama dengan variabel biner namun mengambil lebih dari 2 keadaan. Contoh: map color (5 states): red, yellow, green, pink, and blue Ukuran dissimilarity: Dimana, p: jumlah variable, dan m: juml. variabel yg bernilai sama

Contoh Dissimilarity

Maka untuk categorical variable, test 1, p=1 dan d(i,j)=0 jika sama dan 1 jika beda. Sehingga dihasilkan matrik berikut:

Ordinal Varible Ordinal variable : mirip dengan categorical variable, namun memiliki arti dalam urutan dan berguna bila tidak dapat diukur secara objektif. Contoh: profesional rank: assistant, associate, and full for professor.

Jika ada nilai f dari suatu objek xif dan mempunyai states yg terurut dalam rangking 1,…, Mf, maka bisa dituliskan rif є {1, …Mf} Merubah nilai rf dengan menormalisasi :[0,1] dengan rumusan: Kemudian dicari nilai disimilarity- nya digunakan rumusan jarak

Contoh ordinal variable (test-2) Ada 3 state dalam test 2: fair, good dan excellent, sehingga Mf=3 Rubah nilai dlm objek tsb dengan 3(1, 2, dan 3). Normalisasi sehingga: rank-1=0, rank-2=0.5, rank-3=1 Maka dengan rumusan Ecluidian Dist, didapatkan:

Ratio-scaled variable Biasanya digunakan untuk ukuran positip pada skala non linear seperti skala exponensial dg rumusan: Contoh: pertumbuhan populasi bakteri atau kerusakan akibat radioaktif Menggunakan transformasi logaritmik dengan formula yif=log(xif), nilai yif yang digunakan sbg interval value

Contoh ratio-scaled variable (test-3) Maka dgn mengaplikasikan logaritmik dari tiap2 nilai dalam test-3: didapatkan nilai: 2.65, 1.34, 2.21, dan 3.08 untuk objek 1-4 Sehingga dengan rumus jarak didapatkan : Dinormalisasi , Dg membagi 1.74

Variable of Mixed Types Dalam dunia nyata, sering dijumpai variable yg memiliki campuran, antara lain: interval scaled, symmetric binary, categorical, ordinal atau ratio- scaled. Maka dapat digunakan rumusan berikut untuk mencari dissimilarity: Dimana: ∂ij=0 jikaxjf atau xjf kosong & ∂ij=1 jika ada nilainya

Contoh perhitungan mix-variable Jika didapatkan dari perhitungan sebelumnya didapatkan jarak dari tiap-tiap variabel (test1, test2, dan test 3: Maka dengan mengaplikasikan rumusan tersebut didapatkan

Final result of dissimilarity (test1, test2 & test3)