Clustering yudi@upi.edu Okt 2012.

Slides:



Advertisements
Presentasi serupa
BAB 7. KURVA NORMAL DAN NILAI STANDAR
Advertisements

SULIDAR FITRI, M.Sc March 18,2014
Analisis Outlier.
K-Means Clustering.
(DESCRIPTIVE ANALYZE)
Pengelompokan Jenis Tanah Menggunakan Algoritma Clustering K-Means
KONSEP MANAJEMEN BASIS DATA Sistem Informasi Geografis
Model Datamining Dr. Sri Kusumadewi, S.Si., MT. Materi Kuliah [10]:
ANALISIS DATA Dr. Adi Setiawan.
17. Medan Listrik.
KONSEP-KONSEP DALAM MANAJEMEN BASIS DATA SIG
FUZZY INFERENCE SYSTEMS
Pendahuluan Clustering adalah salah satu teknik unsupervised learning dimana kita tidak perlu melatih metoda tersebut atau dengan kata lain, tidak ada.
Perbaikan Citra pada Domain Spasial
KORELASI WAHYU WIDODO.
Applied Multivariate Analysis
M ANAJEMEN D ATA “Pengaksesan Data”. P ENDAHULUAN Selama beberapa waktu, teknologi informasi berkonsentrasi pada pembangunan sistem bermisi kritis,- sistem.
LOGIKA FUZZY PERTEMUAN 3.
Langkah awal sebelum menganalisis data
Pemrosesan Teks Klasterisasi Dokumen Teknik Informatika STMIK GI MDP 2013 Shinta P.
STATISTIKA Srikandi Kumadji.
Pengertian dan Peranan Statistika dan Data Statistik Pertemuan 01
Clustering. Definition Clustering is “the process of organizing objects into groups whose members are similar in some way”. A cluster is therefore a collection.
Analisis Data dengan SPSS
Fuzzy Clustering Logika Fuzzy Materi Kuliah Prodi Teknik Informatika
1 Pertemuan 24 Matakuliah: I0214 / Statistika Multivariat Tahun: 2005 Versi: V1 / R1 Analisis Struktur Peubah Ganda (IV): Analisis Kanonik.
Data Mining: Mengenal dan memahami data
Smoothing. Basic Smoothing Models Moving average, weighted moving average, exponential smoothing Single and Double Smoothing First order exponential smoothing.
Tim Dosen Data Mining Fakultas Informatika
Pertemuan #3 DATA MINING.
ANALISIS OUTLIER 1 Data Mining.
Ukuran Gejala Pusat (Central Tendency)
Pertemuan 4 Teknik-teknik Data Mining
STATISTIKA Mean, Median dan Modus.
Pembimbing: Henri Harianja G Imas S. Sitanggang, S.Si M.Kom
Analisis Univariat dan Bivariat
Preparing the Data.
STATISTIKA Srikandi Kumadji.
Konsep Data Mining Ana Kurniawati.
STATISTIK II Pertemuan 9: Pengujian Hipotesis Dua Sampel dan ANOVA (SPSS) Dosen Pengampu MK: Evellin Lusiana, S.Si, M.Si.
Clustering.
Clustering Best Practice
Analisis Cluster.
K-Nearest Neighbor dan K-means
Clustering (Season 1) K-Means
Similarity/ Dissimilarity
STATISTIK II Pertemuan 9: Pengujian Hipotesis Dua Sampel dan ANOVA (SPSS) Dosen Pengampu MK: Evellin Lusiana, S.Si, M.Si.
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
Classification Supervised learning.
Fungsi Kepekatan Peluang Khusus Pertemuan 10
Analisis Klastering K-Means Model Datamining Kelompok 1 Eko Suryana
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
Self-Organizing Network Model (SOM) Pertemuan 10
STATISTIK DESKRIPTIF Penajian data.
ANALISIS CLUSTER Part 1.
STATISTIKA Srikandi Kumadji.
ANALISIS CLUSTER Part 2.
KLASIFIKASI.
Data PreProcessing (Praproses Data)
Pertemuan 8, 9, 10 Teknik-teknik Data Mining
KONSEP-KONSEP DALAM MANAJEMEN BASIS DATA SIG
CLUSTERING.
K-MEANS ALGORITHM CLUSTERING
STATISTIK II Pertemuan 9: Pengujian Hipotesis Dua Sampel dan ANOVA (SPSS) Dosen Pengampu MK: Evellin Lusiana, S.Si, M.Si.
Pengelompokan Dokumen (Document Clustering)
Konsep Data Mining Ana Kurniawati.
Implementasi clustering K-MEANS (dengan IRIS dataset)
By : Rahmat Robi Waliyansyah, M.Kom
DECISION SUPPORT SYSTEM [MKB3493]
Universitas Gunadarma
Transcript presentasi:

Clustering yudi@upi.edu Okt 2012

Contoh

Cluster Analysis? Cluster: kumpulan objek data Cluster analysis Anggota cluster yang sama memiliki kemiripan satu sama lain, tetapi berbeda dengan anggota cluster lain. Cluster analysis Menemukan kemiripan data berdasarkan karakteristik dan mengelompokan data yang mirip ke dalam cluster. Unsupervised learning: class tidak ditentukan sebelumnya Penggunaan Tool untuk melihat distribusi data Preprocessing untuk langkah berikutnya

Aplikasi Cluster Analysis Pengenalan Pola Spatial Data Analysis Cluster spatial Pemrosesan gambar Economic Science (terutama market research) WWW Berita, hasil pencarian Cluster Weblog data to discover groups of similar access patterns

Aplikasi clustering (lanj) Marketing: Membantu pihak pemasaran untuk menentukan grup khusus dan membuat program khusus untuk grup ini. Land use: Identifikasi area yang digunakan untuk hal yang sama. Asuransi: Identifikasi grup yang memiliki tingkat claim yang tinggi. Tata kota: Identifikasi rumah-rumah berdasrkan tipe, harga dan lokasi.

Cluster yang berkualitas: Metode yang bagus akan menghasilkan: intra-class similarity yang tinggi (anggota di dalam kelas yang sama mirip) low inter-class similarity (anggota di kelas yang lain, jauh berbeda) Kualitas cluter bergantung kepada ukuran kemiripan yang digunakan oleh metode clustering. Kualitas juga ditentukan sejauh mana clustering dapat menemukan pola tersembunyi.

Ukuran Kesamaan Kesamaan/kemiripan diukur berdasarkan fungsi jarak, d(i, j) Definisi distance functions bisanya sangat berbeda untuk interval-scaled, boolean, categorical, ordinal ratio, and vector variables. Bobot diasosiasikan dengan aplikasi dan arti data. Sulit untuk mendefinsikan “cukup sama ” or “cukup bagus” karena subyektif.

Requirement Clustering Scalability  untuk data dalam jumlah besar Menangani berbagai macam tipe atribut. clusters dengan berbagai bentuk. Sesedikit mungkin parameter Meanangani noise dan outliers Tidak peduli urutan input record High dimensionality  banyak atribut Incorporation of user-specified constraints Interpretability and usability

Struktur Data Data matrix (two modes) Dissimilarity matrix (one mode)

Tipe data dalam clustering Interval-scaled variables Binary variables  ada atau tidak Nominal, ordinal, and ratio variables Campuran

Interval-Scaled Variable Skala linear (bukan eksponensial, bukan logaritimik) Positif atau negatif, pecahan atau bulat. Tinggi badan, berat badan, jarak dst. Contoh: jarak 50m ke 100m sama dengan jarak 150-200.

Contoh yang bukan interval-Scaled Variable skala richter gempa naik satu level = 10 kali lipat level sebelumnya. http://www.sdgs.usd.edu/publications/maps/earthquakes/images/RichterScale.gif

Interval Variable Jika ada beberapa atribut dan punya distribusi berbeda: perlu distandardkan. Buat data menjadi standard, z-score: Hitung mean absolute deviation: dimana Hitung standardized measurement (z-score)

Mengapa z-score? Tidak bisa membandingkan atribut dengan distribusi berbeda. Contoh: Seseorang mendapatkan nilai 70 untuk bhs Inggris (rata2 kelas: 60, std deviasi: 15). Dia mendapat nilai 72 untuk matematika (rata2: 68, std deviasi: 6). Nilai mana yang lebih baik?

Lanj z-score nilai bhs Inggris: z-score nilai Matematika: (70-60) /15 = 0.67 z-score nilai Matematika: (72-68)/6 = 0.67 Dari tabel standard distribusi, probabilitas z=0.67 adalah 0.24 (25%), artinya baik untuk bhs Inggris maupun Matematika, nilai siswa ini lebih baik dari 75% siswa yg lain.

Jarak antara Interval-Scaled Variable similarity atau dissimilarity antar dua objek: jarak kedua objek Yang populer: Minkowski distance: q : integer positif If q = 1, d is Manhattan distance

Interval Variable (lanj) Jika q = 2, d adalah Euclidean distance: Properties d(i,j)  0 d(i,i) = 0 d(i,j) = d(j,i) d(i,j)  d(i,k) + d(k,j) Cara lain: weighted distance, parametric Pearson product moment correlation

Variabel Binary A contingency table  Object i Object j A contingency table  Jarak untuk symmetric binary variables: Jarak untuk asymmetric binary variables: Jaccard coefficient (similarity measure untuk asymmetric binary variables):

Contoh gender is a symmetric attribute the remaining attributes are asymmetric binary let the values Y and P be set to 1, and the value N be set to 0

Nominal Variabel Dapat memiliki > 2 states: red, yellow, blue, green Method 1: Simple matching m: jumlah cocok, p: jumlah variabel Method 2: banyak binary variables Buat binary variable sebanyak states

Ordinal Dapat discrete atau continuous Urutan penting: misalnya rank Dapat diperlakukan sebagai interval-scaled ganti xif dengan peringkat Petakan ke [0, 1] dengan mengganti objek ke i dan variabel ke f dengan Hitung seperti interval variabel

Ratio-Scaled Variables Ratio-scaled variable: nilai positif dengan skala nonlinear (exponential scale) seperti AeBt or Ae-Bt Cara: Gunakan logarithmic transformation yif = log(xif) Pelakukan sebagai continuous ordinal data

Campuran Database dapat mengandung semua tipe: symmetric binary, asymmetric binary, nominal, ordinal, interval and ratio Gunakan weighted formula untuk mengkombinasikan semua variabel:

Pendekatan Clustering Partisi : Buat partisi dan evaluasi berdasarkan kriteria tertentu, misalnya meminimalkan sum of square errors Metode: k-means, k-medoids, CLARANS Hirarkis: Buat struktur hierarchical menggunakan kriteria tertentu Metode: Diana, Agnes, BIRCH, ROCK, CAMELEON Density-based : Berdasarkan connectivity dan density functions Metode: DBSACN, OPTICS, DenClue Yang lain: Grid-based approach, model-based, frequent pattern-based, user-guided or constraint-based:

Jarak antar cluster Single link: jarak terpendek antar elemen di dua cluster dis(Ki, Kj) = min(tip, tjq) Complete link: jarak terjauh antar elemen di dua cluster, i.e., dis(Ki, Kj) = max(tip, tjq) Average: rata2 jarak i.e., dis(Ki, Kj) = avg(tip, tjq) Centroid: jarak antara centroids, i.e., dis(Ki, Kj) = dis(Ci, Cj) Medoid: jarak antarta medoids, i.e., dis(Ki, Kj) = dis(Mi, Mj) Medoid: elemen yang dipilih dan dianggap merupakan titik tengah cluster

Metode Partisi: K-means Partisi objek ke k nonempty subset Hitung centroid (centroid adalah titik tengah cluster) Masukkan setiap objek ke cluster dengan centroid terdekat Kembali ke langkah 2, sampai tidak ada posisi yang berubah

Contoh K-Means Anda diminta mencluster 8 point berikut: A1(2, 10), A2(2, 5), A3(8, 4), B1(5, 8), B2(7, 5), B3(6, 4), C1(1, 2), C2(4, 9). gunakan K-Means dengan euclidean distance. Asumsikan A2, B2 dan C2 sebagai inisial cluster untuk cluster A, B dan C. Tampilkan perhitungan dan isi cluster (termasuk centroid cluster yang dihitung dengan rata-rata).

Contoh K-Means A1(2, 10), A2(2, 5), A3(8, 4), B1(5, 8), B2(7, 5), B3(6, 4), C1(1, 2), C2(4, 9). Jarak antara setiap titik dengan setiap cluster. Cluster A, centroid: (2,5) Cluster B, centroid: (7,5) Cluster C, centroid: (4,9) A1  cluster A A3  cluster A, d(A3,A) = B1  cluster A, d(B1,A) = B3  cluster A, d(B3,A) = C1  cluster A, d(C1,A) =

Contoh K-Means: Update the cluster means 1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 Update the cluster means 4 Assign each objects to most similar center 3 2 1 1 2 3 4 5 6 7 8 9 10 reassign reassign K=2 Arbitrarily choose K object as initial cluster center Update the cluster means

K-Medoids Kelemahan utama centroid  jika ada outlier posisi centroid akan terpengaruhi. Centroid diganti Modoids  salah satu data dipilih sebagai titik tengah

Contoh K-Metoid (PAM) K=2 Do loop Until no change 10 9 8 7 Arbitrary choose k object as initial medoids Assign each remaining object to nearest medoids 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 10 K=2 Randomly select a nonmedoid object,Oramdom Total Cost = 26 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 Do loop Until no change Compute total cost of swapping Swapping O and Oramdom If quality is improved.