ANALISIS CLUSTER Part 2.

Slides:



Advertisements
Presentasi serupa
Analisis Outlier.
Advertisements

Klastering dengan K-Means
Pengelompokan Jenis Tanah Menggunakan Algoritma Clustering K-Means
Model Datamining Dr. Sri Kusumadewi, S.Si., MT. Materi Kuliah [10]:
DR Rahma Fitriani, S.Si., M.Sc.,
Analisis Interval Aritmatika Interval.
Tugas Kelompok 8 GAME THEORY
Graf Berarah PART 5 DOSEN : AHMAD APANDI, ST.
PENGAMBILAN KEPUTUSAN DALAM KONDISI KONFLIK
DATA MINING 1.
TEORI PERMAINAN BAB 8.
Pendahuluan Clustering adalah salah satu teknik unsupervised learning dimana kita tidak perlu melatih metoda tersebut atau dengan kata lain, tidak ada.
Applied Multivariate Analysis
DIASTUTI WAHYU PURWANINGSIH, ANALISIS CLUSTER TERHADAP TINGKAT PENCEMARAN UDARA PADA SEKTOR INDUSTRI DI JAWA TENGAH.
Pemrosesan Teks Klasterisasi Dokumen Teknik Informatika STMIK GI MDP 2013 Shinta P.
10. PENYEDERHANAAN TATA BAHASA
BAB VIII REGRESI LINEAR BERGANDA DAN REGRESI (TREND) NON LINEAR
Metode Statistika (STK211)
1 Pertemuan 23 Pemilihan regresi terbaik Matakuliah: I0174/Analisis regresi Tahun: 2005 Versi: 1.
Fuzzy Clustering Logika Fuzzy Materi Kuliah Prodi Teknik Informatika
Clustering (Season 2) Self-Organizing Map
Matakuliah : I0174 – Analisis Regresi
Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY
UKURAN PEMUSATAN Rata-rata (average) : mempunyai kecenderungan memusat
12-CRS-0106 REVISED 8 FEB 2013 CSG523/ Desain dan Analisis Algoritma Divide and Conquer Intelligence, Computing, Multimedia (ICM)
PENGAMBILAN KEPUTUSAN DALAM KONDISI KONFLIK
Penyelidikan Operasi Penyelesaian Numerik
ANALISIS OUTLIER 1 Data Mining.
Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY
Clustering Suprayogi.
Datamining - Suprayogi
Sistem Berbasis Fuzzy Materi 5
Pembimbing: Henri Harianja G Imas S. Sitanggang, S.Si M.Kom
Analitycal Hierarchy Process By: Kelompok 5
Transformasi geometri
Analisis Jaringan.
Metode Riset Segmentasi
Aplikasi Terapan – Aljabar Linier
Clustering.
Teori Produksi dan Kegiatan Perusahaan
NETWORK PLANNING Anggota : Anita Astuti Dera Ambarwati
Algoritma kNN (k-Nearest Neighbor)
Analisis Cluster.
K-Nearest Neighbor dan K-means
GAME THEORY.
Clustering (Season 1) K-Means
Pengantar Teknik Kompilasi
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
Aplikasi Komputer & Pengolahan Data UKURAN TENDENSI SENTRAL
CLUSTERING.
Clustering (Season 2) Self-Organizing Map
Analisis Klastering K-Means Model Datamining Kelompok 1 Eko Suryana
Algoritma kNN (k-Nearest Neighbor)
Om Swastyastu SELAMAT PAGI.
ANALISIS CLUSTER Part 1.
Algoritma Divide and Conquer
KLASIFIKASI.
y x TEKNIK RAMALAN DAN ANALISIS REGRESI
Pertemuan 10 Mata Kuliah Pengolahan Citra
Pengetahuan Data Mining
CLUSTERING.
K-MEANS ALGORITHM CLUSTERING
Pengelompokan Dokumen (Document Clustering)
Implementasi clustering K-MEANS (dengan IRIS dataset)
By : Rahmat Robi Waliyansyah, M.Kom
HIERARCHICAL CLUSTERING
DECISION SUPPORT SYSTEM [MKB3493]
Universitas Gunadarma
Algoritma kNN (k-Nearest Neighbor)
Matriks A dan B masing-masing berordo 2 x 2, jika dan maka tentukan matriks; 1. A x B 2. B x A 3. A 2 4. B 2.
Transcript presentasi:

ANALISIS CLUSTER Part 2

METODE HIRARKI Teknik hirarki (hierarchical methods) adalah teknik clustering membentuk kontruksi hirarki atau berdasarkan tingkatan tertentu seperti struktur pohon (struktur pertandingan). Dengan demikian proses pengelompokkannya dilakukan secara bertingkat atau bertahap. Hasil dari pengelompokan ini dapat disajikan dalam bentuk dendogram. Metode-metode yang digunakan dalam teknik hirarki Hal penting dalam metode hirarkhi adalah bahwa hasil pada tahap sebelumnya selalu bersarang di dalam hasil pada tahap berikutnya, membentuk sebuah pohon.

Ada 2 macam metode hirarkikal: Agglomerative Methods. Metode ini dimulai dengan kenyatan bahwa setiap obyek membentuk clusternya masing-masing. Kemudian dua obyek dengan jarak terdekat bergabung. Selanjutnya obyek ketiga akan bergabung dengan cluster yang ada atau bersama obyek lain dan membentuk cluster baru. Hal ini tetap memperhitungkan jarak kedekatan antar obyek. Proses akan berlanjut hingga akhirnya terbentuk satu cluster yang terdiri dari keseluruhan obyek.

Divisive Methods. Metode ini diawali dengan satu cluster besar yang mencakup semua observasi (obyek). Selanjutnya obyek yang mempunyai ketidakmiripan yang cukup besar akan dipisahkan sehingga membentuk cluster yang lebih kecil. Pemisahan ini dilanjutkan sehingga mencapai sejumlah cluster yang diinginkan.

Agglomerative Methods A. Single Linkage ( nearest neighbor methods ) Metode ini didasarkan pada jarak minimum. Dimulai dengan dua objek yang dipisahkan dengan jarak paling pendek maka keduanya akan ditempatkan pada cluster pertama, dan seterusnya. Metode ini dikenal pula dengan nama pendekatan tetangga terdekat Metode ini menggunakan prinsip jarak minimum yang diawali dengan mencari dua obyek terdekat dan keduanya membentuk Cluster yang pertama. Pada langkah selanjutnya terdapat dua kemungkinan, yaitu : a. Obyek ketiga akan bergabung dengan Cluster yg telah terbentuk, b. Dua obyek lainnya akan membentu Cluster baru. Proses ini akan berlanjut sampai akhirnya terbentuk Cluster tunggal. Pada metode ini jarak antar Cluster didefinisikan sebagai jarak terdekat antar anggotanya

Contoh : Terdapat matriks jarak antara 5 buah obyek, yaitu : Langkah penyelesaiannya : a). Mencari obyek dengan jarak minimum Menghitung jarak antara Cluster AB dengan obyek lainnya. D(AB)C = min {dAC, dBC}= dBC = 3.0 D(AB)D = min {dAD, dBD}= dAD = 6.0 D(AB)E = min {dAE, dBE}= dBE = 7.0 Dengan demikian terbentuk matriks jarak yang baru

c). Menghitung jarak antara Cluster dengan obyek lainnya. D(AB)C = 3.0 b). Mencari obyek dengan jarak terdekat. D dan E mempunyai jarak terdekat, yaitu 2,0 maka obyek D dan E bergabung menjadi satu Cluster. c). Menghitung jarak antara Cluster dengan obyek lainnya. D(AB)C = 3.0 D(AB)(DE) = min {dAD, dAE, dBD, dBE} = dAD = 6.0 D(DE)C = min {dCD, dCE} = dCD = 4.0 d). Mencari jarak terdekat antara Cluster dengan obyek dan diperoleh obyek C bergabung dengan Cluster AB e). Pada langkah yang terakhir, Cluster ABC bergabung dengan DE sehingga terbentuk Cluster tunggal.

B. Complete linkage (furthest neighbor methods) Metode ini merupakan kebalikan dari pendekatan yang digunakan pada single linkage. Prinsip jarak yang digunakan adalah jarak terjauh antar obyek. Contoh : Terdapat matriks jarak antara lima buah obyek :

Langkah penyelesaiannya : a) Mencari obyek dengan jarak minimum A dan B mempunyai jarak terdekat yaitu 1.0 maka obyek A dan B bergabung menjadi satu Cluster. b) Menghitung jarak antara Cluster AB dengan obyek lainnya d(AB)C = max {dAC, dBC} = dAC = 5,0 d(AB)D = max {dAD, dBD} = dBD = 8,0 d(AB)E = max {dAE, dBE} = dAE = 8,0 Dengan demikian terbentuk matriks jarak yang baru :

c) Mencari obyek dengan jarak terdekat. D dan E mempunyai jarak terdekat yaitu 2.0 maka obyek D dan E bergabung menjadi satu Cluster d) Menghitung jarak antara Cluster dengan obyek lainnya. d(AB)C = 4,0 d(AB)(DE) = 1/2{dAD, dAE, dBD, dBE} = 7,25 d(DE)C = 1/2{dCD, dCE,} = dCE = 5,00 Maka terbentuklah matrik jarak yang baru, yaitu : e) Mencari jarak terdekat antara Cluster dengan obyek dan diperoleh obyek C bergabung dengan Cluster AB. f) Pada langkah yang terakhir, Cluster ABC bergabung dengan DE sehingga terbentuk Cluster tunggal

c. Pautan Rata-rata (Average Linkage) Dasarnya adalah jarak rata-rata antar observasi. pengelompokan dimulai dari tengah atau pasangan observasi dengan jarak paling mendekati jarak rata-rata. d. Metode Ward (Ward’s Method) Dalam metode ini jarak antara dua cluster adalah jumlah kuadrat antara dua cluster untuk seluruh variabel. Metode ini cenderung digunakan untuk mengkombinasi cluster- cluster dengan jumlah kecil. e. Metode Centroid Jarak antara dua cluster adalah jarak antar centroid cluster tersebut. Centroid cluster adalah nilai tengah observasi pada variabel dalam suatu set variabel cluster. Keuntungannya adalah outlier hanya sedikit berpengaruh jika dibandingkan dengan metode lain.

Divisive Methods Splinter average distance methods Metode ini didasarkan pada perhitungan jarak rata-rata masing-masing obyek dengan obyek pada grup splinter dan jarak rata-rata obyek tersebut dengan obyek lain pada grupnya. Proses tersebut dimulai dengan memisahkan obyek dengan jarak terjauh sehingga terbentuklan dua group. Kemudian dibandingkan dengan jarak rata-rata masing-masing obyek dengan group splinter dengan groupnya sendiri. Apabila suatu obyek mempunyai jarak yang lebih dekat ke group splinter daripada ke groupnya sendiri, maka obyek tersebut haruslah dikeluarkan dari groupnya dan dipisahkan ke group splinter. Apabila komposisinya sudah stabil, yaitu jarak suatu obyek ke groupnya selalu lebih kecil daripada jarak obyek itu ke group splinter, maka proses berhenti dan dilanjutkan dengan tahap pemisahan dalam group.

Contoh : Terdapat matriks jarak antara 5 buah obyek: Perhitungan : Menghitung jarak rata-rata antar obyek A = ¼ (12+9+32+31) = 21 D = ¼ (32+25+23+9) = 22.25 B = ¼ (12+9+25+27) = 18.25 E = ¼ (31+27+24+9) = 22.75 C = ¼ (9+9+23+24) = 16.25 Terlihat bahwa E mempunyai nilai jarak terjauh, yaitu 22.75, maka E dipisahkan dari group utama dan membentuk group splinter

b) Menghitung jarak rata-rata obyek dengan group utama dengan group splinter Pada D, jarak rata-rata dengan group splinter lebih dekat daripada dengan group utama. Dengan demikian D harus dikeluarkan dari group utama dan masuk ke group splinter

c) Perhitungan jarak rata-rata Karena jarak semua obyek ke group utama sudah lebih besar daripada jaraknya ke group splinter, maka komposisinya sudah stabil

Penentuan Jumlah Cluster Salah satu masalah yang dihadapi pada proses clustering adalah pemilihan jumlah cluster yang optimal. Kauffman dan Rousseeuw (1990) memperkenalkan suatu metode untuk menentukan jumlah cluster yang optimal, metode ini disebut dengan silhouette measure. Misalkan kita sebut A sebagai cluster dimana data Xi berada, hitung ai sebagai rata-rata jarak Xi ke semua data yang menjadi anggota A. Anggaplah bahwa C adalah sembarang cluster selain A.

Penentuan Jumlah Cluster Hitung rata-rata jarak antara Xi dengan data yang menjadi anggota dari C, sebut sebagai d(Xi, C). Cari rata-rata jarak terkecil dari semua cluster, sebut sebagai bi, bi = min(d(Xi,C)) dengan CA. Silhoutte dari Xi, sebut sebagai si dapat dipandang sebagai berikut (Chih-Ping, 2005):

Penentuan Jumlah Cluster Rata-rata si untuk semua data untuk k cluster tersebut disebut sebagai rata-rata silhouette ke-k, . Nilai rata-rata silhouette terbesar pada jumlah cluster (katakanlah: k) menunjukkan bahwa k merupakan jumlah cluster yang optimal.