ANALISIS CLUSTER Part 2.

Slides:

Advertisements

Presentasi serupa

Analisis Outlier.

Advertisements

Klastering dengan K-Means

Pengelompokan Jenis Tanah Menggunakan Algoritma Clustering K-Means

Model Datamining Dr. Sri Kusumadewi, S.Si., MT. Materi Kuliah [10]:

DR Rahma Fitriani, S.Si., M.Sc.,

Analisis Interval Aritmatika Interval.

Tugas Kelompok 8 GAME THEORY

Graf Berarah PART 5 DOSEN : AHMAD APANDI, ST.

PENGAMBILAN KEPUTUSAN DALAM KONDISI KONFLIK

TEORI PERMAINAN BAB 8.

Pendahuluan Clustering adalah salah satu teknik unsupervised learning dimana kita tidak perlu melatih metoda tersebut atau dengan kata lain, tidak ada.

Applied Multivariate Analysis

DIASTUTI WAHYU PURWANINGSIH, ANALISIS CLUSTER TERHADAP TINGKAT PENCEMARAN UDARA PADA SEKTOR INDUSTRI DI JAWA TENGAH.

Pemrosesan Teks Klasterisasi Dokumen Teknik Informatika STMIK GI MDP 2013 Shinta P.

10. PENYEDERHANAAN TATA BAHASA

BAB VIII REGRESI LINEAR BERGANDA DAN REGRESI (TREND) NON LINEAR

Metode Statistika (STK211)

1 Pertemuan 23 Pemilihan regresi terbaik Matakuliah: I0174/Analisis regresi Tahun: 2005 Versi: 1.

Fuzzy Clustering Logika Fuzzy Materi Kuliah Prodi Teknik Informatika

Clustering (Season 2) Self-Organizing Map

Matakuliah : I0174 – Analisis Regresi

Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY

UKURAN PEMUSATAN Rata-rata (average) : mempunyai kecenderungan memusat

12-CRS-0106 REVISED 8 FEB 2013 CSG523/ Desain dan Analisis Algoritma Divide and Conquer Intelligence, Computing, Multimedia (ICM)

PENGAMBILAN KEPUTUSAN DALAM KONDISI KONFLIK

Penyelidikan Operasi Penyelesaian Numerik

ANALISIS OUTLIER 1 Data Mining.

Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY

Clustering Suprayogi.

Datamining - Suprayogi

Sistem Berbasis Fuzzy Materi 5

Pembimbing: Henri Harianja G Imas S. Sitanggang, S.Si M.Kom

Analitycal Hierarchy Process By: Kelompok 5

Transformasi geometri

Analisis Jaringan.

Metode Riset Segmentasi

Aplikasi Terapan – Aljabar Linier

Teori Produksi dan Kegiatan Perusahaan

NETWORK PLANNING Anggota : Anita Astuti Dera Ambarwati

Algoritma kNN (k-Nearest Neighbor)

Analisis Cluster.

K-Nearest Neighbor dan K-means

Clustering (Season 1) K-Means

Pengantar Teknik Kompilasi

PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN

Aplikasi Komputer & Pengolahan Data UKURAN TENDENSI SENTRAL

Clustering (Season 2) Self-Organizing Map

Analisis Klastering K-Means Model Datamining Kelompok 1 Eko Suryana

Algoritma kNN (k-Nearest Neighbor)

Om Swastyastu SELAMAT PAGI.

ANALISIS CLUSTER Part 1.

Algoritma Divide and Conquer

y x TEKNIK RAMALAN DAN ANALISIS REGRESI

Pertemuan 10 Mata Kuliah Pengolahan Citra

Pengetahuan Data Mining

K-MEANS ALGORITHM CLUSTERING

Pengelompokan Dokumen (Document Clustering)

Implementasi clustering K-MEANS (dengan IRIS dataset)

By : Rahmat Robi Waliyansyah, M.Kom

HIERARCHICAL CLUSTERING

DECISION SUPPORT SYSTEM [MKB3493]

Universitas Gunadarma

Algoritma kNN (k-Nearest Neighbor)

Matriks A dan B masing-masing berordo 2 x 2, jika dan maka tentukan matriks; 1. A x B 2. B x A 3. A 2 4. B 2.

Transcript presentasi:

ANALISIS CLUSTER Part 2

METODE HIRARKI Teknik hirarki (hierarchical methods) adalah teknik clustering membentuk kontruksi hirarki atau berdasarkan tingkatan tertentu seperti struktur pohon (struktur pertandingan). Dengan demikian proses pengelompokkannya dilakukan secara bertingkat atau bertahap. Hasil dari pengelompokan ini dapat disajikan dalam bentuk dendogram. Metode-metode yang digunakan dalam teknik hirarki Hal penting dalam metode hirarkhi adalah bahwa hasil pada tahap sebelumnya selalu bersarang di dalam hasil pada tahap berikutnya, membentuk sebuah pohon.

Ada 2 macam metode hirarkikal: Agglomerative Methods. Metode ini dimulai dengan kenyatan bahwa setiap obyek membentuk clusternya masing-masing. Kemudian dua obyek dengan jarak terdekat bergabung. Selanjutnya obyek ketiga akan bergabung dengan cluster yang ada atau bersama obyek lain dan membentuk cluster baru. Hal ini tetap memperhitungkan jarak kedekatan antar obyek. Proses akan berlanjut hingga akhirnya terbentuk satu cluster yang terdiri dari keseluruhan obyek.

Divisive Methods. Metode ini diawali dengan satu cluster besar yang mencakup semua observasi (obyek). Selanjutnya obyek yang mempunyai ketidakmiripan yang cukup besar akan dipisahkan sehingga membentuk cluster yang lebih kecil. Pemisahan ini dilanjutkan sehingga mencapai sejumlah cluster yang diinginkan.

Agglomerative Methods A. Single Linkage ( nearest neighbor methods ) Metode ini didasarkan pada jarak minimum. Dimulai dengan dua objek yang dipisahkan dengan jarak paling pendek maka keduanya akan ditempatkan pada cluster pertama, dan seterusnya. Metode ini dikenal pula dengan nama pendekatan tetangga terdekat Metode ini menggunakan prinsip jarak minimum yang diawali dengan mencari dua obyek terdekat dan keduanya membentuk Cluster yang pertama. Pada langkah selanjutnya terdapat dua kemungkinan, yaitu : a. Obyek ketiga akan bergabung dengan Cluster yg telah terbentuk, b. Dua obyek lainnya akan membentu Cluster baru. Proses ini akan berlanjut sampai akhirnya terbentuk Cluster tunggal. Pada metode ini jarak antar Cluster didefinisikan sebagai jarak terdekat antar anggotanya

Contoh : Terdapat matriks jarak antara 5 buah obyek, yaitu : Langkah penyelesaiannya : a). Mencari obyek dengan jarak minimum Menghitung jarak antara Cluster AB dengan obyek lainnya. D(AB)C = min {dAC, dBC}= dBC = 3.0 D(AB)D = min {dAD, dBD}= dAD = 6.0 D(AB)E = min {dAE, dBE}= dBE = 7.0 Dengan demikian terbentuk matriks jarak yang baru

c). Menghitung jarak antara Cluster dengan obyek lainnya. D(AB)C = 3.0 b). Mencari obyek dengan jarak terdekat. D dan E mempunyai jarak terdekat, yaitu 2,0 maka obyek D dan E bergabung menjadi satu Cluster. c). Menghitung jarak antara Cluster dengan obyek lainnya. D(AB)C = 3.0 D(AB)(DE) = min {dAD, dAE, dBD, dBE} = dAD = 6.0 D(DE)C = min {dCD, dCE} = dCD = 4.0 d). Mencari jarak terdekat antara Cluster dengan obyek dan diperoleh obyek C bergabung dengan Cluster AB e). Pada langkah yang terakhir, Cluster ABC bergabung dengan DE sehingga terbentuk Cluster tunggal.

B. Complete linkage (furthest neighbor methods) Metode ini merupakan kebalikan dari pendekatan yang digunakan pada single linkage. Prinsip jarak yang digunakan adalah jarak terjauh antar obyek. Contoh : Terdapat matriks jarak antara lima buah obyek :

Langkah penyelesaiannya : a) Mencari obyek dengan jarak minimum A dan B mempunyai jarak terdekat yaitu 1.0 maka obyek A dan B bergabung menjadi satu Cluster. b) Menghitung jarak antara Cluster AB dengan obyek lainnya d(AB)C = max {dAC, dBC} = dAC = 5,0 d(AB)D = max {dAD, dBD} = dBD = 8,0 d(AB)E = max {dAE, dBE} = dAE = 8,0 Dengan demikian terbentuk matriks jarak yang baru :

c) Mencari obyek dengan jarak terdekat. D dan E mempunyai jarak terdekat yaitu 2.0 maka obyek D dan E bergabung menjadi satu Cluster d) Menghitung jarak antara Cluster dengan obyek lainnya. d(AB)C = 4,0 d(AB)(DE) = 1/2{dAD, dAE, dBD, dBE} = 7,25 d(DE)C = 1/2{dCD, dCE,} = dCE = 5,00 Maka terbentuklah matrik jarak yang baru, yaitu : e) Mencari jarak terdekat antara Cluster dengan obyek dan diperoleh obyek C bergabung dengan Cluster AB. f) Pada langkah yang terakhir, Cluster ABC bergabung dengan DE sehingga terbentuk Cluster tunggal

c. Pautan Rata-rata (Average Linkage) Dasarnya adalah jarak rata-rata antar observasi. pengelompokan dimulai dari tengah atau pasangan observasi dengan jarak paling mendekati jarak rata-rata. d. Metode Ward (Ward’s Method) Dalam metode ini jarak antara dua cluster adalah jumlah kuadrat antara dua cluster untuk seluruh variabel. Metode ini cenderung digunakan untuk mengkombinasi cluster- cluster dengan jumlah kecil. e. Metode Centroid Jarak antara dua cluster adalah jarak antar centroid cluster tersebut. Centroid cluster adalah nilai tengah observasi pada variabel dalam suatu set variabel cluster. Keuntungannya adalah outlier hanya sedikit berpengaruh jika dibandingkan dengan metode lain.

Divisive Methods Splinter average distance methods Metode ini didasarkan pada perhitungan jarak rata-rata masing-masing obyek dengan obyek pada grup splinter dan jarak rata-rata obyek tersebut dengan obyek lain pada grupnya. Proses tersebut dimulai dengan memisahkan obyek dengan jarak terjauh sehingga terbentuklan dua group. Kemudian dibandingkan dengan jarak rata-rata masing-masing obyek dengan group splinter dengan groupnya sendiri. Apabila suatu obyek mempunyai jarak yang lebih dekat ke group splinter daripada ke groupnya sendiri, maka obyek tersebut haruslah dikeluarkan dari groupnya dan dipisahkan ke group splinter. Apabila komposisinya sudah stabil, yaitu jarak suatu obyek ke groupnya selalu lebih kecil daripada jarak obyek itu ke group splinter, maka proses berhenti dan dilanjutkan dengan tahap pemisahan dalam group.

Contoh : Terdapat matriks jarak antara 5 buah obyek: Perhitungan : Menghitung jarak rata-rata antar obyek A = ¼ (12+9+32+31) = 21 D = ¼ (32+25+23+9) = 22.25 B = ¼ (12+9+25+27) = 18.25 E = ¼ (31+27+24+9) = 22.75 C = ¼ (9+9+23+24) = 16.25 Terlihat bahwa E mempunyai nilai jarak terjauh, yaitu 22.75, maka E dipisahkan dari group utama dan membentuk group splinter

b) Menghitung jarak rata-rata obyek dengan group utama dengan group splinter Pada D, jarak rata-rata dengan group splinter lebih dekat daripada dengan group utama. Dengan demikian D harus dikeluarkan dari group utama dan masuk ke group splinter

c) Perhitungan jarak rata-rata Karena jarak semua obyek ke group utama sudah lebih besar daripada jaraknya ke group splinter, maka komposisinya sudah stabil

Penentuan Jumlah Cluster Salah satu masalah yang dihadapi pada proses clustering adalah pemilihan jumlah cluster yang optimal. Kauffman dan Rousseeuw (1990) memperkenalkan suatu metode untuk menentukan jumlah cluster yang optimal, metode ini disebut dengan silhouette measure. Misalkan kita sebut A sebagai cluster dimana data Xi berada, hitung ai sebagai rata-rata jarak Xi ke semua data yang menjadi anggota A. Anggaplah bahwa C adalah sembarang cluster selain A.

Penentuan Jumlah Cluster Hitung rata-rata jarak antara Xi dengan data yang menjadi anggota dari C, sebut sebagai d(Xi, C). Cari rata-rata jarak terkecil dari semua cluster, sebut sebagai bi, bi = min(d(Xi,C)) dengan CA. Silhoutte dari Xi, sebut sebagai si dapat dipandang sebagai berikut (Chih-Ping, 2005):

Penentuan Jumlah Cluster Rata-rata si untuk semua data untuk k cluster tersebut disebut sebagai rata-rata silhouette ke-k, . Nilai rata-rata silhouette terbesar pada jumlah cluster (katakanlah: k) menunjukkan bahwa k merupakan jumlah cluster yang optimal.