ANALISIS CLUSTER Part 2
METODE HIRARKI Teknik hirarki (hierarchical methods) adalah teknik clustering membentuk kontruksi hirarki atau berdasarkan tingkatan tertentu seperti struktur pohon (struktur pertandingan). Dengan demikian proses pengelompokkannya dilakukan secara bertingkat atau bertahap. Hasil dari pengelompokan ini dapat disajikan dalam bentuk dendogram. Metode-metode yang digunakan dalam teknik hirarki Hal penting dalam metode hirarkhi adalah bahwa hasil pada tahap sebelumnya selalu bersarang di dalam hasil pada tahap berikutnya, membentuk sebuah pohon.
Ada 2 macam metode hirarkikal: Agglomerative Methods. Metode ini dimulai dengan kenyatan bahwa setiap obyek membentuk clusternya masing-masing. Kemudian dua obyek dengan jarak terdekat bergabung. Selanjutnya obyek ketiga akan bergabung dengan cluster yang ada atau bersama obyek lain dan membentuk cluster baru. Hal ini tetap memperhitungkan jarak kedekatan antar obyek. Proses akan berlanjut hingga akhirnya terbentuk satu cluster yang terdiri dari keseluruhan obyek.
Divisive Methods. Metode ini diawali dengan satu cluster besar yang mencakup semua observasi (obyek). Selanjutnya obyek yang mempunyai ketidakmiripan yang cukup besar akan dipisahkan sehingga membentuk cluster yang lebih kecil. Pemisahan ini dilanjutkan sehingga mencapai sejumlah cluster yang diinginkan.
Agglomerative Methods A. Single Linkage ( nearest neighbor methods ) Metode ini didasarkan pada jarak minimum. Dimulai dengan dua objek yang dipisahkan dengan jarak paling pendek maka keduanya akan ditempatkan pada cluster pertama, dan seterusnya. Metode ini dikenal pula dengan nama pendekatan tetangga terdekat Metode ini menggunakan prinsip jarak minimum yang diawali dengan mencari dua obyek terdekat dan keduanya membentuk Cluster yang pertama. Pada langkah selanjutnya terdapat dua kemungkinan, yaitu : a. Obyek ketiga akan bergabung dengan Cluster yg telah terbentuk, b. Dua obyek lainnya akan membentu Cluster baru. Proses ini akan berlanjut sampai akhirnya terbentuk Cluster tunggal. Pada metode ini jarak antar Cluster didefinisikan sebagai jarak terdekat antar anggotanya
Contoh : Terdapat matriks jarak antara 5 buah obyek, yaitu : Langkah penyelesaiannya : a). Mencari obyek dengan jarak minimum Menghitung jarak antara Cluster AB dengan obyek lainnya. D(AB)C = min {dAC, dBC}= dBC = 3.0 D(AB)D = min {dAD, dBD}= dAD = 6.0 D(AB)E = min {dAE, dBE}= dBE = 7.0 Dengan demikian terbentuk matriks jarak yang baru
c). Menghitung jarak antara Cluster dengan obyek lainnya. D(AB)C = 3.0 b). Mencari obyek dengan jarak terdekat. D dan E mempunyai jarak terdekat, yaitu 2,0 maka obyek D dan E bergabung menjadi satu Cluster. c). Menghitung jarak antara Cluster dengan obyek lainnya. D(AB)C = 3.0 D(AB)(DE) = min {dAD, dAE, dBD, dBE} = dAD = 6.0 D(DE)C = min {dCD, dCE} = dCD = 4.0 d). Mencari jarak terdekat antara Cluster dengan obyek dan diperoleh obyek C bergabung dengan Cluster AB e). Pada langkah yang terakhir, Cluster ABC bergabung dengan DE sehingga terbentuk Cluster tunggal.
B. Complete linkage (furthest neighbor methods) Metode ini merupakan kebalikan dari pendekatan yang digunakan pada single linkage. Prinsip jarak yang digunakan adalah jarak terjauh antar obyek. Contoh : Terdapat matriks jarak antara lima buah obyek :
Langkah penyelesaiannya : a) Mencari obyek dengan jarak minimum A dan B mempunyai jarak terdekat yaitu 1.0 maka obyek A dan B bergabung menjadi satu Cluster. b) Menghitung jarak antara Cluster AB dengan obyek lainnya d(AB)C = max {dAC, dBC} = dAC = 5,0 d(AB)D = max {dAD, dBD} = dBD = 8,0 d(AB)E = max {dAE, dBE} = dAE = 8,0 Dengan demikian terbentuk matriks jarak yang baru :
c) Mencari obyek dengan jarak terdekat. D dan E mempunyai jarak terdekat yaitu 2.0 maka obyek D dan E bergabung menjadi satu Cluster d) Menghitung jarak antara Cluster dengan obyek lainnya. d(AB)C = 4,0 d(AB)(DE) = 1/2{dAD, dAE, dBD, dBE} = 7,25 d(DE)C = 1/2{dCD, dCE,} = dCE = 5,00 Maka terbentuklah matrik jarak yang baru, yaitu : e) Mencari jarak terdekat antara Cluster dengan obyek dan diperoleh obyek C bergabung dengan Cluster AB. f) Pada langkah yang terakhir, Cluster ABC bergabung dengan DE sehingga terbentuk Cluster tunggal
c. Pautan Rata-rata (Average Linkage) Dasarnya adalah jarak rata-rata antar observasi. pengelompokan dimulai dari tengah atau pasangan observasi dengan jarak paling mendekati jarak rata-rata. d. Metode Ward (Ward’s Method) Dalam metode ini jarak antara dua cluster adalah jumlah kuadrat antara dua cluster untuk seluruh variabel. Metode ini cenderung digunakan untuk mengkombinasi cluster- cluster dengan jumlah kecil. e. Metode Centroid Jarak antara dua cluster adalah jarak antar centroid cluster tersebut. Centroid cluster adalah nilai tengah observasi pada variabel dalam suatu set variabel cluster. Keuntungannya adalah outlier hanya sedikit berpengaruh jika dibandingkan dengan metode lain.
Divisive Methods Splinter average distance methods Metode ini didasarkan pada perhitungan jarak rata-rata masing-masing obyek dengan obyek pada grup splinter dan jarak rata-rata obyek tersebut dengan obyek lain pada grupnya. Proses tersebut dimulai dengan memisahkan obyek dengan jarak terjauh sehingga terbentuklan dua group. Kemudian dibandingkan dengan jarak rata-rata masing-masing obyek dengan group splinter dengan groupnya sendiri. Apabila suatu obyek mempunyai jarak yang lebih dekat ke group splinter daripada ke groupnya sendiri, maka obyek tersebut haruslah dikeluarkan dari groupnya dan dipisahkan ke group splinter. Apabila komposisinya sudah stabil, yaitu jarak suatu obyek ke groupnya selalu lebih kecil daripada jarak obyek itu ke group splinter, maka proses berhenti dan dilanjutkan dengan tahap pemisahan dalam group.
Contoh : Terdapat matriks jarak antara 5 buah obyek: Perhitungan : Menghitung jarak rata-rata antar obyek A = ¼ (12+9+32+31) = 21 D = ¼ (32+25+23+9) = 22.25 B = ¼ (12+9+25+27) = 18.25 E = ¼ (31+27+24+9) = 22.75 C = ¼ (9+9+23+24) = 16.25 Terlihat bahwa E mempunyai nilai jarak terjauh, yaitu 22.75, maka E dipisahkan dari group utama dan membentuk group splinter
b) Menghitung jarak rata-rata obyek dengan group utama dengan group splinter Pada D, jarak rata-rata dengan group splinter lebih dekat daripada dengan group utama. Dengan demikian D harus dikeluarkan dari group utama dan masuk ke group splinter
c) Perhitungan jarak rata-rata Karena jarak semua obyek ke group utama sudah lebih besar daripada jaraknya ke group splinter, maka komposisinya sudah stabil
Penentuan Jumlah Cluster Salah satu masalah yang dihadapi pada proses clustering adalah pemilihan jumlah cluster yang optimal. Kauffman dan Rousseeuw (1990) memperkenalkan suatu metode untuk menentukan jumlah cluster yang optimal, metode ini disebut dengan silhouette measure. Misalkan kita sebut A sebagai cluster dimana data Xi berada, hitung ai sebagai rata-rata jarak Xi ke semua data yang menjadi anggota A. Anggaplah bahwa C adalah sembarang cluster selain A.
Penentuan Jumlah Cluster Hitung rata-rata jarak antara Xi dengan data yang menjadi anggota dari C, sebut sebagai d(Xi, C). Cari rata-rata jarak terkecil dari semua cluster, sebut sebagai bi, bi = min(d(Xi,C)) dengan CA. Silhoutte dari Xi, sebut sebagai si dapat dipandang sebagai berikut (Chih-Ping, 2005):
Penentuan Jumlah Cluster Rata-rata si untuk semua data untuk k cluster tersebut disebut sebagai rata-rata silhouette ke-k, . Nilai rata-rata silhouette terbesar pada jumlah cluster (katakanlah: k) menunjukkan bahwa k merupakan jumlah cluster yang optimal.