ANALISIS CLUSTER Part 1
Analisis cluster merupakan salah satu teknik data mining yang bertujuan untuk mengidentifikasi sekelompok obyek yang mempunyai kemiripan karakteristik tertentu yang dapat dipisahkan dengan kelompok obyek lainnya, sehingga obyek yang berada dalam kelompok yang sama relatif lebih homogen daripada obyek yang berada pada kelompok yang berbeda.
Contoh penggunaan analisis cluster Identifikasi obyek (Recognition) : Dalam bidang image Processing , Computer Vision atau robot vision Decission Support System dan data mining • Membuat segmen pasar (segmenting the market). • Memahami perilaku pembeli. • Mengenali peluang produk baru .
Di dalam analisis cluster kita ingin menggerombolkan/mengklasterkan dari sekelompok obyek. Sedemikian sehingga obyek- obyek dalam klaster yang sama lebih mirip dibandingkan dengan obyek-obyek dalam klaster yang lain. Hasil dari analisis klaster dipengaruhi oleh : obyek yang diklasterkan, peubah yang diamati, ukuran kemiripan (jarak) rang dipakai, skala ukuran yang dipakai, serta metode pengklasteran yang digunakan. Secara umum metode pengklasteran dapat diklasifikasikan sesuai diagram berikut :
Algoritma Cluster Dua metode paling umum dalam algoritma cluster adalah metode hirarkhi dan metode non hirarkhi. Penentuan metode mana yang akan dipakai tergantung kepada peneliti dan konteks penelitian dengan tidak mengabaikan substansi, teori dan konsep yang berlaku. Keuntungan metode hirarkhi adalah cepat dalam proses pengolahan sehingga menghemat waktu, namun kelemahannya metode ini dapat menimbulkan kesalahan. Selain itu tidak baik diterapkan untuk menganalisis sampel dengan ukuran besar. Metode Non Hirarkhi memiliki keuntungan lebih daripada metode hirarkhi. Hasilnya memiliki sedikit kelemahan pada data outlier, ukuran jarak yang digunakan, dan termasuk variabel tak relevan atau variabel yang tidak tepat.
METODE HIRARKI Teknik hirarki (hierarchical methods) adalah teknik clustering membentuk kontruksi hirarki atau berdasarkan tingkatan tertentu seperti struktur pohon (struktur pertandingan). Dengan demikian proses pengelompokkannya dilakukan secara bertingkat atau bertahap. Hasil dari pengelompokan ini dapat disajikan dalam bentuk dendogram. Metode-metode yang digunakan dalam teknik hirarki Hal penting dalam metode hirarkhi adalah bahwa hasil pada tahap sebelumnya selalu bersarang di dalam hasil pada tahap berikutnya, membentuk sebuah pohon.
Ada 2 macam metode hirarkikal: Agglomerative Methods. Metode ini dimulai dengan kenyatan bahwa setiap obyek membentuk clusternya masing-masing. Kemudian dua obyek dengan jarak terdekat bergabung. Selanjutnya obyek ketiga akan bergabung dengan cluster yang ada atau bersama obyek lain dan membentuk cluster baru. Hal ini tetap memperhitungkan jarak kedekatan antar obyek. Proses akan berlanjut hingga akhirnya terbentuk satu cluster yang terdiri dari keseluruhan obyek.
Divisive Methods. Metode ini diawali dengan satu cluster besar yang mencakup semua observasi (obyek). Selanjutnya obyek yang mempunyai ketidakmiripan yang cukup besar akan dipisahkan sehingga membentuk cluster yang lebih kecil. Pemisahan ini dilanjutkan sehingga mencapai sejumlah cluster yang diinginkan.
METODE NON-HIRARKIKAL Berbeda dengan metode hirarkikal, prosedur non hirarkikal (K-means Clustering) dimulai dengan memilih sejumlah nilai cluster awal sesuai dengan jumlah yang diinginkan dan kemudian obyek digabungkan ke dalam cluster- cluster tersebut.
K-Means K-Means merupakan salah satu metode data clustering non hirarkikal yang berusaha mempartisi data yang ada ke dalam bentuk K cluster/kelompok. Metode ini mempartisi data ke dalam cluster/kelompok sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok yang lain.
Konsep dasar dari K-Means adalah pencarian pusat cluster secara iteratif. Pusat cluster ditetapkan berdasarkan jarak setiap data ke pusat cluster. Proses clustering dimulai dengan mengidentifikasi data yang akan dicluster, xij (i=1,...,n; j=1,...,m) dengan n adalah jumlah data yang akan dicluster dan m adalah jumlah variabel.
K-Means Pada awal iterasi, pusat setiap cluster ditetapkan secara bebas (sembarang), ckj (k=1,...,K; j=1,...,m). Kemudian dihitung jarak antara setiap data dengan setiap pusat cluster. Untuk melakukan penghitungan jarak data ke-i (Xi) pada pusat cluster ke-k (Ck), diberi nama (dik), dapat digunakan formula Euclidean, yaitu:
K-Means Suatu data akan menjadi anggota dari cluster ke-J apabila jarak data tersebut ke pusat cluster ke-J bernilai paling kecil jika dibandingkan dengan jarak ke pusat cluster lainnya. Selanjutnya, kelompokkan data-data yang menjadi anggota pada setiap cluster. Nilai pusat cluster yang baru dapat dihitung dengan cara mencari nilai rata-rata dari data-data yang menjadi anggota pada cluster tersebut, dengan rumus:
K-Means Tentukan jumlah cluster (K), tetapkan pusat cluster sembarang. Algoritma: Tentukan jumlah cluster (K), tetapkan pusat cluster sembarang. Hitung jarak setiap data ke pusat cluster. Kelompokkan data ke dalam cluster yang dengan jarak yang paling pendek. Hitung pusat cluster. Ulangi langkah 2 - 4 hingga sudah tidak ada lagi data yang berpindah ke cluster yang lain.
Contoh K-Means Anda diminta mencluster 8 point berikut: A1(2;10), A2(2; 5), A3(8;4), B1(5;8), B2(7;5), B3(6;4), C1(1;2), C2(4;9). gunakan K-Means dengan euclidean distance. Asumsikan A2, B2 dan C2 sebagai inisial cluster untuk cluster A, B dan C. Tampilkan perhitungan dan isi cluster (termasuk centroid cluster yang dihitung dengan rata-rata).
Contoh K-Means A1(2; 10), A2(2; 5), A3(8; 4), B1(5; 8), B2(7; 5), B3(6; 4), C1(1; 2), C2(4; 9). Jarak antara setiap titik dengan setiap cluster. Cluster A, centroid: (2;5) Cluster B, centroid: (7;5) Cluster C, centroid: (4;9) A1 cluster A A3 cluster A, d(A3,A) = B1 cluster A, d(B1,A) = B3 cluster A, d(B3,A) = C1 cluster A, d(C1,A) = Lanjutan