Universitas Gunadarma

Universitas Gunadarma
KONSEP DATA MINING Disusun Oleh : Dr Lily Wulandari Universitas Gunadarma Logo Seminar

CLUSTERING(2)

Partition Clustering 2. Partition-based clustering
Clustering dengan pendekatan partisi atau sering disebut dengan partition-based clustering mengelompokkan data dengan memilah-milah data yang dianalisa ke dalam cluster-cluster yang ada .

Partition Clustering Gambar 2 Proses Clustering Obyek Menggunakan metode k- Means (Sumber:Han dkk, 2012)

Partition Clustering Metode K-means merupakan metode clustering yang paling sederhana dan umum. Hal ini dikarenakan K- means mempunyai kemampuan mengelompokkan data dalam jumlah yang cukup besar dengan waktu komputasi yang cepat dan efisien. K-Means merupakan salah satu algoritma klastering dengan metode partisi (partitioning method) yang berbasis titik pusat (centroid) selain algoritma k- Medoids yang berbasis obyek.

Partition Clustering Algoritma K-Means ini pertama kali diusulkan oleh MacQueen (1967) dan dikembangkan oleh Hartigan dan Wong tahun 1975 dengan tujuan untuk dapat membagi M data point dalam N dimensi ke dalam sejumlah k cluster dimana proses klastering dilakukan dengan meminimalkan jarak sum squares antara data dengan masing masing pusat cluster (centroid-based).

Partition Clustering Algoritma k-Means dalam penerapannya memerlukan tiga parameter yang seluruhnya ditentukan pengguna yaitu jumlah cluster k, inisialisasi klaster, dan jarak sistem, Biasanya, k-Means dijalankan secara independen dengan inisialisasi yang berbeda menghasilkan cluster akhir yang berbeda karena algoritma ini secara prinsip hanya mengelompokan data menuju local minimal. Salah satu cara untuk mengatasi local minimal adalah dengan mengimplementasikan algoritma k-Means, untuk K yang diberikan, dengan beberapa nilai initial partisi yang berbeda dan selanjutnya dipilih partisi dengan kesalahan kuadrat terkecil (Jain, 2009).

Partition Clustering K-Means adalah teknik yang cukup sederhana dan cepat dalam proses clustering obyek (clustering). Algoritma K-mean mendefinisikan centroid atau pusat cluster dari cluster menjadi rata-rata point dari cluster tersebut. Dalam penerapan algoritma k-Means, jika diberikan sekumpulan data X = {x1, x2, …,xn} dimana xi = (xi1, xi2, …, xin) adalah sistem dalam ruang real Rn, maka algoritma k-Means akan menyusun partisi X dalam sejumlah k cluster (a priori).

Partition Clustering Setiap cluster memiliki titik tengah (centroid) yang merupakan nilai rata rata (mean) dari data-data dalam cluster tersebut. Tahapan awal, algoritma k-Means adalah memilih secara acak k buah obyek sebagai centroid dalam data. Kemudian, jarak antara obyek dan centroid dihitung menggunakan Euclidian distance.

Partition Clustering Algoritma k-Means secara iterative meningkatkan variasi nilai dalam tiap cluster dimana obyek selanjutnya ditempatkan dalam kelompok yang terdekat, dihitung dari titik tengah klaster. Titik tengah baru ditentukan bila semua data telah ditempatkan dalam cluster terdekat. Proses penentuan titik tengah dan penempatan data dalam cluster diulangi sampai nilai titik tengah dari semua cluster yang terbentuk tidak berubah lagi (Han dkk, 2012).

Partition Clustering Algoritma k-means:
Langkah 1: Tentukan berapa banyak cluster k dari dataset yang akan dibagi. Langkah 2: Tetapkan secara acak data k menjadi pusat awal lokasi klaster. Langkah 3: Untuk masing-masing data, temukan pusat cluster terdekat. Dengan demikian berarti masing-masing pusat cluster memiliki sebuah subset dari dataset, sehingga mewakili bagian dari dataset. Oleh karena itu, telah terbentuk cluster k: C1, C2, C3, …, Ck .

Partition Clustering Algoritma k-means (lanjutan):
Langkah 4: Untuk masing-masing cluster k, temukan pusat luasan klaster, dan perbarui lokasi dari masing- masing pusat cluster ke nilai baru dari pusat luasan. Langkah 5: Ulangi langkah ke-3 dan ke-5 hingga data-data pada tiap cluster menjadi terpusat atau sampai tidak ada perubahan atau perubahan yang terjadi masih di bawah treshold.

Studi Kasus Clustering Dengan K-Means
BPR ABC memiliki data nasabah yang pernah memperoleh kredit, data berupa jumlah rumah dan mobil yang dimiliki pelanggan.

Clustering yang diharapkan mampu menghasilkan kelompok nasabah yang memenuhi sifat berikut: Nasabah yang jumlah rumah dan mobilnya hampir sama akan berada pada kelompok nasabah yang sama. Nasabah yang jumlah rumah dan mobilnya cukup berbeda akan berada pada kelompok nasabah yang berbeda.

Berikut langkah-langkah clustering menggunakan algoritma K- Means. Langkah 1: Tentukan jumlah cluster yang diinginkan (misl:k=3) Langkah 2: Pilih centroid awal secara acak : Pada langkah ini secara acak akan dipilih 3 buah data sebagai centroid, misalnya: data {B,E,F} M1=(3,3) ,M2=(1,2),M3=(4,2) Langkah 3: Hitung jarak dengan centroid …………………… (iterasi 1)

Pada langkah ini setiap data akan ditentukan centroid terdekatnya, dan data tersebut akan ditetapkan sebagai anggota kelompok yang terdekat dengan centroid. Untuk menghitung jarak ke centroid masing-masing cluster pada nasabah A sbb: Data: (1,3) , centroid M1: (3,3), centroid M2: (1,2), centroid M3: (4,2) DM1 =√(1−3)2+(3−3)2 = 2 DM2 =√(1−1)2+(3−2)2 = 1 DM3 =√(1−4)2+(3−2)2 = 3.162

Dari tabel di atas didapatkan keanggotaan nasabah sbb: Cluster 1 = {B},cluster 2 ={A,E,G,H},cluster 3= {C,D,F}

Pada langkah ini dihitung pula rasio antara besaran BCV (Between Cluster Variation) dengan WCV (Within Cluster Variation) : Karena centroid M1=(3,3) ,M2=(1,2),M3=(4,2) BCV=d(m1,m2)+d(m1,m3)+d(m2,m3) = = 6,650 Dalam hal ini d(mi,mj) menyatakan jarak Euclidean dari m ke mj

Menghitung WCV Yaitu dengan memilih jarak terkecil antara data dengan centroid pada masing-masing cluster:

Sehingga Besar Rasio = BCV/WCV = / 7 = 0.950 Karena langkah ini merupakan iterasi 1 maka lanjutkan ke langkah berikutnya Langkah 4: Pembaruan centroid dengan menghitung rata-rata nilai pada masing-masing cluster.

Sehingga didapatkan centroid baru yaitu : m1=(3,3),m2=(1.25,1.75),m3=(4.33,2.67)

Langkah 3: (Iterasi-2) Kembali kelangkah 3, jika masih ada data yang berpindah cluster atau jika nilai centroid di atas nilai ambang, atau jika nilai pada fungsi obyektif yang digunakan masih di atas ambang. Selanjutnya pada langkah ini dilakukan penempatan lagi data dalam centroid terdekat sama seperti yang dilakukan di langkah-3.

Untuk menghitung jarak ke centroid masing- masing cluster pada nasabah A sbb: Data : (1,3) , m1=(3,3),m2=(1.25,1.75),m3=(4.33,2.67)

Dari tabel didapatkan keanggotaan nasabah sbb: Cluster 1 = {B},cluster 2 ={A,E,G,H},cluster 3= {C,D,F}

Pada langkah ini dihitung pula rasio antara besaran BCV (Between Cluster Variation) dengan WCV (Within Cluster Variation) : BCV=d(m1,m2)+d(m1,m3)+d(m2,m3) = 6,741 Sehingga Besar Rasio = BCV/WCV = /4.833 = 1.394 Bila dibandingkan maka rasio sekarang (1.394) lebih besar dari rasio sebelumnya (0.950) oleh karena itu algoritma dilanjutkan kelangkah berikutnya

Langkah ke 4 – iterasi 3 Pada langkah ini dilakukan pembaruan centroid lagi:

Langkah ketiga iterasi-3 Untuk menghitung jarak ke centroid masing-masing cluster pada nasabah A sbb: Data nasabah A : (1,3) , m1=(3,3),m2=(1.25,1.75),m3=(4.33,2.67)

Dari tabel di atas didapatkan keanggotaan nasabah sbb: Cluster 1 = {B},cluster 2 ={A,E,G,H},cluster 3= {C,D,F}

Pada langkah ini dihitung pula rasio antara besaran BCV (Between Cluster Variation) dengan WCV (Within Cluster Variation) : BCV=d(m1,m2)+d(m1,m3)+d(m2,m3) = 6,741 Sehingga Besar Rasio = BCV/WCV = /4.833 = 1.394 Bila dibandingkan maka rasio sekarang (1.394) sudah tidak lagi lebih besar dari rasio sebelumnya (1.394) oleh karena itu algoritma akan dihentikan.

SOM Di samping kedua pendekatan tersebut, ada juga clustering dengan pendekatan automatic mapping (Self-Organising Map/SOM) Self-Organising Map (SOM) merupakan suatu tipe Artificial Neural Networks yang di-training secara unsupervised. SOM menghasilkan map yang terdiri dari output dalam dimensi yang rendah (2 atau 3 dimensi). Map ini berusaha mencari property dari input data. Komposisi input dan output dalam SOM mirip dengan komposisi dari proses feature scaling (multidimensional scaling).

SOM Walaupun proses learning yang dilakukan mirip dengan Artificial Neural Networks, tetapi proses untuk melakukan assign input data ke map, lebih mirip dengan K-Means dan KNN Algorithm. Adapun prosedur yang ditempuh dalam melakukan clustering dengan SOM adalah sebagai berikut Tentukan weight dari input data secara random Pilih salah satu input data Hitung tingkat kesamaan (dengan Eucledian) antara input data dan weight dari input data tersebut dan pilih input data yang memiliki kesamaan dengan weight yang ada (data ini disebut dengan Best Matching Unit (BMU))

SOM Prosedur clustering (lanjutan):
Perbaharui weight dari input data dengan mendekatkan weight tersebut ke BMU dengan rumus: Wv(t+1)=Wv(t) + Theta(v, t) x Alpha(t) x (D(t) – Wv(t))… Dimana: Wv(t): Weight pada saat ke-t Theta (v, t): Fungsi neighbourhood yang tergantung pada Lattice distance antara BMU dengan neuron v. Umumnya bernilai 1 untuk neuron yang cukup dekat dengan BMU, dan 0 untuk yang sebaliknya. Penggunaan fungsi Gaussian juga memungkinkan. Alpha (t): Learning Coefficient yang berkurang secara monotonic D(t): Input data

SOM Prosedur clustering (lanjutan):
Tambahkan nilai t, sampai t< Lambda, dimana Lambda adalah jumlah iterasi

Apa itu Clustering yang Baik?
Kriteria internal: Pengelompokan yang baik akan menghasilkan kluster yang berkualitas tinggi di mana: kesamaan intra-kelas (yaitu, intra-cluster) tinggi kesamaan antar kelas rendah Kualitas terukur dari pengelompokan tergantung pada representasi dokumen dan ukuran kesamaan yang digunakan

Kriteria eksternal untuk kualitas pengelompokan
Kualitas diukur dengan kemampuannya untuk menemukan beberapa atau semua pola tersembunyi atau kelas laten dalam data standar emas Menilai pengelompokan sehubungan dengan kebenaran dasar Asumsikan dokumen dengan kelas standar C emas, sementara algoritma pengelompokan kami menghasilkan K cluster, ω1, ω2,…, ωK dengan anggota ni.

Evaluasi Eksternal Kualitas Cluster
Ukuran sederhana: Purity (kemurnian), rasio antara kelas dominan di cluster πi dan ukuran cluster ωi Lainnya adalah entropi kelas dalam kelompok (atau informasi timbal balik antara kelas dan kelompok)

Contoh Purity(Kemurnian)
                 Cluster I Cluster II Cluster III Cluster I: Purity = 1/6 (max(5, 1, 0)) = 5/6 Cluster II: Purity = 1/6 (max(1, 4, 1)) = 4/6 Cluster III: Purity = 1/5 (max(2, 0, 3)) = 3/5

Pustaka Han, J., Kamber, M., Pei, J.: Data Mining Concept and Techniques, 3rd ed. Morgan Kaufmann-Elsevier, Amsterdam (2012) Jain. A.K (2009). Data Clustering: 50 Years Beyond K-Means. Pattern Recognition Letters, 2009. Tan, P.N., Steinbach, M., Kumar, V. (2006) Introduction to Data Mining. Boston:Pearson Education.

Universitas Gunadarma

Presentasi serupa

Presentasi berjudul: "Universitas Gunadarma"— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan

Masuk

Otorisasi melalui jaringan sosial:

Universitas Gunadarma

Presentasi serupa

Presentasi berjudul: "Universitas Gunadarma"— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan