Pengelompokan Dokumen (Document Clustering) Text Mining Pengelompokan Dokumen (Document Clustering) Team Teaching Universitas Brawijaya
Outline Definisi clustering Manfaat document clustering Metode clustering K-Means clustering Studi kasus
Definisi Clustering Clustering merupakan proses pengelompokan sekumpulan objek menjadi kelompok-kelompok objek yang mirip Objek-objek pada sebuah cluster memiliki kemiripan yang tinggi Objek-objek pada cluster yang berbeda memiliki kemiripan yang rendah Clustering merupakan model pembelajaran unsupervised Pada document clustering, objek berupa dokumen
Manfaat Pengelompokan hasil pencarian pada search engine Memudahkan penelusuran hasil pencarian Pengelompokan koleksi dokumen Memudahkan pencarian dan pengaturan dokumen Meningkatkan precision & recall pada information retrieval Meningkatkan kecepatan pencarian pada search engine Penentuan topik dokumen
News clustering
Search engine
Metode clustering Berdasarkan pembentukan cluster, metode clustering dapat dibedakan menjadi 2 : Partitional / Flat clustering Sekumpulan data dibagi/dipartisi menjadi n buah cluster Contoh : K-Means, C-Means, K-Medoid Hierarchical Clustering Pembentukan cluster dilakukan secara hierarki, dengan cara memecah atau menggabungkan data Contoh : Agglomerative Hierarchical Clustering, UPGMA, Chameleon
K-Means clustering K-Means bertujuan membagi n data menjadi K buah cluster, sehingga jarak antar data dengan pusat cluster menjadi minimum. Pusat cluster (centroid) merupakan titik tengah dari suatu cluster 𝑐 𝑘 = 1 | 𝑐 𝑘 | 𝑥 𝑖 ∈ 𝑐 𝑘 𝑥 𝑖 Note : m menyatakan jumlah data pada suatu cluster, dan i menyatakan fitur ke-i dalam sebuah kelompok.
Algoritme K-Means Tentukan nilai K yaitu banyaknya cluster yang akan dibentuk. Pilih data sejumlah K secara acak sebagai centroid awal. Hitung jarak semua data dengan masing-masing centroid. Setiap data menjadi anggota cluster yang sama dengan centroid terdekat. Hitung ulang centroid masing-masing cluster Cek apakah kondisi berhenti terpenuhi, jika tidak kembali ke langkah 3.
Algoritme K-Means Jarak yang digunakan untuk clustering dokumen biasanya adalah cosine distance 𝐶𝑜𝑠𝑖𝑛𝑒 𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒=1−𝑐𝑜𝑠𝑖𝑛𝑒 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 Kondisi berhenti yang dapat digunakan dalam K- Means : Tidak ada perubahan keanggotaan cluster dengan iterasi sebelumnya Perubahan objective function < threshold Iterasi = iterasi max
Ilustrasi Algoritme K-Means Penentuan Centroid awal Penentuan keanggotaan cluster Hitung centroids x Perubahan keanggotaan clusters x Hitung centroids Perubahan keanggotaan clusters Converged!
Studi kasus document clustering Sekarang saya sedang suka memasak. Masakan kesukaan saya sekarang adalah nasi goreng. Cara memasak nasi goreng adalah nasi digoreng d2 Ukuran nasi sangatlah kecil, namun saya selalu makan nasi d3 Nasi berasal dari beras yang ditanam di sawah. Sawah berukuran kecil hanya bisa ditanami sedikit beras d4 Mobil dan bus dapat mengangkut banyak penumpang. Namun, bus berukuran jauh lebih besar dari mobil, apalagi mobil-mobilan d5 Bus pada umumnya berukuran besar dan berpenumpang banyak, sehingga bus tidak bisa melewati persawahan Dokumen yang ada akan dikelompokkan menjadi 2 cluster
Bobot tf-idf ternormalisasi TERM D1 D2 D3 D4 D5 suka 0,51932239 masak 0,58961142 nasi 0,18713901 0,36624274 0,158012148 goreng ukur 0,28150215 0,148958474 0,278625389 makan 0,88691758 beras 0,647708116 tanam sawah 0,368755414 0,499782802 mobil 0,751874826 bus 0,347626715 0,650232416 angkut 0,469317522 tumpang 0,267193467
Studi Kasus : Penentuan centroid dan hitung jarak Misal, D1 dipilih sebagai c1 (centroid 1) dan D4 dipilih sebagai c2 (centroid 2) Hitung jarak dari masing-masing dokumen ke tiap centroid 𝑑 𝐷1, 𝑐 1 =1−𝑐𝑜𝑠𝑖𝑛𝑒 𝐷1, 𝑐 1 =1−1=0 𝑑 𝐷1, 𝑐 2 =1−𝑐𝑜𝑠𝑖𝑛𝑒 𝐷1, 𝑐 2 =1−0=1 c1 0.519 0.590 0.187 c2 0.149 0.752 0.348 0.469 0.267
Studi kasus : Penentuan keanggotaan cluster Dokumen Jarak ke c1 Jarak ke c2 Min Anggota cluster D1 1 D2 0.931 0.958 D3 0.970 D4 2 D5 0.599
Studi kasus : Hitung ulang centroid Cluster 1 D1 0.519 0.590 0.187 D2 0.366 0.282 0.887 D3 0.158 0.648 0.369 c1 0.173 0.197 0.237 0.094 0.296 0.216 0.123 Cluster 2 D4 0.149 0.752 0.348 0.469 0.267 D5 0.279 0.5 0.65 c2 0.214 0.250 0.376 0.499 0.235 0.383
Studi kasus : Hitung jarak dan penentuan anggota cluster Dokumen Jarak ke c1 Jarak ke c2 Min Anggota cluster Anggota cluster sebelumnya D1 0.634 1 D2 0.625 0.940 D3 0.638 0.908 D4 0.986 0.299 2 D5 0.912 Keanggotaan cluster tidak berubah antara iterasi sekarang dan iterasi berikutnya, sehingga K-Means telah mencapai keadaan konvergen dan iterasi dihentikan
Studi kasus : hasil akhir clustering