Pengelompokan Dokumen (Document Clustering)

Pengelompokan Dokumen (Document Clustering)
Text Mining Pengelompokan Dokumen (Document Clustering) Team Teaching Universitas Brawijaya

Outline Definisi clustering Manfaat document clustering
Metode clustering K-Means clustering Studi kasus

Definisi Clustering Clustering merupakan proses pengelompokan sekumpulan objek menjadi kelompok-kelompok objek yang mirip Objek-objek pada sebuah cluster memiliki kemiripan yang tinggi Objek-objek pada cluster yang berbeda memiliki kemiripan yang rendah Clustering merupakan model pembelajaran unsupervised Pada document clustering, objek berupa dokumen

Manfaat Pengelompokan hasil pencarian pada search engine
Memudahkan penelusuran hasil pencarian Pengelompokan koleksi dokumen Memudahkan pencarian dan pengaturan dokumen Meningkatkan precision & recall pada information retrieval Meningkatkan kecepatan pencarian pada search engine Penentuan topik dokumen

News clustering

Search engine

Metode clustering Berdasarkan pembentukan cluster, metode clustering dapat dibedakan menjadi 2 : Partitional / Flat clustering Sekumpulan data dibagi/dipartisi menjadi n buah cluster Contoh : K-Means, C-Means, K-Medoid Hierarchical Clustering Pembentukan cluster dilakukan secara hierarki, dengan cara memecah atau menggabungkan data Contoh : Agglomerative Hierarchical Clustering, UPGMA, Chameleon

K-Means clustering K-Means bertujuan membagi n data menjadi K buah cluster, sehingga jarak antar data dengan pusat cluster menjadi minimum. Pusat cluster (centroid) merupakan titik tengah dari suatu cluster 𝑐 𝑘 = 1 | 𝑐 𝑘 | 𝑥 𝑖 ∈ 𝑐 𝑘 𝑥 𝑖 Note : m menyatakan jumlah data pada suatu cluster, dan i menyatakan fitur ke-i dalam sebuah kelompok.

Algoritme K-Means Tentukan nilai K yaitu banyaknya cluster yang akan dibentuk. Pilih data sejumlah K secara acak sebagai centroid awal. Hitung jarak semua data dengan masing-masing centroid. Setiap data menjadi anggota cluster yang sama dengan centroid terdekat. Hitung ulang centroid masing-masing cluster Cek apakah kondisi berhenti terpenuhi, jika tidak kembali ke langkah 3.

Algoritme K-Means Jarak yang digunakan untuk clustering dokumen biasanya adalah cosine distance 𝐶𝑜𝑠𝑖𝑛𝑒 𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒=1−𝑐𝑜𝑠𝑖𝑛𝑒 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 Kondisi berhenti yang dapat digunakan dalam K- Means : Tidak ada perubahan keanggotaan cluster dengan iterasi sebelumnya Perubahan objective function < threshold Iterasi = iterasi max

Ilustrasi Algoritme K-Means
Penentuan Centroid awal Penentuan keanggotaan cluster Hitung centroids x Perubahan keanggotaan clusters x Hitung centroids Perubahan keanggotaan clusters Converged!

Studi kasus document clustering
Sekarang saya sedang suka memasak. Masakan kesukaan saya sekarang adalah nasi goreng. Cara memasak nasi goreng adalah nasi digoreng d2 Ukuran nasi sangatlah kecil, namun saya selalu makan nasi d3 Nasi berasal dari beras yang ditanam di sawah. Sawah berukuran kecil hanya bisa ditanami sedikit beras d4 Mobil dan bus dapat mengangkut banyak penumpang. Namun, bus berukuran jauh lebih besar dari mobil, apalagi mobil-mobilan d5 Bus pada umumnya berukuran besar dan berpenumpang banyak, sehingga bus tidak bisa melewati persawahan Dokumen yang ada akan dikelompokkan menjadi 2 cluster

Bobot tf-idf ternormalisasi
TERM D1 D2 D3 D4 D5 suka 0, masak 0, nasi 0, 0, 0, goreng ukur 0, 0, 0, makan 0, beras 0, tanam sawah 0, 0, mobil 0, bus 0, 0, angkut 0, tumpang 0,

Studi Kasus : Penentuan centroid dan hitung jarak
Misal, D1 dipilih sebagai c1 (centroid 1) dan D4 dipilih sebagai c2 (centroid 2) Hitung jarak dari masing-masing dokumen ke tiap centroid 𝑑 𝐷1, 𝑐 1 =1−𝑐𝑜𝑠𝑖𝑛𝑒 𝐷1, 𝑐 1 =1−1=0 𝑑 𝐷1, 𝑐 2 =1−𝑐𝑜𝑠𝑖𝑛𝑒 𝐷1, 𝑐 2 =1−0=1 c1 0.519 0.590 0.187 c2 0.149 0.752 0.348 0.469 0.267

Studi kasus : Penentuan keanggotaan cluster
Dokumen Jarak ke c1 Jarak ke c2 Min Anggota cluster D1 1 D2 0.931 0.958 D3 0.970 D4 2 D5 0.599

Studi kasus : Hitung ulang centroid
Cluster 1 D1 0.519 0.590 0.187 D2 0.366 0.282 0.887 D3 0.158 0.648 0.369 c1 0.173 0.197 0.237 0.094 0.296 0.216 0.123 Cluster 2 D4 0.149 0.752 0.348 0.469 0.267 D5 0.279 0.5 0.65 c2 0.214 0.250 0.376 0.499 0.235 0.383

Studi kasus : Hitung jarak dan penentuan anggota cluster
Dokumen Jarak ke c1 Jarak ke c2 Min Anggota cluster Anggota cluster sebelumnya D1 0.634 1 D2 0.625 0.940 D3 0.638 0.908 D4 0.986 0.299 2 D5 0.912 Keanggotaan cluster tidak berubah antara iterasi sekarang dan iterasi berikutnya, sehingga K-Means telah mencapai keadaan konvergen dan iterasi dihentikan

Studi kasus : hasil akhir clustering

Pengelompokan Dokumen (Document Clustering)

Presentasi serupa

Presentasi berjudul: "Pengelompokan Dokumen (Document Clustering)"— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan

Masuk

Otorisasi melalui jaringan sosial:

Pengelompokan Dokumen (Document Clustering)

Presentasi serupa

Presentasi berjudul: "Pengelompokan Dokumen (Document Clustering)"— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan