Pengelompokan Dokumen (Document Clustering)

Slides:



Advertisements
Presentasi serupa
K-Means Clustering.
Advertisements

Klastering dengan K-Means
Pengelompokan Jenis Tanah Menggunakan Algoritma Clustering K-Means
Self Organizing Maps Tim Asprak Metkuan
Oleh I Putu Agus Hendra Krisnawan
DATA MINING 1.
Algoritma Golden Section Search untuk Mencari Solusi Optimal pada Pemrograman Non Linear Tanpa Kendala Eni Sumarminingsih Jurusan Matematika Fakultas MIPA.
SISTEM PENDUKUNG KEPUTUSAN PENGADAAN BUKU PERPUSTAKAAN STIKOM SURABAYA MENGGUNAKAN METODE K-MEANS CLUSTERING Arief Rahman Susanto
Pendahuluan Clustering adalah salah satu teknik unsupervised learning dimana kita tidak perlu melatih metoda tersebut atau dengan kata lain, tidak ada.
Aplikasi Model Jaringan Syaraf Tiruan dengan Radial Basis Function untuk Mendeteksi Kelainan Otak (Stroke Infark) Yohanes Tanjung S.
Ranked Retrieval Pencarian Boolean Menghasilkan sekumpulan dokumen yang cocok dengan query, yang tidak cocok tidak muncul Pada kasus.
Clustering Lecture Note Pengantar Data Mining 2006 Sumber : ngExample.htm
Sistem Pendukung Keputusan Pengadaan Buku Perpustakaan STIKOM Surabaya Menggunakan Metode Fuzzy C-means Clustering. Catur Sugeng. P
Chapter 9 ALGORITME Cluster dan WEKA
Pemrosesan Teks Klasterisasi Dokumen Teknik Informatika STMIK GI MDP 2013 Shinta P.
Clustering. Definition Clustering is “the process of organizing objects into groups whose members are similar in some way”. A cluster is therefore a collection.
Fuzzy Clustering Logika Fuzzy Materi Kuliah Prodi Teknik Informatika
Clustering (Season 2) Self-Organizing Map
Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY
TEAM TEACHING.
Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY
Gradient Descent untuk masalah Optimasi dengan Konstrain
Temu Balik Informasi Materi Pertemuan Ke – 7 Konsep dan Prinsip Serta Algoritma Latent Semantic Indexing Anggota : Nama Nim Wahyu Septi Anjar
Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY
Clustering Suprayogi.
Sistem Temu Kembali Informasi
Implementasi vector space model untuk pencarian dokumen
Datamining - Suprayogi
Sistem Berbasis Fuzzy Materi 5
Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY
Review Jurnal Internasional
Sistem Temu Balik Informasi Multimedia
Pembimbing: Henri Harianja G Imas S. Sitanggang, S.Si M.Kom
Metode Riset Segmentasi
Konsep Data Mining Ana Kurniawati.
Ketua Kelompok Dian Restiani Anggota : Wahyu Septi Anjar
Clustering Best Practice
Laten Semantic Indexing
1 Unit Program Linear Sistem Pertidaksamaan Linear Dua Variabel
Aplikasi Kecerdasan Komputasional
Kuliah Sistem Fuzzy Pertemuan 7 “Fuzzy Clustering”
Temu Balik Informasi Persentasi Final Project
Analisis Cluster.
K-Nearest Neighbor dan K-means
Clustering (Season 1) K-Means
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
CLUSTERING.
Clustering (Season 2) Self-Organizing Map
Analisis Klastering K-Means Model Datamining Kelompok 1 Eko Suryana
Similarity Analisis.
Self-Organizing Network Model (SOM) Pertemuan 10
ANALISIS CLUSTER Part 1.
Pembelajaran tak-terbimbing dan klustering
ANALISIS CLUSTER Part 2.
Studi kasus : titik berat pada jembatan.
M Ali Fauzi Indriati Sigit Adinugroho
Nugraha Iman Santosa ( )
Pembobotan Kata (Term Weighting)
SEGMENTASI.
CLUSTERING.
K-MEANS ALGORITHM CLUSTERING
Konsep Data Mining Ana Kurniawati.
Implementasi clustering K-MEANS (dengan IRIS dataset)
By : Rahmat Robi Waliyansyah, M.Kom
HIERARCHICAL CLUSTERING
DECISION SUPPORT SYSTEM [MKB3493]
Temu Kembali Informasi
Universitas Gunadarma
Intro Algoritma K-Nearest Neighbor (K- NN) adalah sebuah metode klasifikasi terhadap sekumpulan data maupun dokumen berdasarkan pembelajaran  data yang.
Universitas Gunadarma
Transcript presentasi:

Pengelompokan Dokumen (Document Clustering) Text Mining Pengelompokan Dokumen (Document Clustering) Team Teaching Universitas Brawijaya

Outline Definisi clustering Manfaat document clustering Metode clustering K-Means clustering Studi kasus

Definisi Clustering Clustering merupakan proses pengelompokan sekumpulan objek menjadi kelompok-kelompok objek yang mirip Objek-objek pada sebuah cluster memiliki kemiripan yang tinggi Objek-objek pada cluster yang berbeda memiliki kemiripan yang rendah Clustering merupakan model pembelajaran unsupervised Pada document clustering, objek berupa dokumen

Manfaat Pengelompokan hasil pencarian pada search engine Memudahkan penelusuran hasil pencarian Pengelompokan koleksi dokumen Memudahkan pencarian dan pengaturan dokumen Meningkatkan precision & recall pada information retrieval Meningkatkan kecepatan pencarian pada search engine Penentuan topik dokumen

News clustering

Search engine

Metode clustering Berdasarkan pembentukan cluster, metode clustering dapat dibedakan menjadi 2 : Partitional / Flat clustering Sekumpulan data dibagi/dipartisi menjadi n buah cluster Contoh : K-Means, C-Means, K-Medoid Hierarchical Clustering Pembentukan cluster dilakukan secara hierarki, dengan cara memecah atau menggabungkan data Contoh : Agglomerative Hierarchical Clustering, UPGMA, Chameleon

K-Means clustering K-Means bertujuan membagi n data menjadi K buah cluster, sehingga jarak antar data dengan pusat cluster menjadi minimum. Pusat cluster (centroid) merupakan titik tengah dari suatu cluster 𝑐 𝑘 = 1 | 𝑐 𝑘 | 𝑥 𝑖 ∈ 𝑐 𝑘 𝑥 𝑖 Note : m menyatakan jumlah data pada suatu cluster, dan i menyatakan fitur ke-i dalam sebuah kelompok.

Algoritme K-Means Tentukan nilai K yaitu banyaknya cluster yang akan dibentuk. Pilih data sejumlah K secara acak sebagai centroid awal. Hitung jarak semua data dengan masing-masing centroid. Setiap data menjadi anggota cluster yang sama dengan centroid terdekat. Hitung ulang centroid masing-masing cluster Cek apakah kondisi berhenti terpenuhi, jika tidak kembali ke langkah 3.

Algoritme K-Means Jarak yang digunakan untuk clustering dokumen biasanya adalah cosine distance 𝐶𝑜𝑠𝑖𝑛𝑒 𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒=1−𝑐𝑜𝑠𝑖𝑛𝑒 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 Kondisi berhenti yang dapat digunakan dalam K- Means : Tidak ada perubahan keanggotaan cluster dengan iterasi sebelumnya Perubahan objective function < threshold Iterasi = iterasi max

Ilustrasi Algoritme K-Means Penentuan Centroid awal Penentuan keanggotaan cluster Hitung centroids x Perubahan keanggotaan clusters x Hitung centroids Perubahan keanggotaan clusters Converged!

Studi kasus document clustering Sekarang saya sedang suka memasak. Masakan kesukaan saya sekarang adalah nasi goreng. Cara memasak nasi goreng adalah nasi digoreng d2 Ukuran nasi sangatlah kecil, namun saya selalu makan nasi d3 Nasi berasal dari beras yang ditanam di sawah. Sawah berukuran kecil hanya bisa ditanami sedikit beras d4 Mobil dan bus dapat mengangkut banyak penumpang. Namun, bus berukuran jauh lebih besar dari mobil, apalagi mobil-mobilan d5 Bus pada umumnya berukuran besar dan berpenumpang banyak, sehingga bus tidak bisa melewati persawahan Dokumen yang ada akan dikelompokkan menjadi 2 cluster

Bobot tf-idf ternormalisasi TERM D1 D2 D3 D4 D5 suka 0,51932239 masak 0,58961142 nasi 0,18713901 0,36624274 0,158012148 goreng ukur 0,28150215 0,148958474 0,278625389 makan 0,88691758 beras 0,647708116 tanam sawah 0,368755414 0,499782802 mobil 0,751874826 bus 0,347626715 0,650232416 angkut 0,469317522 tumpang 0,267193467

Studi Kasus : Penentuan centroid dan hitung jarak Misal, D1 dipilih sebagai c1 (centroid 1) dan D4 dipilih sebagai c2 (centroid 2) Hitung jarak dari masing-masing dokumen ke tiap centroid 𝑑 𝐷1, 𝑐 1 =1−𝑐𝑜𝑠𝑖𝑛𝑒 𝐷1, 𝑐 1 =1−1=0 𝑑 𝐷1, 𝑐 2 =1−𝑐𝑜𝑠𝑖𝑛𝑒 𝐷1, 𝑐 2 =1−0=1 c1 0.519 0.590 0.187 c2 0.149 0.752 0.348 0.469 0.267

Studi kasus : Penentuan keanggotaan cluster Dokumen Jarak ke c1 Jarak ke c2 Min Anggota cluster D1 1 D2 0.931 0.958 D3 0.970 D4 2 D5 0.599

Studi kasus : Hitung ulang centroid Cluster 1 D1 0.519 0.590 0.187 D2 0.366 0.282 0.887 D3 0.158 0.648 0.369 c1 0.173 0.197 0.237 0.094 0.296 0.216 0.123 Cluster 2 D4 0.149 0.752 0.348 0.469 0.267 D5 0.279 0.5 0.65 c2 0.214 0.250 0.376 0.499 0.235 0.383

Studi kasus : Hitung jarak dan penentuan anggota cluster Dokumen Jarak ke c1 Jarak ke c2 Min Anggota cluster Anggota cluster sebelumnya D1 0.634 1 D2 0.625 0.940 D3 0.638 0.908 D4 0.986 0.299 2 D5 0.912 Keanggotaan cluster tidak berubah antara iterasi sekarang dan iterasi berikutnya, sehingga K-Means telah mencapai keadaan konvergen dan iterasi dihentikan

Studi kasus : hasil akhir clustering