Information Retrieval “Document Clustering dengan K-Means”

Slides:



Advertisements
Presentasi serupa
Peserta mengerti tahap-tahap pada ADC
Advertisements

KIMIA UNSUR-UNSUR TRANSISI
PERTEMUAN 3 Algoritma & Pemrograman
Penyelidikan Operasi 1. Konsep Optimisasi.
KEBIJAKAN PEMERINTAH PROVINSI JAWA TIMUR
Penyusunan Data Baseline dan Perhitungan Capaian Kegiatan Peningkatan Kualitas Permukiman Kumuh Perkotaan DIREKTORAT PENGEMBANGAN KAWASAN PERMUKIMAN DIREKTORAT.
BALTHAZAR KREUTA, SE, M.SI
PENGEMBANGAN KARIR DOSEN Disarikan dari berbagai sumber oleh:
Identitas, persamaan dan pertidaksamaan trigonometri
ANGGOTA KELOMPOK WISNU WIDHU ( ) WILDAN ANUGERAH ( )
METODE PENDUGAAN ALTERNATIF
Dosen Pengampu: Muhammad Zidny Naf’an, M.Kom
GERAK SUGIYO, SPd.M.Kom.
Uji Hipotesis Luthfina Ariyani.
SOSIALISASI PEKAN IMUNISASI NASIONAL (PIN) POLIO 2016
PENGEMBANGAN BUTIR SOAL
Uji mana yang terbaik?.
Analisis Regresi linear berganda
PEERSIAPAN DAN PENERAPAN ISO/IEC 17025:2005 OLEH: YAYAN SETIAWAN
E Penilaian Proses dan Hasil Belajar
b. Kematian (mortalitas)
Ilmu Komputasi BAGUS ADHI KUSUMA
Uji Hipotesis dengan SPSS
OVERVIEW PERUBAHAN PSAK EFFEKTIF 2015
Pengolahan Citra Berwarna
Teori Produksi & Teori Biaya Produksi
Pembangunan Ekonomi dan Pertumbuhan Ekonomi
PERSIAPAN UN MATEMATIKA
Kriptografi.
1 Bab Pembangunan Ekonomi dan Pertumbuhan Ekonomi.
Ekonomi untuk SMA/MA kelas XI Oleh: Alam S..
ANALISIS PENDAPATAN NASIONAL DALAM PEREKONOMIAN TIGA SEKTOR
Dosen: Atina Ahdika, S.Si., M.Si.
Anggaran biaya konversi
Junaidi Fakultas Ekonomi dan Bisnis Universitas Jambi
Pemodelan dan Analisis
Bab 4 Multivibrator By : M. Ramdhani.
Analisis Regresi – (Lanjutan)
Perkembangan teknologi masa kini dalam kaitannya dengan logika fazi
DISTRIBUSI PELUANG KONTINU
FETAL PHASE Embryolgy II
Yusuf Enril Fathurrohman
3D Viewing & Projection.
Sampling Pekerjaan.
Gerbang Logika Dwi Indra Oktoviandy (A )
SUGIYO Fisika II UDINUS 2014
D10K-6C01 Pengolahan Citra PCD-04 Algoritma Pengolahan Citra 1
Perpajakan di Indonesia
Bab 2 Kinerja Perusahaan dan Analisis Laporan Keuangan
Penyusunan Anggaran Bahan Baku
MOMENTUM, IMPULS, HUKUM KEKEKALAN MOMENTUM DAN TUMBUKAN
Theory of Computation 3. Math Fundamental 2: Graph, String, Logic
Strategi Tata Letak.
Theory of Computation 2. Math Fundamental 1: Set, Sequence, Function
METODE PENELITIAN.
(Skewness dan kurtosis)
Departemen Teknik Mesin dan Biosistem INSTITUT PERTANIAN BOGOR
Dasar-dasar piranti photonik
Klasifikasi Dokumen Teks Berbahasa Indonesia
Mekflu_1 Rangkaian Pipa.
Digital to Analog Conversion dan Rekonstruksi Sinyal Tujuan Belajar 1
SEKSI NERACA WILAYAH DAN ANALISIS BPS KABUPATEN TEMANGGUNG
ASPEK KEPEGAWAIAN DALAM PENILAIAN ANGKA KREDIT
RANGKAIAN DIODA TK2092 Elektronika Dasar Semester Ganjil 2015/2016
Ruang Euclides dan Ruang Vektor 1.
Bab Anuitas Aritmetrik dan Geometrik
Penyelidikan Operasi Pemrograman Dinamik Deterministik.
Kesetimbangan Fase dalam sistem sederhana (Aturan fase)
ANALISIS STRUKTUR MODAL
Transcript presentasi:

Information Retrieval “Document Clustering dengan K-Means”

CV I am Ardytha Luthfiarta I am here because I want to share about Information Retrieval. You can find me at http://kulino.dinus.ac.id/

CV I am Junta Zeniarja I am here because I want to share about Information Retrieval. You can find me at http://kulino.dinus.ac.id/ or http://juntazeniarja.com

Course Outline Clustering Text Algoritma Clustering Partitional algorithm K means clustering

Clustering Definisi: Proses pengelompokan text dokumen yang memiliki kesamaan topik. Tujuan: Mempartisi text dokumen menjadi beberapa kelompok dimana text dokumen dalam kelompok yang sama adalah mempunyai kemiripan satu sama lain berdasarkan frekuensi kemunculan term. Teknik clustering text dokumen ini merupakan teknik yang lebih spesifik dari pengorganisasian unsupervised dokumen, ekstraksi topik otomatis serta pengambilan dan penyaringan informasi secara cepat dari objek data yang tidak terstruktur.

Isu Pada Clustering Representasi Dokumen Ruang vektor ? Ukuran Kesamaan Jarak Penentuan titik pusat cluster (centroid) Banyaknya kelas Tetap / Tergantung pada data

Apa yang Membuat dokumen Berhubungan Ideal : kesamaan semantik Praktis : kesamaan statistik Menggunakan ukuran kesamaan Cosine Dokumen sebagai vektor

Algoritma clustering Partitional algorithms Dimulai dengan sebagian secara acak Dilakukan iterasi: K means clustering Model based clustering Hierarchical algorithms Bottom-up, agglomerative Top-down, divisive

Partitional algorithms Metode partisi: susun partisi n dokumen ke dalam K kelompok Formulasi masalah Diketahui koleksi dokumen dan nilai K Dapatkan partisi K kelompok dokumen yang mengoptimumkan partisi dengan kriteria tertentu: Globally optimal: exhaustively enumerate all partitions Effective heuristic methods: K-means and K- medoids algorithms

K-means Prinsip utama dari k-menas adalah menyusun k buah prototype / pusat massa (centroid) / rata-rata (mean) dari sekumpulan data berdimensi n. Teknik ini mensyaratkan nilai k sudah diketahui sebelumnya (a priori). Algoritma k-means dimulai dengan pembentukan prototipe cluster di awal kemudian secara iteratif prototipe cluster ini diperbaiki hingga konvergen (tidak terjadi perubahan yang signifikan pada prototipe cluster).

Tahapan k-means Inisialisasi titik pusat Cluster. Masukan setiap dokumen ke cluster yang paling cocok berdasarkan ukuran kedekatan dengan centroid. (Similarity Measurement) Setelah semua dokumen masuk ke cluster. Hitung ulang centroid cluster berdasarkan dokumen yang berada di dalam cluster tersebut. Jika centroid tidak berubah (dengan treshold tertentu) maka stop. Jika tidak, kembali ke langkah 2.

Similarity Measurement Ukuran kesamaan antara vektor di dan q.

Teknik similarity measurement Euclideance Distance Manhattan Distance Cosine similarity Mahalanobis Distance

Euclideance Distance rumus: 𝑑 𝑥,𝑦 =√ 𝑖=1 𝑛 𝑥 𝑖 − 𝑦 𝑖 2 Dimana d adalah dokumen yang akan diproses, Nilai vektor pada jarak Euclidean dikatakan mirip jika jarak antar dokumen mendekati 0.

Contoh Kasus K-means Ada 4 buah dokumen sebagai berikut: D1: Mata uang rupiah D2: Penyakit mata D3: Pencurian uang adalah penyakit masyarakat D4: Penyakit kekurangan uang Kelompokan 4 dokumen tersebut menjadi 2 cluster, dengan ketentuan: Menggunakan teknik k-means clustering Similarity measure dengan Euclideance distance Ditentukan Centroid D1 dan D4 Term weighting menggunakan TFIDF Preprocessing: tokenization, stopword removal, stemming

Pembahasan Preprocessing: tokenization, stopword removal, stemming Dokumen 1 Mata uang rupiah Dokumen 2 penyakit mata Dokumen 3 pencurian uang adalah penyakit masyarakat Dokumen 4 penyakit kekurangan uang Preprocessing: tokenization, stopword removal, stemming Hasil: Preprocessing: tokenization, stopword removal, stemming Hasil: mata uang rupiah sakit curi masyarakat kurang

Term Weighting D1 D2 D3 D4 DF IDF mata 1 2 0,30103 uang 3 0,124939   D1 D2 D3 D4 DF IDF mata 1 2 0,30103 uang 3 0,124939 rupiah 0,60206 sakit curi masyarakat kurang

TFIDF D1 D2 D3 D4 mata 0,30103 uang 0,12494 0,124939 rupiah 0,60206   D1 D2 D3 D4 mata 0,30103 uang 0,12494 0,124939 rupiah 0,60206 sakit curi masyarakat kurang

Proses cluster D1 sebagai titik pusat kluster 1, dan D4 sebagai titik pusat kluster 2 rumus: 𝑑 𝑥,𝑦 =√ 𝑖=1 𝑛 𝑥 𝑖 − 𝑦 𝑖 2 Contoh: d(x,y) = (|0,30103-0,30103|2) + (|0,124939 - 0|2) + (|0,60206 - 0|2) + (|0 -0,124939 |2) + (|0-0|2) + (|0-0|2) + (|0-0|2) d(x,y) = 0,627451679   C1 (D1) C2 (D4) D1 0,911691 D2 0,627451679 0,68462 D3 1,092546313 1,042798 D4 0,911691402

Hasil C1 (D1) C2 (D4) D1 V - D2 D3 D4 Cluster 1 : D1, D2   C1 (D1) C2 (D4) D1 V - D2 D3 D4 Cluster 1 : D1, D2 Cluster 2 : D3,D4

Studi Kasus 2 Clustering dengan algoritma K-Means Ada 4 dokumen sebagai berikut : Dokumen 1 Vaksin difteri pemerintah Dokumen 2 Penyakit difteri Dokumen 3 Pemberian vaksin terhadap penyakit pada anak Dokumen 4 Penyakit kekurangan vaksin

1. Langkah 1: Hasil yang diharapkan Preprocessing: tokenization, stopword removal, stemming difteri vaksin pemerintah sakit beri anak kurang

2. Langkah 2: TERM WEIGHTING   D1 D2 D3 D4 DF IDF difteri 1 2 0,30103 vaksin 3 0,124939 pemerintah 0,60206 sakit beri anak kurang

3. Langkah 3: Hitung TFIDF D1 D2 D3 D4 difteri 0,30103 vaksin 0,12494 vaksin 0,12494 pemerintah 0,60206 sakit beri anak kurang

ITERASI 1 PROSES CLUSTER  D1 sebagai titik pusat kluster 1, dan D4 sebagai titik pusat kluster 2   rumus: 𝑑(𝑥 , 𝑦) = √ ​∑𝑖 =1 ↑𝑛|​𝑥↓𝑖  − ​𝑦↓𝑖 | ↑ 2    Contoh: d(x,y) = (|0,30103-0,30103|2) + (|0,124939 - 0|2) + (|0,60206 - 0|2) + (|0 -0,124939 |2) + (|0-0|2) + (|0-0|2) + (|0-0|2) d(x,y) = 0, 627451679 JARAK  C1 (D1) C2 (D4) D1 0 0,911691 D2 0,627451679 0,68462 D3 1,092546313 1,042798 D4 0,911691402 0

HASIL ITERASI 1 C1 (D1) C2 (D4) D1 V - D2 V - D3 - V D4 - V Cluster 1 : D1,D2 Cluster 2 : D3,D4

5. iterasi 2 HITUNG CLUSTER BARU TFIDF D1 TFIDF D2 C1 Baru difteri 0,30103 vaksin 0,12494 0.06247 pemerintah 0,60206 sakit beri anak kurang TFIDF D3 TFIDF D4 C2 Baru difteri vaksin 0,12494 pemerintah sakit beri 0,60206 0.301030 anak kurang

6. Langkah ke 4 – iterasi 2 HITUNG JARAK DOKUMEN KE CLUSTER BARU JARAK C1 C2 D1 0.313725839 0.86055921 D2 0.313725839 0.614886917 D3 0.95603108 0.521399247 D4 0.742643383 0.521399247

Hasil Akhir C1 C2 D1 V - D2 V - D3 - V D4 - V Cluster 1 : D1 ,D2 Karena anggota Cluster dari Iterasi 1 s/d Iterasi 2 tidak berubah atau tetap, maka sudah pasti anggota Cluster 1 = Dokumen 1 dan Dokumen 2, sedangkan anggota Cluster 2 = Dokumen 3 dan Dokumen 4

Kesimpulan & Review Partial Clustering yaitu proses pengelompokan text dokumen yang memiliki kesamaan topik. Tujuan: Mempartisi text dokumen menjadi beberapa kelompok dimana text dokumen dalam kelompok yang sama adalah mempunyai kemiripan satu sama lain berdasarkan frekuensi kemunculan term.

Diskusi D1 PSIS berburu juara Liga Indonesia D2   D1 PSIS berburu juara Liga Indonesia D2 Hasil putusan Sidang Elit Politik D3 Partai politik berebut suara D4 Manchester United Juara Liga Inggris D5 Timnas Indonesia juara Liga AFC Kelompokan dokumen tersebut menjadi 2 cluster, dengan ketentuan: Menggunakan teknik k-means clustering Similarity measure dengan Euclideance distance Ditentukan Centroid D1 dan D3 Term weighting menggunakan TFIDF Preprocessing: tokenization, stemming

Thanks! Any questions ? You can find us at: Website: http://kulino.dinus.ac.id/ or http://juntazen.com Email: ardytha.luthfiarta@dsn.dinus.ac.id or junta@dsn.dinus.ac.id