Implementasi vector space model untuk pencarian dokumen

Slides:



Advertisements
Presentasi serupa
Praktikum Sistem Temu Balik Informasi
Advertisements

PI, Manajemen Informatika, Fakultas Ilmu Komputer, Universitas Gunadarma, PENGGUNAAN APLIKASI YAHOO SEARCH HACK for further detail, please visit
Rancang Bangun Simulasi Penjadwalan dan Perwalian Berbasis Web di STIKOM Surabaya Adrian Hodianto.
Ratri Enggar Pawening Materi 4 I NFORMATION R ETRIEVAL.
ORGANISASI INFORMASI Sistem Temu Kembali Informasi
StopList dan Stemming yasmi afrizal
Model Temu-Balik Informasi
Ranked Retrieval Pencarian Boolean Menghasilkan sekumpulan dokumen yang cocok dengan query, yang tidak cocok tidak muncul Pada kasus.
PENGANTAR ORGANISASI INFORMASI Sistem Temu Kembali Informasi (Information Retrieval System) Modul 11 Muslech, Dipl.Lib, MSi 3 Desember 2012.
Sistem Temu Kembali Informasi/ Information Retrieval
Pertemuan ke-2 Model dalam sistem temu kembali informasi yasmi afrizal
FUZZY INFORMATION RETRIEVAL
Gambar Kerangka dari sistem temu-kembali informasi sederhana
Latent Semantic Indexing
Temu Balik Informasi Pertemuan Ke – 12 Presentasi Final Project
Final Project Temu Balik Informasi
MATERI PROJECT TI 2014 B Taufik Ari Arnandan ( )
Review Jurnal Nasional
METODE DAN MODEL TEMU BALIK INFORMASI Luthfi Nurrohman ( )
Anggota Kelompok Dian Santosa (KETUA)
TEMU BALIK INFORMASI.
Pertemuan 7 : Latent Semantic Indexing
Temu Balik Informasi Materi Pertemuan Ke – 7 Konsep dan Prinsip Serta Algoritma Latent Semantic Indexing Anggota : Nama Nim Wahyu Septi Anjar
Anggota Kelompok Ikhsan Fauji Irna Oktaviasari Erip Marliana
SEARCH ENGINE.
Konsep dan Model-model Sistem Temu Balik Informasi
Konsep dan model temu balik informasi
SUPPORT VECTOR MACHINE
Disusun Oleh: AVE ABDI SARAGIH
Sistem Temu Kembali Informasi
Text Mining and Information Retrieval
ABDUL AZIS ABDILLAH ABDUL AZIS ABDILLAH
Konsep, Metode dan Model Temu Kembali Informasi
Konsep, Metode dan Model dalam Temu Balik Informasi
Latent Semantic Indexing (LSI)
IMPLEMENTASI ALGORITME DAMERAU-LEVENSHTEIN UNTUK KOREKSI EJAAN QUERY BAHASA INDONESIA PADA SEARCH ENGINE     Oleh: Utis Sutisna G  
Review Jurnal Internasional
Anggota Kelompok : Kurniawan Novi Pambudi
Sistem Temu-Balik Informasi yasmi afrizal
SISTEM TEMU KEMBALI INFORMASI
Perkenalan Pertemuan ke-1 Sistem Temu-Balik Informasi.
Temu Balik Informasi Nama Kelompok : Ikhsan Fauji
TEMU KEMBALI INFORMASI
Document Indexing dan Term Weighting
VECTOR SPACE MODEL.
Temu balik informasi Anggota Kelompok Ikhsan Fauji
Ketua Kelompok Dian Restiani Anggota : Wahyu Septi Anjar
TUJUAN (1) Mahasiswa dapat menjelaskan Ilmu Pengolahan Text dan Informasi. (C2) Mahasiswa dapat menjelaskan Model-model Sistem Temu Balik Informasi. (C2)
StopList dan Stemming yasmi afrizal
Laten Semantic Indexing
TEMU BALIK INFORMASI CONCEPT, PRINCIPLE & ALGORITHMS OF
Temu Balik Informasi Persentasi Final Project
Ir. Julio Adisantoso, M.Kom.
PENYIMPANAN DAN PENGAMBILAN DATA MULTIMEDIA (LANJUTAN) .
Review Information Retrieval Techniques and Applications
Information Retrieval
DOKUMENTASI DAN KEARSIPAN KELAS A Sistem Temu Kembali Informasi
Temu Balik Informasi Anggota Kelomopok :
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Similarity Analisis.
Sistem Temu Kembali Informasi/ Information Retrieval
Pengenalan Temu Balik Informasi.
Nugraha Iman Santosa ( )
Model Boolean & Advanced Boolean
SEARCH ENGINE.
Pembobotan Kata (Term Weighting)
Pengelompokan Dokumen (Document Clustering)
Temu Kembali Informasi
Universitas Gunadarma
Intro Algoritma K-Nearest Neighbor (K- NN) adalah sebuah metode klasifikasi terhadap sekumpulan data maupun dokumen berdasarkan pembelajaran  data yang.
Transcript presentasi:

Implementasi vector space model untuk pencarian dokumen Abdul Azis Abdillah, Indra Bayu Muktyas

Latar Belakang Banyaknya dokumen di dunia ini Pada tahun 2005, Yahoo! mengumumkan bahwa Search Engine Yahoo! telah mengindeks lebih dari 19.2 milyar dokumen (www.iht.com/articles/2005/08/15/business/web.php).

Sumber : C.J. van Rijsbergen, 1979 Information Retrieval Ranking Vector Space Model Sumber : C.J. van Rijsbergen, 1979

Bagaimana implementasi Vector Space Model dalam pencarian dokumen ? Rumusan Masalah Tujuan penelitian Bagaimana implementasi Vector Space Model dalam pencarian dokumen ? Bagaimana perbandingan kinerja VSM dan VSM tf-idf? Implementasi Vector Space Model (VSM) untuk pencarian dokumen. Membandingkan kinerja antara VSM dan VSM tf-idf.

Vector Space Model Dokumen dan Query direpresentasikan ke dalam vektor multidimensi. Dokumen dan Query diekspresikan sebagai vektor t-dimensi dj=(w1j, w2j, …, w3j) dan diasumsikan terdapat n dokumen di dalam database, yaitu j=1, 2, …, n

Term Frequency Database dari semua dokumen direpresentasikan oleh matriks term-document (atau matriks term-frequency). Dimana setiap sel pada matriks berkorespondensi dengan bobot yang diberikan dari suatu term dalam dokumen yang ditentukan. Nilai nol berarti bahwa term tidak terdapat dalam dokumen.

Term Frequency-Inversed Document Frequency Inversed Document Frequency (IDF)

Similarity Salah satu ukuran kemiripan teks yang popular digunakan pada VSM untuk pencarian dokumen adalah cosine similarity (Krzysztof J. Cios, dkk. 2007) Cosine similarity didefinisikan sebagai berikut : Dokumen yang paling mirip dengan Query adalah dokumen yang memiliki nilai similarity terbesar.

Contoh VSM dokumen yang paling relevan? D3 Diketahui terdapat tiga dokumen sebagai berikut: D1 : Bursa pencalonan presiden mulai ramai. D2 : Perdagangan saham mulai ramai di Surabaya. D3 : Bursa saham di Jakarta semakin meningkat. Query yang dimasukkan adalah “Bursa efek Jakarta”. dokumen yang paling relevan? D3 Term Q D1 D2 D3 T1 bursa 1 T2 Pencalonan T3 presiden T4 mulai T5 ramai T6 perdagangan T7 saham T8 di T9 surabaya T10 jakarta T11 semakin T12 meningkat T13 efek

Contoh VSM tf-idf dokumen yang paling relevan? D3 T1 bursa 1 T2 Term Q D1 D2 D3 df Idf T1 bursa 1 3 0.125 T2 Pencalonan 0.602 T3 presiden T4 mulai 2 0.301 T5 ramai T6 perdagangan T7 saham T8 di T9 surabaya T10 jakarta T11 semakin T12 meningkat T13 efek dokumen yang paling relevan? D3

Eksperimen Dataset yang digunakan adalah kumpulan 50 judul buku yang terdapat pada database perpustakaan STKIP Surya. Software yang digunakan adalah macro VBA yang terdapat pada Microsoft Excel dan OS Windows Vista Ultimate. Spesifikasi hardware yang digunakan pada eksperimen ini adalah Processor Intel Pentium(R) Dual- Core T4200 @ 2.0GHz 1.20 GHz, RAM 3.5 GB. Implementasi VSM dan VSM tf-idf pada database perpustakaan STKIP Surya

Hasil Eksperimen Jika dipilih suatu query yang dimana query tersebut tepat ada pada database maka dokumen tersebut akan memiliki nilai similarity satu dan akan ditempatkan pada posisi teratas pada setiap pencarian dokumen. Pada VSM, dokumen teratas yang ditampilkan memiliki panjang dokumen yang lebih pendek jika dibandingkan dengan dokumen yang lain hasil perangkingan.

Kesimpulan Berdasarkan eksperimen dan hasil yang diperoleh selama eksperimen, dapat diambil beberapa kesimpulan sebagai berikut : Metode Vector Space Model dapat digunakan untuk melakukan pencarian dokumen. Hasil pencarian dokumen menggunakan VSM tanpa pembobotan tf-idf bergantung kepada panjang dokumen. Semakin pendek dokumen maka akan ditampilkan pada urutan teratas. Secara umum pencarian dokumen mengunakan VSM tf-idf lebih relevan jika dibandingkan dengan menggunakan VSM tanpa pembobotan tf-idf.

Daftar Pustaka Cios, Krzysztof J., dkk. (2007). Data Mining a Knowledge Discovery Approach. Springer. Manning, Christopher D., Raghavan, Prabhakar,. Schutze. (2008). Introduction to Information Retrieval. Cambridge University Press, New York, USA. Salton, G., Wong, A., Yang, C. S. (1975). A Vector Space Model for Automatic Indexing. Communications of the ACM, Nov 1975, volume 18, Number 11, Pp. 613-620 Van Rijsbergen, C.J. (1979). Information Retrieval. Butterworths, London.