Upload presentasi
Presentasi sedang didownload. Silahkan tunggu
Diterbitkan olehSiska Dharmawijaya Telah diubah "7 tahun yang lalu
1
Implementasi vector space model untuk pencarian dokumen
Abdul Azis Abdillah, Indra Bayu Muktyas
2
Latar Belakang Banyaknya dokumen di dunia ini
Pada tahun 2005, Yahoo! mengumumkan bahwa Search Engine Yahoo! telah mengindeks lebih dari 19.2 milyar dokumen (
3
Sumber : C.J. van Rijsbergen, 1979
Information Retrieval Ranking Vector Space Model Sumber : C.J. van Rijsbergen, 1979
4
Bagaimana implementasi Vector Space Model dalam pencarian dokumen ?
Rumusan Masalah Tujuan penelitian Bagaimana implementasi Vector Space Model dalam pencarian dokumen ? Bagaimana perbandingan kinerja VSM dan VSM tf-idf? Implementasi Vector Space Model (VSM) untuk pencarian dokumen. Membandingkan kinerja antara VSM dan VSM tf-idf.
5
Vector Space Model Dokumen dan Query direpresentasikan ke dalam vektor multidimensi. Dokumen dan Query diekspresikan sebagai vektor t-dimensi dj=(w1j, w2j, …, w3j) dan diasumsikan terdapat n dokumen di dalam database, yaitu j=1, 2, …, n
6
Term Frequency Database dari semua dokumen direpresentasikan oleh matriks term-document (atau matriks term-frequency). Dimana setiap sel pada matriks berkorespondensi dengan bobot yang diberikan dari suatu term dalam dokumen yang ditentukan. Nilai nol berarti bahwa term tidak terdapat dalam dokumen.
7
Term Frequency-Inversed Document Frequency
Inversed Document Frequency (IDF)
8
Similarity Salah satu ukuran kemiripan teks yang popular digunakan pada VSM untuk pencarian dokumen adalah cosine similarity (Krzysztof J. Cios, dkk. 2007) Cosine similarity didefinisikan sebagai berikut : Dokumen yang paling mirip dengan Query adalah dokumen yang memiliki nilai similarity terbesar.
9
Contoh VSM dokumen yang paling relevan? D3
Diketahui terdapat tiga dokumen sebagai berikut: D1 : Bursa pencalonan presiden mulai ramai. D2 : Perdagangan saham mulai ramai di Surabaya. D3 : Bursa saham di Jakarta semakin meningkat. Query yang dimasukkan adalah “Bursa efek Jakarta”. dokumen yang paling relevan? D3 Term Q D1 D2 D3 T1 bursa 1 T2 Pencalonan T3 presiden T4 mulai T5 ramai T6 perdagangan T7 saham T8 di T9 surabaya T10 jakarta T11 semakin T12 meningkat T13 efek
10
Contoh VSM tf-idf dokumen yang paling relevan? D3 T1 bursa 1 T2
Term Q D1 D2 D3 df Idf T1 bursa 1 3 0.125 T2 Pencalonan 0.602 T3 presiden T4 mulai 2 0.301 T5 ramai T6 perdagangan T7 saham T8 di T9 surabaya T10 jakarta T11 semakin T12 meningkat T13 efek dokumen yang paling relevan? D3
11
Eksperimen Dataset yang digunakan adalah kumpulan 50 judul buku yang terdapat pada database perpustakaan STKIP Surya. Software yang digunakan adalah macro VBA yang terdapat pada Microsoft Excel dan OS Windows Vista Ultimate. Spesifikasi hardware yang digunakan pada eksperimen ini adalah Processor Intel Pentium(R) Dual- Core 2.0GHz 1.20 GHz, RAM 3.5 GB. Implementasi VSM dan VSM tf-idf pada database perpustakaan STKIP Surya
12
Hasil Eksperimen Jika dipilih suatu query yang dimana query tersebut tepat ada pada database maka dokumen tersebut akan memiliki nilai similarity satu dan akan ditempatkan pada posisi teratas pada setiap pencarian dokumen. Pada VSM, dokumen teratas yang ditampilkan memiliki panjang dokumen yang lebih pendek jika dibandingkan dengan dokumen yang lain hasil perangkingan.
13
Kesimpulan Berdasarkan eksperimen dan hasil yang diperoleh selama eksperimen, dapat diambil beberapa kesimpulan sebagai berikut : Metode Vector Space Model dapat digunakan untuk melakukan pencarian dokumen. Hasil pencarian dokumen menggunakan VSM tanpa pembobotan tf-idf bergantung kepada panjang dokumen. Semakin pendek dokumen maka akan ditampilkan pada urutan teratas. Secara umum pencarian dokumen mengunakan VSM tf-idf lebih relevan jika dibandingkan dengan menggunakan VSM tanpa pembobotan tf-idf.
14
Daftar Pustaka Cios, Krzysztof J., dkk. (2007). Data Mining a Knowledge Discovery Approach. Springer. Manning, Christopher D., Raghavan, Prabhakar,. Schutze. (2008). Introduction to Information Retrieval. Cambridge University Press, New York, USA. Salton, G., Wong, A., Yang, C. S. (1975). A Vector Space Model for Automatic Indexing. Communications of the ACM, Nov 1975, volume 18, Number 11, Pp Van Rijsbergen, C.J. (1979). Information Retrieval. Butterworths, London.
Presentasi serupa
© 2024 SlidePlayer.info Inc.
All rights reserved.