Upload presentasi
Presentasi sedang didownload. Silahkan tunggu
1
Ir. Julio Adisantoso, M.Kom.
PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN Elenur Dwi Anbiana G Ir. Julio Adisantoso, M.Kom.
2
PENDAHULUAN
3
Latar Belakang ?
4
Istilah peringkat x teratas
Latar Belakang (cont..) Teknik analisis lokal secara otomatis Pseuso-Relevance Feedback Dokumen peringkat 1 Dokumen peringkat 2 Dokumen peringkat 3 … Dokumen peringkat n Dokumen Relevan ekstrak Istilah peringkat x teratas
5
Latar Belakang (cont..) Dokumen relevan »»» segmen relevan Topik1
… Topikn Dokumen Topik segmen Dokumen relevan »»» segmen relevan
6
Tujuan Implementasi dan analisis kinerja kueri perluasan dengan teknik pseudo-relevance feedback berdasarkan segmentasi dokumen
7
Ruang Lingkup Dokumen XML berbahasa Indonesia
Berita-berita dari surat kabar online yang tersedia di Lab TKI Jumlah Dokumen = 1000
8
TINJAUAN PUSTAKA
9
Relevance Feedback mark of relevant document retrieval
expansion term selection relevant documents expanded query
10
Pseudo-Relevance Feedback
retrieval top n document expansion term selection expanded query relevant documents
11
Vector Space Model dokumen mana yang paling dekat dengan kueri ?
θ query Urutkan dokumen berdasarkan ukuran kesamaan dengan vektor kueri
12
Vector Space Model (cont...)
Penilaian kinerja sistem temu-kembali Kueri-kueri AVERAGE PRECISION
13
Algoritma VIPS VIsion based Page Segmentation
Ekstraksi blok visual VIsion based Page Segmentation Pendeteksian pemisah visual Konstruksi struktur isi Algoritma DivideDomtree(pNode, nLevel) { IF (Divideable(pNode, nLevel) == TRUE) FOR EACH child OF pNode DivideDomtree(child, nLevel); ELSE Put the sub-tree (pNode) into the pool as a block; }
14
METODOLOGI PENELITIAN
15
Tahap-tahap Segmentasi Dokumen Penyeleksian Segmen
Inisialisasi Temu-kembali Penyeleksian Kueri Perluasan Evaluasi Temu-kembali Temu-kembali Final
16
Inisialisasi Temu-kembali
Praproses Dokumen Eliminasi Kata Buangan Pengindeksan Teks Tokenisasi Vector Space Model
17
Segmentasi Dokumen segmen segmen segmen <DOC> <DOCNO>
<TITLE>… </TITLE> <AUTHOR>…. </AUTHOR> <TEXT> <P>… </P> <P>…. </TEXT> </DOC> document relevant ekstraksi blok visual title author p segmen segmen segmen
18
Penyeleksian Segmen Teknik vector space model top y segment Segmen
19
Penyeleksian Istilah Perluasan
kata kata kata kata segment relevant pseudo-relevance feedback Istilah perluasan Istilah perluasan Istilah perluasan top x expanded query TSV = idf(t).r/R
20
Temu-kembali Final Vector Space Model Kueri Asli: (tf*2)*idf
Kueri Perluasan: 1-(r-1)/n*idf
21
Evaluasi Hasil Temu-kembali
Recall-precision Average Precion Pengaruh penggunaan PRF PRF berdasarkan segmentasi dokumen Tanpa PRF PRF
22
HASIL DAN PEMBAHASAN
23
Evaluasi Sistem Mengetahui pengaruh pengambilan dokumen peringkat n teratas
24
Evaluasi Sistem (cont..)
Mengetahui pengaruh pengambilan segmen peringkat x teratas
25
Evaluasi Sistem (cont..)
Perbandingan kinerja sistem Perlakuan Sistem AVP Tanpa PRF 0.5216 PRF 0.4887 PRF berdasarkan segmentasi dokumen 0.5214
26
KESIMPULAN DAN SARAN
27
Kesimpulan Kinerja kueri perluasan optimal saat pengambilan segmen dan dokumen peringkat 5 teratas. Kinerja hasil temu-kembali PRF berdasarkan segmentasi dokumen dan tanpa PRF tidak ditemukan perbedaan yang signifikan Kinerja sistem yang didapat cukup baik, yaitu senilai
28
Saran menghilangkan kesalahan penulisan pada koleksi dokumen.
daftar kata buangan yang belum tereliminasi perlu dihilangkan Diterapkan teknik RF.
29
Daftar Pustaka Baeza-Yates R, Ribeiro-Neto B Modern Information System. Addison Wesley. Manning C D, Raghavan P, Schütze H Introduction to Information Retrieval. Cambridge: Cambridge University. Yu S, Wen J-R, dan Ma W-Y, Improving Pseudo-Relevance Feedback in Web Information Retrieval Using Web Page Segmentation. Yu S, Wen J-R, dan Ma W-Y VIPS: a Vision-base Page Segmentation Algorithm.
30
TERIMA KASIH
Presentasi serupa
© 2024 SlidePlayer.info Inc.
All rights reserved.