Ir. Julio Adisantoso, M.Kom. PSEUDO-RELEVANCE FEEDBACK PADA TEMU-KEMBALI MENGGUNAKAN SEGMENTASI DOKUMEN Elenur Dwi Anbiana G64050873 Ir. Julio Adisantoso, M.Kom.
PENDAHULUAN
Latar Belakang ?
Istilah peringkat x teratas Latar Belakang (cont..) Teknik analisis lokal secara otomatis Pseuso-Relevance Feedback Dokumen peringkat 1 Dokumen peringkat 2 Dokumen peringkat 3 … Dokumen peringkat n Dokumen Relevan ekstrak Istilah peringkat x teratas
Latar Belakang (cont..) Dokumen relevan »»» segmen relevan Topik1 … Topikn Dokumen Topik segmen Dokumen relevan »»» segmen relevan
Tujuan Implementasi dan analisis kinerja kueri perluasan dengan teknik pseudo-relevance feedback berdasarkan segmentasi dokumen
Ruang Lingkup Dokumen XML berbahasa Indonesia Berita-berita dari surat kabar online yang tersedia di Lab TKI Jumlah Dokumen = 1000
TINJAUAN PUSTAKA
Relevance Feedback mark of relevant document retrieval expansion term selection relevant documents expanded query
Pseudo-Relevance Feedback retrieval top n document expansion term selection expanded query relevant documents
Vector Space Model dokumen mana yang paling dekat dengan kueri ? θ query Urutkan dokumen berdasarkan ukuran kesamaan dengan vektor kueri
Vector Space Model (cont...) Penilaian kinerja sistem temu-kembali Kueri-kueri AVERAGE PRECISION
Algoritma VIPS VIsion based Page Segmentation Ekstraksi blok visual VIsion based Page Segmentation Pendeteksian pemisah visual Konstruksi struktur isi Algoritma DivideDomtree(pNode, nLevel) { IF (Divideable(pNode, nLevel) == TRUE) FOR EACH child OF pNode DivideDomtree(child, nLevel); ELSE Put the sub-tree (pNode) into the pool as a block; }
METODOLOGI PENELITIAN
Tahap-tahap Segmentasi Dokumen Penyeleksian Segmen Inisialisasi Temu-kembali Penyeleksian Kueri Perluasan Evaluasi Temu-kembali Temu-kembali Final
Inisialisasi Temu-kembali Praproses Dokumen Eliminasi Kata Buangan Pengindeksan Teks Tokenisasi Vector Space Model
Segmentasi Dokumen segmen segmen segmen <DOC> <DOCNO> <TITLE>… </TITLE> <AUTHOR>…. </AUTHOR> <TEXT> <P>… </P> <P>…. </TEXT> </DOC> document relevant ekstraksi blok visual title author p segmen segmen segmen
Penyeleksian Segmen Teknik vector space model top y segment Segmen
Penyeleksian Istilah Perluasan kata kata kata kata segment relevant pseudo-relevance feedback Istilah perluasan Istilah perluasan Istilah perluasan top x expanded query TSV = idf(t).r/R
Temu-kembali Final Vector Space Model Kueri Asli: (tf*2)*idf Kueri Perluasan: 1-(r-1)/n*idf
Evaluasi Hasil Temu-kembali Recall-precision Average Precion Pengaruh penggunaan PRF PRF berdasarkan segmentasi dokumen Tanpa PRF PRF
HASIL DAN PEMBAHASAN
Evaluasi Sistem Mengetahui pengaruh pengambilan dokumen peringkat n teratas
Evaluasi Sistem (cont..) Mengetahui pengaruh pengambilan segmen peringkat x teratas
Evaluasi Sistem (cont..) Perbandingan kinerja sistem Perlakuan Sistem AVP Tanpa PRF 0.5216 PRF 0.4887 PRF berdasarkan segmentasi dokumen 0.5214
KESIMPULAN DAN SARAN
Kesimpulan Kinerja kueri perluasan optimal saat pengambilan segmen dan dokumen peringkat 5 teratas. Kinerja hasil temu-kembali PRF berdasarkan segmentasi dokumen dan tanpa PRF tidak ditemukan perbedaan yang signifikan Kinerja sistem yang didapat cukup baik, yaitu senilai 0.5214.
Saran menghilangkan kesalahan penulisan pada koleksi dokumen. daftar kata buangan yang belum tereliminasi perlu dihilangkan Diterapkan teknik RF.
Daftar Pustaka Baeza-Yates R, Ribeiro-Neto B. 1999. Modern Information System. Addison Wesley. Manning C D, Raghavan P, Schütze H. 2008. Introduction to Information Retrieval. Cambridge: Cambridge University. Yu S, Wen J-R, dan Ma W-Y, 2003. Improving Pseudo-Relevance Feedback in Web Information Retrieval Using Web Page Segmentation. Yu S, Wen J-R, dan Ma W-Y. 2003. VIPS: a Vision-base Page Segmentation Algorithm.
TERIMA KASIH