Ranked Retrieval
Pencarian Boolean Menghasilkan sekumpulan dokumen yang cocok dengan query, yang tidak cocok tidak muncul Pada kasus dokumen dengan jumlah yang sangat banyak, hasil pencarian menjadi sangat banyak (jauh melampaui kemampuan manusia dalam membacanya) Diperlukan mekanisme pemeringkatan untuk dokumen yang cocok dengan pencarian
Ranked Retrieval Mengurutkan hasil pencarian berdasarkan kesamaannya dengan kueri Beberapa dok. Hasil pencarian boleh saja sama, namun masing-masing memiliki bobot kesamaan
Kriteria untuk kesamaan kueri vs dokumen Dokumen yang sering mengandung term kueri, dianggap lebih memiliki kesamaan (Term frekuensi : tf) Term yang jarang dijumpai lebih informatif dibanding dengan term yang sering dijumpai (Inverse document frequency : idf)
Vector Space Model Vocab (V) himpunan term setelah mengalami pre-prcessing (token, stem dll) Masing-masing baik dok. Maupun kueri digambarkan dalam bentuk |V| = Vektor berdimensi T : – dj = [w1j, w2j,..., wTj]. – wij adalah bobot term i pada dok. j.
Representasi Grafik
Contoh Matrix Bobot Term Kumpulan dokumen dianggap sebagai karungan kata (bag of word), dimana masing- masing kata/term memiliki vector bobot
Bobot Term = tf Term yang sering muncul merupakan indikator topik
Bobot Term : idf Term yang sering muncul dibeberapa dokumen yang berbeda, semakin tidak mengindikasikan suatu topik (memiliki makna yang kecil)
Pembobotan tf.idf Kata yang sering muncul di suatu dokumen namun jarang muncul di dokumen lain memiliki makna (bobot) yang lebih tinggi