Ratri Enggar Pawening Materi 4 I NFORMATION R ETRIEVAL.

Slides:



Advertisements
Presentasi serupa
DISUSUN OLEH : ANASTASIA RUTH FEBIOLA (05) IX. 1.
Advertisements

Praktikum Sistem Temu Balik Informasi
Membuat Dan Menghapus Tabel, Konversi Teks Ke Tabel Dan Tabel Ke Teks
StopList dan Stemming yasmi afrizal
Model Temu-Balik Informasi
Langkah-langkah untuk membuat blog di wordpress Jalankan browser Anda kemudian buka Tunggu hingga muncul tampilan awal WordPress.com.
Ranked Retrieval Pencarian Boolean Menghasilkan sekumpulan dokumen yang cocok dengan query, yang tidak cocok tidak muncul Pada kasus.
EVALUASI KURIKULUM PK750 HANSISWANY KAMARGA.
Muhammad Yusuf Teknik Multimedia dan Jaringan UNIVERSITAS TRUNOJOYO.
Information Retrieval
Gambar Kerangka dari sistem temu-kembali informasi sederhana
Latent Semantic Indexing
Temu Balik Informasi Pertemuan Ke – 12 Presentasi Final Project
Final Project Temu Balik Informasi
MATERI PROJECT TI 2014 B Taufik Ari Arnandan ( )
Review Jurnal Nasional
Temu Balik Informasi Materi Pertemuan Ke – 1 Materi Dasar TBI
METODE DAN MODEL TEMU BALIK INFORMASI Luthfi Nurrohman ( )
Anggota Kelompok Dian Santosa (KETUA)
TEMU BALIK INFORMASI.
Pertemuan 7 : Latent Semantic Indexing
Temu Balik Informasi Materi Pertemuan Ke – 7 Konsep dan Prinsip Serta Algoritma Latent Semantic Indexing Anggota : Nama Nim Wahyu Septi Anjar
Konsep dan Model-model Sistem Temu Balik Informasi
Konsep dan model temu balik informasi
Sistem Temu Kembali Informasi
Text Mining and Information Retrieval
Implementasi vector space model untuk pencarian dokumen
Natural Language Processing (NLP)
Konsep, Metode dan Model Temu Kembali Informasi
Konsep, Metode dan Model dalam Temu Balik Informasi
Latent Semantic Indexing (LSI)
EFEKTIFITAS SELEKSI FITUR DALAM SISTEM TEMU-KEMBALI INFORMASI
Anggota Kelompok : Kurniawan Novi Pambudi
SISTEM TEMU KEMBALI INFORMASI
TEMU KEMBALI INFORMASI
Document Indexing dan Term Weighting
VECTOR SPACE MODEL.
Temu balik informasi Anggota Kelompok Ikhsan Fauji
FINAL PROJECT TEMU BALIK INFORMASI
Ketua Kelompok Dian Restiani Anggota : Wahyu Septi Anjar
Review Konsep Dasar IRS/ STI
Query Query adalah istilah yang dibangun oleh user untuk merepresentasikan kebutuhan informasinya Query dapat berupa istilah tunggal maupun istilah gabungan/kombinasi.
StopList dan Stemming yasmi afrizal
TEMU BALIK INFORMASI CONCEPT, PRINCIPLE & ALGORITHMS OF
Diklat Penyiapan Calon Kepala Sekolah
Temu Balik Informasi Persentasi Final Project
Langkah-langkah membuat blog wordpress
Information Retrieval
DOKUMENTASI DAN KEARSIPAN KELAS A Sistem Temu Kembali Informasi
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Cara Membuat Blog WordPress.Com
Langkah – langkah membuat blog dengan wordpress
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Temu Balik Informasi Anggota Kelomopok :
Oleh : Rahmat Robi Waliyansyah, M.Kom.
CROSS LANGUAGE INFORMATION RETRIEVAL (CLIR)
Similarity Analisis.
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Nugraha Iman Santosa ( )
Model Boolean & Advanced Boolean
SEARCH ENGINE.
Model Boolean dan Advanced Boolean
Pembobotan Kata (Term Weighting)
Prinsip Dan Proses Temu Balik Informasi Model Boolean
Model Probabilistic.
Pengelompokan Dokumen (Document Clustering)
“MODEL BOOLEAN DAN ADVANCED BOOLEAN”
MODEL probabilistik KELOMPOK 6.
Model Perolehan Informasi
Temu Kembali Informasi
Transcript presentasi:

Ratri Enggar Pawening Materi 4 I NFORMATION R ETRIEVAL

Overview Dalam korpus yang besar, sebuah boolean query mampu mengembalikan hasil yang besar pula. Andaikan hasil boolean retrieval mengembalikan dokumen, manakah yang benar-benar cocok untuk kita? Bagaimana pula dengan user yang kurang memiliki pengetahuan yang bagus dalam boolean query?

Overview Permasalahan: Kita butuh mengurutkan dokumen hasil retrieval disesuaikan dengan query yang kita masukkan. Pemecahan: Pemberian score/nilai untuk setiap dokumen dalam korpus terhadap query kita. (untuk dirangkingkan)

Scoring Yang sudah kita pelajari tentang scoring/nilai adalah score 1 untuk dokumen yang relevan dengan query dan score 0 untuk dokumen yang tidak relevan. Kita akan masuk ke tahap berikutnya: – dokumen yang memiliki token query lebih banyak didalamnya, akan memiliki score yang lebih tinggi. – query berupa free text (tanpa operator)

Overlap Measure [1] Ide perangkingan yang sederhana adalah overlap measure (Manning, 2008) Sebagai contoh, kita lihat kasus berikut.

Overlap Measure [2] Misalkan contoh query-nya adalah: “Brutus Mercy Antony” Maka dokumen “Antony and Cleopatra” memiliki score 3 (Karena ketiga token dalam query dimiliki semua oleh dokumen tersebut). Dokumen “Julius Caesar” dan “Macbeth” memiliki score 2. Nah, dengan begitu, dokumen “Antony and Cleopatra” menempati rangking pertama.

Overlap Measure [3] Tapi, apakah masih ditemui kelemahan dari penghitungan overlap measure? Bagaimana kalau query hanya satu kata/token saja? Overlap measure tidak: – Mempertimbangkan jumlah suatu token dalam suatu dokumen. – Mempertimbangkan scarcity dari tiap token – Tidak memperhitungkan jumlah korpus dan jumlah token dalam query.

Overlap Measure [4] Ide selanjutnya adalah menemukan metode scoring yang lebih baik. Scoring juga tetap dapat dilakukan meski hanya ada satu token dalam query. Dokumen akan semakin relevan jika memuat token yang semakin banyak. Ini semua menuju ke ide berikutnya  term weighting.

Term Frequency Untuk bisa mendapat score tadi, pertama-tama kita perlu memberikan bobot tiap token dalam tiap dokumen. Ex: Bobot token ditentukan dari jumlah kemunculan token tersebut di dalam dokumen. ( term frequency – tf ) term frequency dinotasikan dengan tf (t,d), dimana t  token, dan d  dokumen

Document Frequency DOCUMENT FREQUENCY (df), defined to be the number of documents in the collection that contain a term t.

Components N  jml dokumen tf (t,d) df idf  inverse df + 1

tf-idf weighting df t = jumlah token pada dokumen i i = dokumen ke-… j & k = token ke-…

Referensi