Information Retrieval

Slides:



Advertisements
Presentasi serupa
Praktikum Sistem Temu Balik Informasi
Advertisements

Ratri Enggar Pawening Materi 4 I NFORMATION R ETRIEVAL.
ORGANISASI INFORMASI Sistem Temu Kembali Informasi
StopList dan Stemming yasmi afrizal
Model Temu-Balik Informasi
“Image Retrieval” Shinta P.
Ranked Retrieval Pencarian Boolean Menghasilkan sekumpulan dokumen yang cocok dengan query, yang tidak cocok tidak muncul Pada kasus.
PENGANTAR ORGANISASI INFORMASI Sistem Temu Kembali Informasi (Information Retrieval System) Modul 11 Muslech, Dipl.Lib, MSi 3 Desember 2012.
Pengenalan Database Local e-Content Pertemuan 8
Pertemuan ke-2 Model dalam sistem temu kembali informasi yasmi afrizal
FUZZY INFORMATION RETRIEVAL
Information Retrieval
Interaksi Manusia dengan Komputer
Gambar Kerangka dari sistem temu-kembali informasi sederhana
Latent Semantic Indexing
Final Project Temu Balik Informasi
MATERI PROJECT TI 2014 B Taufik Ari Arnandan ( )
Review Jurnal Nasional
METODE DAN MODEL TEMU BALIK INFORMASI Luthfi Nurrohman ( )
Anggota Kelompok Dian Santosa (KETUA)
KONSEP USER INTERFACE.
Pertemuan 7 : Latent Semantic Indexing
SEARCH ENGINE.
Konsep dan Model-model Sistem Temu Balik Informasi
Konsep dan model temu balik informasi
Text Mining and Information Retrieval
Implementasi vector space model untuk pencarian dokumen
TEMU BALIK INFORMASI Multimedia Dalam Temu Balik Informasi.
Konsep, Metode dan Model Temu Kembali Informasi
KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA
Review Jurnal Internasional
Sistem Temu Balik Informasi Multimedia
EFEKTIFITAS SELEKSI FITUR DALAM SISTEM TEMU-KEMBALI INFORMASI
Anggota Kelompok : Kurniawan Novi Pambudi
Sistem Temu-Balik Informasi yasmi afrizal
Review Jurnal Temu Balik Informasi
SISTEM TEMU KEMBALI INFORMASI
Perkenalan Pertemuan ke-1 Sistem Temu-Balik Informasi.
TEMU KEMBALI INFORMASI
Document Indexing dan Term Weighting
VECTOR SPACE MODEL.
Temu balik informasi Anggota Kelompok Ikhsan Fauji
TEMU BALIK INFORMASI TI 14 A.
Ketua Kelompok Dian Restiani Anggota : Wahyu Septi Anjar
TUJUAN (1) Mahasiswa dapat menjelaskan Ilmu Pengolahan Text dan Informasi. (C2) Mahasiswa dapat menjelaskan Model-model Sistem Temu Balik Informasi. (C2)
Review Konsep Dasar IRS/ STI
Query Query adalah istilah yang dibangun oleh user untuk merepresentasikan kebutuhan informasinya Query dapat berupa istilah tunggal maupun istilah gabungan/kombinasi.
Sistem temu balik multimedia
StopList dan Stemming yasmi afrizal
Laten Semantic Indexing
PENYIMPANAN DAN PENGAMBILAN DATA MULTIMEDIA (LANJUTAN) .
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Temu Balik Informasi Anggota Kelomopok :
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Similarity Analisis.
Oleh : Rahmat Robi Waliyansyah, M.Kom.
PENGANTAR KOMPUTER DAN TEKNOLOGI INFORMASI 1B
Pengenalan Temu Balik Informasi.
M Ali Fauzi Indriati Sigit Adinugroho
Model Boolean & Advanced Boolean
SEARCH ENGINE.
Model Boolean dan Advanced Boolean
Pembobotan Kata (Term Weighting)
“MODEL BOOLEAN DAN ADVANCED BOOLEAN”
MODEL probabilistik KELOMPOK 6.
Model Perolehan Informasi
Temu Kembali Informasi
Universitas Gunadarma
KONSEP USER INTERFACE PENGANTAR KOMPUTER DAN TEKNOLOGI INFORMASI 1B.
Intro Algoritma K-Nearest Neighbor (K- NN) adalah sebuah metode klasifikasi terhadap sekumpulan data maupun dokumen berdasarkan pembelajaran  data yang.
Transcript presentasi:

Information Retrieval Text Mining - Text Mining & Information Retrieval

Information Retrieval

Information Retrieval Konsep dasar dari IR adalah pengukuran kesamaan sebuah perbandingan antara dua dokumen, mengukur sebearapa mirip keduanya. Setiap input query yang diberikan, dapat dianggap sebagai sebuah dokumen yang akan dicocokan dengan dokumendokumen lain. Pengukuran kemiripan serupa dengan metode klasifikasi yang disebut metode nearest- neighbour.

Search Engine Search Engine merupakan aplikasi nyata dari Information Retrieval pada bidang web.

Search Engine Search Engine

Boolean Retrieval Model Pada Boolean Information Retrieval query yang digunakan berupa Boolean. Dokumen-dokumen yang ada dibedakan menjadi sesuai atau tidak sesuai dengan query tersebut

Boolean Retrieval Model Contoh, Query : Antony AND mercy Maka yang dianggap relevan adalah dokumen nomor 1 (Antony and Cleopatra) dan dokumen nomor 6 (Macbeth), karena kedua dokumen tersebut mengandung kata Antony dan kata mercy   Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 1 Brutus Caesar Calpurnia Cleopatra mercy worser

Boolean Retrieval Model Contoh, Query : Calpurnia OR Brutus Maka yang dianggap relevan adalah dok nomor 1 (Antony and Cleopatra), dok nomor 2 (Julius Caser), dan dok nomor 4(Hamlet) karena ketiga dokumen tersebut mengandung salah satu atau dua2nya (OR) dari kata Calpurnia dan kata Brutus   Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 1 Brutus Caesar Calpurnia Cleopatra mercy worser

Kelebihan Boolean IR Mengembalikan dokumen pencarian yang match saja atau tidak sama sekali. Sangat cocok untuk expert user yang sudah pengalaman tentang kebutuhan pencarian mereka (misalnya di library search, bookstore search, etc). Aplikasi dengan konsep Boolean Retrieval Model dapat menghemat konsumsi waktu pencarian dokumen dalam search engine.

Kekurangan Boolean IR Tidak bagus untuk sebagian besar pengguna. Sebagian besar pengguna tidak mampu menulis Query Boolean dengan baik (mereka berpikir itu akan menambah pekerjaan dalam pencarian). Sebagian besar pengguna tidak ingin mengarungi hasil pencarian yang banyak dan kurang spesifik (misalnya, web search).

Ch. 6 Kekurangan Boolean IR Query Boolean sering menghasilkan pencarian dengan jumlah yang kadang-kadang terlalu sedikit (=0) atau terlalu banyak (=1000000). Contohnya : Query 1: “standard AND user AND dlink AND 650” → 200,000 hits Query 2: “standard AND user AND dlink AND 650 AND NO found” → 0 hits Butuh skill bagus dalam memilih query agar menghasilkan hasil pencarian yang tepat. AND memberikan hasil terlalu sedikit; OR memberikan hasil terlalu banyak Cf. our discussion of how Westlaw Boolean queries didn’t actually outperform free text querying

Ranked retrieval models Pada ranked retrieval, system mengurutkan dokumen-dokumen berdasarkan relevansinya, bukan hanya relavan atau tidak relevan. Dokumen yang paling relevan memiliki ranking tertinggi dan dokumen yang kurang relevan memiliki ranking lebih rendah

Ranked retrieval models Setiap dokumen diberikan skor sesuai tingkat relevansinya. Misal diberikan nilai dalam rentang [0, 1] pada setiap dokumen Skor tersebut mengukur tingkat kococokan antara dokumen dan query

Ranked retrieval models Metode yang paling sering digunakan adalah Vector Space Model untuk representasi fiturnya dan Cosine Similarity untuk menghitung kemiripan antara dokumen dan query

Ranked retrieval models Vector Space Model adalah Model proses pencarian informasi dari query yang menggunakan ekspresi kemiripan berdasarkan frekuensi terms/token/kata yang terdapat pada dokumen.

Ranked retrieval models Vector Space Model adalah Model proses pencarian informasi dari query yang menggunakan ekspresi kemiripan berdasarkan frekuensi terms/token/kata yang terdapat pada dokumen.

Ranked retrieval models Contoh Vector Space Model Wt,d Antony & Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 1.524831652 1.366152196 Brutus 0.482268112 0.962061659 0.301029996 Caesar 0.266483532 0.265734309 0.103017176 0.079181246 0.07918 Calpurnia 1.556302501 Cleopatra 2.144487465 Mercy 0.116960302 0.134526562 Worser 0.22910001 0.176091259

Ranked retrieval models Cosine similarity adalah fungsi yang digunakan untuk menghitung besarnya derajat kemiripan diantara dua vektor. Ukuran nilai Cosine similarity dihitung berdasarkan besarnya nilai fungsi cosine terhadap sudut yang dibentuk oleh dua vektor.

Ranked retrieval models Membuat vektor “query/dokumen yang dicari/keyword pencarian” dalam bentuk terms weighting Membuat vektor “dokumen” dalam terms weighting Menghitung nilai “Cosine Similarity” dari vektor space “query” terhadap setiap vektor space “dokumen” Meranking dokumen berdasarkan query/dokumen yang dicari/keyword pencarian Mengambil K tertinggi(e.g., K = 10) untuk pengguna/user