Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

Anggota Kelompok : Kurniawan Novi Pambudi

Presentasi serupa


Presentasi berjudul: "Anggota Kelompok : Kurniawan Novi Pambudi"— Transcript presentasi:

1 Anggota Kelompok : Kurniawan Novi Pambudi 14.11.0161
Hijriah Fajar Muhammad Insan Raditya Tri Wibowo Mei Susanto Anggrean Yudistira Fanny Tri Pamungkas Agus Harianto

2 Information retrieval (IR) system adalah sistem yang secara otomatis melakukan pencarian atau penemuan kembali informasi yang relevan terhadap kebutuhan pengguna. Kebutuhan pengguna, diekspresikan dalam query, menjadi input bagi IR system dan selanjutnya IR system mencari dan menampilkan dokumen yang relevan dengan query tersebut. Salah satu metode mencari atau menemukan kembali informasi yang relevan dengan query

3 Konsep Information retrieval
Indexing Searching Perengkingan relevansi  keyword query

4 Indexing Indexing Berfungsi menghasilkan database index. Merupakan proses persiapan sehingga dokumen siap untuk di retrive. Tahap-tahap dalam proses indexing ialah: Word Token / Parsing Stopword Removal / filtering Stemming TF/IDF ( Term Frequency – Inversed Document Frequency )

5 Tahap-tahap indexing WORD  TOKEN / PARSING Tahap tokenizing disebut juga sebagai parsing Yaitu pengambilan kata-kata (term) dari kumpulan dokumen menjadi kumpulan term dengan cara menghapus karakter tanda baca yang terdapat pada dokumen dan mengubah kumpulan term menjadi lowercase. STOPWORD REMOVAL / FILTERING Tahap Stopword Removal atau Filtering adalah Proses penghapusan atau pembuangan kata-kata yang sering ditampilkan dalam dokumen seperti: and, or, not, tetapi, yang, sedangkan dan sebagainya. Atau merupakan tahap pengambilan kata-kata penting dari hasi token

6 Tahap-tahap indexing cont.
STEMMING Proses stemming adalah proses pembuangan prefix dan sufix suatu kata bentukan menjadi kata dasar. Proses stemming dilakukan untuk mendapatkan  hasil peringkat halaman informasi yang relevan. Inversed Document Frequency ) Metode TF/IDF adalah merupakan suatu metode pembobotan dalam bentuk sebuah metode yang merupakan integrasi antar term frequency dan inverse document frequency.

7 Perengkingan relevansi keyword query
Adalah pengurutan dokumen-dokumen yang diterima yang (sangat diharapkan) mencerminkan relevansi dari dokumen tersebut dengan query pengguna. Ranking didasarkan pada pemikiran fundamental mengenai relevansi, seperti : Himpunan index term Pemakaian term-term terbobot Kemungkinan relevansin query pengguna Setiap himpunan dari pemikiran mengarahkan ke suatu model Information Retrieval tertentu

8 Model-model dalam Information Retrieval
Model Klasik Model Boolean Model Vector Space Model Probabilistic Model Terstruktur Non Overlapping List Proximal Nodes

9 Model Boolean Merupakan model sistem temu kembali informasi sederhana yang berdasarkan atas teori himpunan dan aljabar boolean Keuntungan : Implementasi mudah dan sederhana Query mudah disusun dan dimengerti Operator AND, OR, NOT sesuai dengan bahasa alami Kelemahan : Tidak ada peringkat dokumen sesuai dengan query yang diberikan Exact matching Repot unutk query yang kompleks Representasi: himpunan index term Model alternatif : Fuzzy, Extended Boolean

10 Model Vector Space Merupakan model sistem temu kembali informasi yang merepresentasikan dokumen dan query dalam bentuk vektor dimensional Kelebihan Vector Space Model (VSM) Adanya peringkat pengambilan informasi Menampilkan referensi yang sesuai kebutuhan Penyocokan secara partial. Kekurangan Vector Space Model (VSM) Menganggap informasi adalah independen Bobot pemahaman(istilah) tidak lagi diperlukan. Representasi: vector dalam ruang t-dimensi Model alternatif: Generalized VS, Latent Semantic Indexing, Neural network

11 Model Probabilistic Model Probabilitas didasarkan pada Prinsip Ranking Probabilitas, yang menyatakan bahwa sistem pencarian informasi yang seharusnya berdasarkan peringkat probabilitas dokumen mereka yang relevan dengan query, mengingat semua bukti yang tersedia Representasi : Berpijak pada teori peluang Model alternatif : Inference network, Belief network

12 Model Non Overlapping List & Proximal Nodes
Non Overlapping List Adalah model yang membagi teks ke dalam regional teks nonoverlapping yang dihimpun dalam lists (list of chapters, list of all sections, …) Sedangkan Proximal Nodes adalah model yang mengatur list non-overlapping ke dalam suatu hirarki dan menggunakan struktur indeks yang memiliki hirarki independen (non- flet) terhadap sebuah dokumen.

13 Model Adalah model yang mengatur list non-overlapping ke dalam suatu hirarki Adalah model ini menggunakan struktur indeks yang memiliki hirarki independen (non-flet) terhadap sebuah dokumen.

14 Sumber Referensi temu-kembali-informasi informasi.html/ web.ipb.ac.id/~julio/webaku/isi/kom431/slide/04-model.pdf halaman 11


Download ppt "Anggota Kelompok : Kurniawan Novi Pambudi"

Presentasi serupa


Iklan oleh Google