Anggota Kelompok : Kurniawan Novi Pambudi 14.11.0161 Hijriah Fajar Muhammad Insan 14.11.0162 Raditya Tri Wibowo 14.11.0164 Mei Susanto 14.11.0165 Anggrean Yudistira 14.11.0167 Fanny Tri Pamungkas 14.11.0168 Agus Harianto 14.11.0169
Information retrieval (IR) system adalah sistem yang secara otomatis melakukan pencarian atau penemuan kembali informasi yang relevan terhadap kebutuhan pengguna. Kebutuhan pengguna, diekspresikan dalam query, menjadi input bagi IR system dan selanjutnya IR system mencari dan menampilkan dokumen yang relevan dengan query tersebut. Salah satu metode mencari atau menemukan kembali informasi yang relevan dengan query
Konsep Information retrieval Indexing Searching Perengkingan relevansi keyword query
Indexing Indexing Berfungsi menghasilkan database index. Merupakan proses persiapan sehingga dokumen siap untuk di retrive. Tahap-tahap dalam proses indexing ialah: Word Token / Parsing Stopword Removal / filtering Stemming TF/IDF ( Term Frequency – Inversed Document Frequency )
Tahap-tahap indexing WORD TOKEN / PARSING Tahap tokenizing disebut juga sebagai parsing Yaitu pengambilan kata-kata (term) dari kumpulan dokumen menjadi kumpulan term dengan cara menghapus karakter tanda baca yang terdapat pada dokumen dan mengubah kumpulan term menjadi lowercase. STOPWORD REMOVAL / FILTERING Tahap Stopword Removal atau Filtering adalah Proses penghapusan atau pembuangan kata-kata yang sering ditampilkan dalam dokumen seperti: and, or, not, tetapi, yang, sedangkan dan sebagainya. Atau merupakan tahap pengambilan kata-kata penting dari hasi token
Tahap-tahap indexing cont. STEMMING Proses stemming adalah proses pembuangan prefix dan sufix suatu kata bentukan menjadi kata dasar. Proses stemming dilakukan untuk mendapatkan hasil peringkat halaman informasi yang relevan. Inversed Document Frequency ) Metode TF/IDF adalah merupakan suatu metode pembobotan dalam bentuk sebuah metode yang merupakan integrasi antar term frequency dan inverse document frequency.
Perengkingan relevansi keyword query Adalah pengurutan dokumen-dokumen yang diterima yang (sangat diharapkan) mencerminkan relevansi dari dokumen tersebut dengan query pengguna. Ranking didasarkan pada pemikiran fundamental mengenai relevansi, seperti : Himpunan index term Pemakaian term-term terbobot Kemungkinan relevansin query pengguna Setiap himpunan dari pemikiran mengarahkan ke suatu model Information Retrieval tertentu
Model-model dalam Information Retrieval Model Klasik Model Boolean Model Vector Space Model Probabilistic Model Terstruktur Non Overlapping List Proximal Nodes
Model Boolean Merupakan model sistem temu kembali informasi sederhana yang berdasarkan atas teori himpunan dan aljabar boolean Keuntungan : Implementasi mudah dan sederhana Query mudah disusun dan dimengerti Operator AND, OR, NOT sesuai dengan bahasa alami Kelemahan : Tidak ada peringkat dokumen sesuai dengan query yang diberikan Exact matching Repot unutk query yang kompleks Representasi: himpunan index term Model alternatif : Fuzzy, Extended Boolean
Model Vector Space Merupakan model sistem temu kembali informasi yang merepresentasikan dokumen dan query dalam bentuk vektor dimensional Kelebihan Vector Space Model (VSM) Adanya peringkat pengambilan informasi Menampilkan referensi yang sesuai kebutuhan Penyocokan secara partial. Kekurangan Vector Space Model (VSM) Menganggap informasi adalah independen Bobot pemahaman(istilah) tidak lagi diperlukan. Representasi: vector dalam ruang t-dimensi Model alternatif: Generalized VS, Latent Semantic Indexing, Neural network
Model Probabilistic Model Probabilitas didasarkan pada Prinsip Ranking Probabilitas, yang menyatakan bahwa sistem pencarian informasi yang seharusnya berdasarkan peringkat probabilitas dokumen mereka yang relevan dengan query, mengingat semua bukti yang tersedia Representasi : Berpijak pada teori peluang Model alternatif : Inference network, Belief network
Model Non Overlapping List & Proximal Nodes Non Overlapping List Adalah model yang membagi teks ke dalam regional teks nonoverlapping yang dihimpun dalam lists (list of chapters, list of all sections, …) Sedangkan Proximal Nodes adalah model yang mengatur list non-overlapping ke dalam suatu hirarki dan menggunakan struktur indeks yang memiliki hirarki independen (non- flet) terhadap sebuah dokumen.
Model Adalah model yang mengatur list non-overlapping ke dalam suatu hirarki Adalah model ini menggunakan struktur indeks yang memiliki hirarki independen (non-flet) terhadap sebuah dokumen.
Sumber Referensi https://donyprisma.wordpress.com/2014/01/02/jenis-fungsi-dan-tujuan-sistem- temu-kembali-informasi http://informationretrievalsystem.blogspot.com/2012/07/sistem-temu-kembali- informasi.html/ web.ipb.ac.id/~julio/webaku/isi/kom431/slide/04-model.pdf http://suyatmobng.blogspot.com/2013/03/metode-cara-kerja-dan-algoritma-ir.html http://dokumen.tips/documents/modul-ii-ir-2010.html halaman 11 http://megaslides.com/doc/270080/term---kungfumas