METODE DAN MODEL TEMU BALIK INFORMASI Luthfi Nurrohman ( )

Slides:



Advertisements
Presentasi serupa
Konsep Dasar Sistem Temu Kembali Informasi
Advertisements

Praktikum Sistem Temu Balik Informasi
ORGANISASI INFORMASI Sistem Temu Kembali Informasi
StopList dan Stemming yasmi afrizal
Model Temu-Balik Informasi
Konsep Dasar Sistem Temu Kembali Informasi
Ranked Retrieval Pencarian Boolean Menghasilkan sekumpulan dokumen yang cocok dengan query, yang tidak cocok tidak muncul Pada kasus.
PENGANTAR ORGANISASI INFORMASI Sistem Temu Kembali Informasi (Information Retrieval System) Modul 11 Muslech, Dipl.Lib, MSi 3 Desember 2012.
Pengenalan Database Local e-Content Pertemuan 8
Pertemuan ke-2 Model dalam sistem temu kembali informasi yasmi afrizal
FUZZY INFORMATION RETRIEVAL
Information Retrieval
Gambar Kerangka dari sistem temu-kembali informasi sederhana
Latent Semantic Indexing
Temu Balik Informasi Pertemuan Ke – 12 Presentasi Final Project
Final Project Temu Balik Informasi
KONSEP, MACAM, DAN ALGORITMA THESAURUS DALAM TEMU BALIK INFORMASI
MATERI PROJECT TI 2014 B Taufik Ari Arnandan ( )
Review Jurnal Nasional
ALGORITMA STEMMING DAN STOPLIST
Temu Balik Informasi Materi Pertemuan Ke – 1 Materi Dasar TBI
Temu Balik Informasi BY : Taufik Ari Arnandan ( )
Anggota Kelompok Dian Santosa (KETUA)
TEMU BALIK INFORMASI.
Pertemuan 7 : Latent Semantic Indexing
Temu Balik Informasi Materi Pertemuan Ke – 7 Konsep dan Prinsip Serta Algoritma Latent Semantic Indexing Anggota : Nama Nim Wahyu Septi Anjar
Anggota Kelompok Ikhsan Fauji Irna Oktaviasari Erip Marliana
SEARCH ENGINE.
Konsep dan Model-model Sistem Temu Balik Informasi
Konsep dan model temu balik informasi
Sistem Temu Kembali Informasi
Implementasi vector space model untuk pencarian dokumen
Natural Language Processing (NLP)
Konsep, Metode dan Model Temu Kembali Informasi
Konsep, Metode dan Model dalam Temu Balik Informasi
Latent Semantic Indexing (LSI)
Review Jurnal Internasional
EFEKTIFITAS SELEKSI FITUR DALAM SISTEM TEMU-KEMBALI INFORMASI
Anggota Kelompok : Kurniawan Novi Pambudi
Review Jurnal Temu Balik Informasi
STOPLIST DAN STEEMING Temu Balik Informasi.
TEMU KEMBALI INFORMASI
Document Indexing dan Term Weighting
Temu balik informasi Anggota Kelompok Ikhsan Fauji
FINAL PROJECT TEMU BALIK INFORMASI
TEMU BALIK INFORMASI TI 14 A.
Ketua Kelompok Dian Restiani Anggota : Wahyu Septi Anjar
TUJUAN (1) Mahasiswa dapat menjelaskan Ilmu Pengolahan Text dan Informasi. (C2) Mahasiswa dapat menjelaskan Model-model Sistem Temu Balik Informasi. (C2)
Sistem temu balik multimedia
StopList dan Stemming yasmi afrizal
TEMU BALIK INFORMASI CONCEPT, PRINCIPLE & ALGORITHMS OF
Temu Balik Informasi Persentasi Final Project
PENYIMPANAN DAN PENGAMBILAN DATA MULTIMEDIA (LANJUTAN) .
Review Information Retrieval Techniques and Applications
DOKUMENTASI DAN KEARSIPAN KELAS A Sistem Temu Kembali Informasi
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Temu Balik Informasi Anggota Kelomopok :
Sistem TEMU KEMBALI INFORMASI
PEMROGRAMAN I Semester I 2017/2018
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Pengenalan Temu Balik Informasi.
Nugraha Iman Santosa ( )
Model Boolean & Advanced Boolean
SEARCH ENGINE.
Model Boolean dan Advanced Boolean
Prinsip Dan Proses Temu Balik Informasi Model Boolean
Model Probabilistic.
“MODEL BOOLEAN DAN ADVANCED BOOLEAN”
MODEL probabilistik KELOMPOK 6.
Transcript presentasi:

METODE DAN MODEL TEMU BALIK INFORMASI Luthfi Nurrohman (14.11.0102) Taufik Ari Arnandan (14.11.0110) Achmar Rizqi Pambudi (14.11.0101) Slamet Imam Fauzi (14.11.0112) Sandi Pradana Yuwandani (14.11.0104) Amar Aditya Nugroho (14.11.0109) Ivan Ti Kuncoro (14.11.0111)

Temu balik informasi & penelusuran informasi Temu balik informasi merupakan istilah generic yang mengacu pada temu balik dokumen atau sumber atau data dari fakta yang dimiliki unit informasi atau perpustakan. Sedangkan penelusuran informasi merupakan bagian dari sebuah proses temu kembali informasi yang dilakukan untuk memenuhi kebutuhan pemakai akan informasi yang dibutuhkan, dengan bantuan berbagai alat penelusuran dan temu kembali informasi yang dimiliki perpustakaan / unit informasi.

Inti dari kajian-kajian bidang Ilmu Informasi adalah temu kembali informasi (Jarvelin dan Vakary, 1992). Menurut Belkin (1985) titik perhatian atau fokus dalam kajian tentang temu kembali informasi ada lima, yaitu : Perpindahan informasi dalam sistem komunikasi Pemikiran tentang informasi yang diinginkan Efektifitas sistem dan perpindahan informasi Hubungan antara informasi dengan penciptanya Hubungan antara informasi dengan pemakai;

Konsep dasar Konsep dasar dari IR adalah :     Indexing     Searching     Perengkingan relevansi  keyword query

Konsep Sistem TBI Penulis mempresentasikan sekumpulan ide dalam sebuah dokumen menggunakan sekumpulan konsep. Terdapat beberapa pengguna yang memerlukan ide yang dikemukakan oleh penulis tersebut, tapi mereka tidak dapat mengidentifikasikan dan menemukannya dengan baik. Sistem temu kembali informasi bertujuan untuk mempertemukan ide yang dikemukakan oleh penulis dalam dokumen dengan kebutuhan informasi pengguna yang dinyatakan dalam bentuk pertanyaan (query).

Konsep dasar dalam Information Retrieval System terdiri dari Indexing, Searching dan perengkingan relevansi keyword query. proses indexing dilakukan untuk membentuk database index terhadap koleksi dokumen yang dimasukkan, atau dengan kata lain, indexing merupakan proses persiapan yang dilakukan terhadap dokumen sehingga dokumen siap untuk retrive. Proses indexing sendiri meliputi 2 proses, yaitu dokukmen indexing dan term indexing. Dari term indexing akan dihasilkan koleksi kata yang akan digunakan untuk meningkatkan performansi pencarian pada tahap selanjutnya.

Tahap-tahap dalam proses indexing ialah:     Word Token / Parsing     Stopword Removal / filtering     Stemming     TF/IDF ( Term Frequency – Inversed Document Frequency )

WORD  TOKEN / PARSING Tahap tokenizing disebut juga sebagai parsing Yaitu pengambilan kata-kata (term) dari kumpulan dokumen menjadi kumpulan term dengan cara menghapus karakter tanda baca yang terdapat pada dokumen dan mengubah kumpulan term menjadi lowercas. STOPWORD REMOVAL / FILTERING Tahap Stopword Removal atau Filtering adalah Proses penghapusan atau pembuangan kata- kata yang sering ditampilkan dalam dokumen seperti: and, or, not, tetapi, yang, sedangkan dan sebagainya.

STEMMING Proses stemming adalah proses pembuangan prefix dan sufix suatu kata bentukan menjadi kata dasar. Proses stemming dilakukan untuk mendapat-kan  hasil peringkat halaman informasi yang relevan. TF/IDF ( Term Frequency – Inversed Document Frequency ) Metode TF/IDF adalah merupakan suatu metode pembobotan dalam bentuk sebuah metode yang merupakan integrasi antar term frequency dan inverse document frequency.

Dalam mencari sumber informasi yang sangat luas dan tidak terbatas dalam Internet adalah dengan browsing yaitu berselancar untuk menjelajahi informasi yang ada di internet. Berselancar ini bisa dilakukan dengan sebuah program yang disebut browser, software untuk berselancar Dalam perpustakaan digital sudah ada petunjuk-petunjuk untuk search yaitu cara untuk mempermudah pengguna dalam melakukan pencarian suatu di internet10, suatu perpustakaan digital akan berusaha semaksimal mungkin untuk memberikan kemudahan bagi pengguna dalam mencari informasi yang diperlukan.

Model Information Retrieval adalah model yang digunakan untuk melakukan pencocokan antara term-term dari query dengan term- term dalam document collection, Model yang terdapat dalam Information retrieval terbagi dalam 3 model besar, yaitu [3] : Set-theoritic models, model merepresentasikan dokumen sebagai himpunan kata atau frase. Contoh model ini ialah standard Boolean model dan extended Boolean model. Algebratic model, model merepresentasikan dokumen dan query sebagai vektor atau matriks similarityantara vektor dokumen dan vektor query yang direpresentasikan sebagai sebuah nilai skalar. Contoh model ini ialah vektor space model (model ruang vektor) danlatent semantic indexing (LSI). Probabilistic model, model memperlakukan proses pengambilan dokumen sebagai sebuah probabilistic inference. Contoh model ini ialah penerapan teorema bayes dalam model probabilistik.

User task User task merupakan perilaku pengguna apa yang harus dilakukan pengguna kalau ingin mencari sesuatu informasi yang nantinya diterjemahkan oleh mesin, sedangkan logical view of the document adalah cara memandang dokumen sebagai sesuatu yang dapat diwakili oleh serangkaian indeks atau kata kunci baik secara otomatis dilakukan oleh komputer maupun yang dibuat oleh manusia. Perkembangan IR dari sisi user task sampai saat ini terbatas pada dua jenis yaitu:

1. Model Klasik Boolean ketikan mencari infrmasi hanya menggunakan dua ukuran yaitu relevan dan tidak relevan Vector mencoba memberbaiki kelemahan boolean tidak hanya memutuskan dokumen relevan atau tidak relevan sistemkomputer misalnya dapat menawarkan dokumen yang bernilai 10 (paling relevan), 5 (agak relevan), 1 (tidak relevan) Probabilistik sistem yang memakai model ini dikenal juga sebagai binary independence retrieval (BIR) memakai prinsip probabilitas (kemungkinan) karena proses meminta dan mencari informasi querying dilihat sebagai sebuah proses yang tidak sekali jalan.

2. Model Terstruktur pencarian informasi dapat dilakukan dengan merujuk ke struktur dokumennya yang memiliki dua kemungkinan yaitu: Non –overlapping list yaitu sistem yang menggunakan model ini akan membagi-bagi dokumen sebagai wilayah teks tertentu misalnya dengan mengikuti stuktur dokumen (bab, sub-bab, judul, sub-judul, gambar, foto, tabel dan seterusnya) kemudian untuk masing-masing wilayah ini dilakukan pengindeksan yang tidak saling menindih (non overlapping) Proximal nodes. Model IR ini menggunakan beberapa struktur indeks yang memiliki hirarki independen terhapap sebuah dokumen. Masing-masing dari indeks ini merujuk ke struktur dokumen (bab, sub-bab, judul, sub judul, gambar, foto tabel dan seterusnya)yang dinamakan nodes. Pada masing-masing node inilah ada rujukan ke bagian dari dokumen yang mengandung teks tertentu.

Model Boolean Model Boolean dalam sistem temu kembali merupakan model yang paling sederhana. Model ini berdasarkan teori himpunan dan aljabar Boolean. Dokumen adalah himpunan dari istilah (term) dan kueri adalah pernyataan Boolean yang ditulis pada term. Dokumen diprediksi apakah relevan atau tidak. Model ini menggunakan operator boolean. Istilah (term) dalam sebuah kueri dihubungkan dengan menggunakan operator AND, OR atau NOT. Metode ini merupakan metode yang paling sering digunakan pada`mesin penelusur (search engine) karena kecepatannya.

Keuntungan menggunakan model Boolean : Model Boolean merupakan model sederhana yang menggunakan teori dasar himpunan sehingga mudah diimplementasikan. Model Boolean dapat diperluas dengan menggunakan proximity operator dan wildcard operator. Adanya pertimbangan biaya untuk mengubah software dan struktur database, terutama pada sistem komersil.     

Kekurangan menggunakan Model boolean : Model Boolean tidak menggunakan peringkat  dokumen yang terambil. Dokumen yang terambil hanya dokumen yang benar-benar sesuai dengan pernyataan boolean/kueri yang diberikan Sehingga dokumen yang terambil bisa sangat banyak atau bisa sedikit. Akibatnya ada kesulitan dalam mengambil keputusan. Teori himpunan memang mudah, namun tidak demikian halnya dengan pernyataan Boolean yang bisa kompleks. Akibatnya pengguna harus memiliki pengetahuan banyak mengenai kueri dengan boolean agar pencarian menjadi efisien. Tidak bisa menyelesaikan partial matching pada kueri

Model Vektor  Beberapa karakteristik dari Model vektor dalam sistem temu kembali adalah Model vektor berdasarkan keyterm Model vektor mendukung partial matching dan penentuan peringkat dokumen Prinsip dasar vektor model adalah sebagaii berikut : dokumen direpresentasikan dengan menggunkan vektor keyterm Ruang dimensi ditentukan oleh keyterms Kueri direpresentasikan dengan menggunakan vektor keyterm Kesamaan document-keyterm dihitung berdasarkan jarak vektor

Model Probabilistic Karakteristik model probabilistik dalam sistem temu kembali adalah sebagai berikut : Melakukan pendugaan page relevansi dengan menggunakan probabilistik Mempunyai teoritical framework yang jelas Berdasarkan prinsip statistik Relevansi dokumen dapat diupdate Adanya feed back dari user Ide dasar Query dapat menghasilkan jawaban yang benar Menggunkan indeks term Menggunakan pendugaan awal Menggunakan initial hasil Feed back dari user dapat memperbaiki probabilitas dari relavansi.

http://informationretrievalsystem. blogspot. co http://informationretrievalsystem.blogspot.co.id/2012/07/sistem-temu- kembali-informasi.html http://zero-fisip.web.unair.ac.id/artikel_detail-68838-Digilib- Digilib:%20Sistem%20Temu%20Kembali%20Informasi.html