METODE DAN MODEL TEMU BALIK INFORMASI Luthfi Nurrohman ( )

METODE DAN MODEL TEMU BALIK INFORMASI Luthfi Nurrohman ( ) Taufik Ari Arnandan ( ) Achmar Rizqi Pambudi ( ) Slamet Imam Fauzi ( ) Sandi Pradana Yuwandani ( ) Amar Aditya Nugroho ( ) Ivan Ti Kuncoro ( )

Temu balik informasi & penelusuran informasi
Temu balik informasi merupakan istilah generic yang mengacu pada temu balik dokumen atau sumber atau data dari fakta yang dimiliki unit informasi atau perpustakan. Sedangkan penelusuran informasi merupakan bagian dari sebuah proses temu kembali informasi yang dilakukan untuk memenuhi kebutuhan pemakai akan informasi yang dibutuhkan, dengan bantuan berbagai alat penelusuran dan temu kembali informasi yang dimiliki perpustakaan / unit informasi.

Inti dari kajian-kajian bidang Ilmu Informasi adalah temu kembali informasi (Jarvelin dan Vakary, 1992). Menurut Belkin (1985) titik perhatian atau fokus dalam kajian tentang temu kembali informasi ada lima, yaitu : Perpindahan informasi dalam sistem komunikasi Pemikiran tentang informasi yang diinginkan Efektifitas sistem dan perpindahan informasi Hubungan antara informasi dengan penciptanya Hubungan antara informasi dengan pemakai;

Konsep dasar Konsep dasar dari IR adalah : Indexing Searching Perengkingan relevansi keyword query

Konsep Sistem TBI Penulis mempresentasikan sekumpulan ide dalam sebuah dokumen menggunakan sekumpulan konsep. Terdapat beberapa pengguna yang memerlukan ide yang dikemukakan oleh penulis tersebut, tapi mereka tidak dapat mengidentifikasikan dan menemukannya dengan baik. Sistem temu kembali informasi bertujuan untuk mempertemukan ide yang dikemukakan oleh penulis dalam dokumen dengan kebutuhan informasi pengguna yang dinyatakan dalam bentuk pertanyaan (query).

Konsep dasar dalam Information Retrieval System terdiri dari Indexing, Searching dan perengkingan relevansi keyword query. proses indexing dilakukan untuk membentuk database index terhadap koleksi dokumen yang dimasukkan, atau dengan kata lain, indexing merupakan proses persiapan yang dilakukan terhadap dokumen sehingga dokumen siap untuk retrive. Proses indexing sendiri meliputi 2 proses, yaitu dokukmen indexing dan term indexing. Dari term indexing akan dihasilkan koleksi kata yang akan digunakan untuk meningkatkan performansi pencarian pada tahap selanjutnya.

Tahap-tahap dalam proses indexing ialah: Word Token / Parsing Stopword Removal / filtering Stemming TF/IDF ( Term Frequency – Inversed Document Frequency )

WORD TOKEN / PARSING Tahap tokenizing disebut juga sebagai parsing Yaitu pengambilan kata-kata (term) dari kumpulan dokumen menjadi kumpulan term dengan cara menghapus karakter tanda baca yang terdapat pada dokumen dan mengubah kumpulan term menjadi lowercas. STOPWORD REMOVAL / FILTERING Tahap Stopword Removal atau Filtering adalah Proses penghapusan atau pembuangan kata- kata yang sering ditampilkan dalam dokumen seperti: and, or, not, tetapi, yang, sedangkan dan sebagainya.

STEMMING Proses stemming adalah proses pembuangan prefix dan sufix suatu kata bentukan menjadi kata dasar. Proses stemming dilakukan untuk mendapat-kan hasil peringkat halaman informasi yang relevan. TF/IDF ( Term Frequency – Inversed Document Frequency ) Metode TF/IDF adalah merupakan suatu metode pembobotan dalam bentuk sebuah metode yang merupakan integrasi antar term frequency dan inverse document frequency.

Dalam mencari sumber informasi yang sangat luas dan tidak terbatas dalam Internet adalah dengan browsing yaitu berselancar untuk menjelajahi informasi yang ada di internet. Berselancar ini bisa dilakukan dengan sebuah program yang disebut browser, software untuk berselancar Dalam perpustakaan digital sudah ada petunjuk-petunjuk untuk search yaitu cara untuk mempermudah pengguna dalam melakukan pencarian suatu di internet10, suatu perpustakaan digital akan berusaha semaksimal mungkin untuk memberikan kemudahan bagi pengguna dalam mencari informasi yang diperlukan.

Model Information Retrieval
adalah model yang digunakan untuk melakukan pencocokan antara term-term dari query dengan term- term dalam document collection, Model yang terdapat dalam Information retrieval terbagi dalam 3 model besar, yaitu [3] : Set-theoritic models, model merepresentasikan dokumen sebagai himpunan kata atau frase. Contoh model ini ialah standard Boolean model dan extended Boolean model. Algebratic model, model merepresentasikan dokumen dan query sebagai vektor atau matriks similarityantara vektor dokumen dan vektor query yang direpresentasikan sebagai sebuah nilai skalar. Contoh model ini ialah vektor space model (model ruang vektor) danlatent semantic indexing (LSI). Probabilistic model, model memperlakukan proses pengambilan dokumen sebagai sebuah probabilistic inference. Contoh model ini ialah penerapan teorema bayes dalam model probabilistik.

User task User task merupakan perilaku pengguna apa yang harus dilakukan pengguna kalau ingin mencari sesuatu informasi yang nantinya diterjemahkan oleh mesin, sedangkan logical view of the document adalah cara memandang dokumen sebagai sesuatu yang dapat diwakili oleh serangkaian indeks atau kata kunci baik secara otomatis dilakukan oleh komputer maupun yang dibuat oleh manusia. Perkembangan IR dari sisi user task sampai saat ini terbatas pada dua jenis yaitu:

1. Model Klasik Boolean ketikan mencari infrmasi hanya menggunakan dua ukuran yaitu relevan dan tidak relevan Vector mencoba memberbaiki kelemahan boolean tidak hanya memutuskan dokumen relevan atau tidak relevan sistemkomputer misalnya dapat menawarkan dokumen yang bernilai 10 (paling relevan), 5 (agak relevan), 1 (tidak relevan) Probabilistik sistem yang memakai model ini dikenal juga sebagai binary independence retrieval (BIR) memakai prinsip probabilitas (kemungkinan) karena proses meminta dan mencari informasi querying dilihat sebagai sebuah proses yang tidak sekali jalan.

2. Model Terstruktur pencarian informasi dapat dilakukan dengan merujuk ke struktur dokumennya yang memiliki dua kemungkinan yaitu: Non –overlapping list yaitu sistem yang menggunakan model ini akan membagi-bagi dokumen sebagai wilayah teks tertentu misalnya dengan mengikuti stuktur dokumen (bab, sub-bab, judul, sub-judul, gambar, foto, tabel dan seterusnya) kemudian untuk masing-masing wilayah ini dilakukan pengindeksan yang tidak saling menindih (non overlapping) Proximal nodes. Model IR ini menggunakan beberapa struktur indeks yang memiliki hirarki independen terhapap sebuah dokumen. Masing-masing dari indeks ini merujuk ke struktur dokumen (bab, sub-bab, judul, sub judul, gambar, foto tabel dan seterusnya)yang dinamakan nodes. Pada masing-masing node inilah ada rujukan ke bagian dari dokumen yang mengandung teks tertentu.

Model Boolean Model Boolean dalam sistem temu kembali merupakan model yang paling sederhana. Model ini berdasarkan teori himpunan dan aljabar Boolean. Dokumen adalah himpunan dari istilah (term) dan kueri adalah pernyataan Boolean yang ditulis pada term. Dokumen diprediksi apakah relevan atau tidak. Model ini menggunakan operator boolean. Istilah (term) dalam sebuah kueri dihubungkan dengan menggunakan operator AND, OR atau NOT. Metode ini merupakan metode yang paling sering digunakan pada`mesin penelusur (search engine) karena kecepatannya.

Keuntungan menggunakan model Boolean :
Model Boolean merupakan model sederhana yang menggunakan teori dasar himpunan sehingga mudah diimplementasikan. Model Boolean dapat diperluas dengan menggunakan proximity operator dan wildcard operator. Adanya pertimbangan biaya untuk mengubah software dan struktur database, terutama pada sistem komersil.

Kekurangan menggunakan Model boolean :
Model Boolean tidak menggunakan peringkat dokumen yang terambil. Dokumen yang terambil hanya dokumen yang benar-benar sesuai dengan pernyataan boolean/kueri yang diberikan Sehingga dokumen yang terambil bisa sangat banyak atau bisa sedikit. Akibatnya ada kesulitan dalam mengambil keputusan. Teori himpunan memang mudah, namun tidak demikian halnya dengan pernyataan Boolean yang bisa kompleks. Akibatnya pengguna harus memiliki pengetahuan banyak mengenai kueri dengan boolean agar pencarian menjadi efisien. Tidak bisa menyelesaikan partial matching pada kueri

Model Vektor Beberapa karakteristik dari Model vektor dalam sistem temu kembali adalah Model vektor berdasarkan keyterm Model vektor mendukung partial matching dan penentuan peringkat dokumen Prinsip dasar vektor model adalah sebagaii berikut : dokumen direpresentasikan dengan menggunkan vektor keyterm Ruang dimensi ditentukan oleh keyterms Kueri direpresentasikan dengan menggunakan vektor keyterm Kesamaan document-keyterm dihitung berdasarkan jarak vektor

Model Probabilistic Karakteristik model probabilistik dalam sistem temu kembali adalah sebagai berikut : Melakukan pendugaan page relevansi dengan menggunakan probabilistik Mempunyai teoritical framework yang jelas Berdasarkan prinsip statistik Relevansi dokumen dapat diupdate Adanya feed back dari user Ide dasar Query dapat menghasilkan jawaban yang benar Menggunkan indeks term Menggunakan pendugaan awal Menggunakan initial hasil Feed back dari user dapat memperbaiki probabilitas dari relavansi.

http://informationretrievalsystem. blogspot. co
kembali-informasi.html Digilib:%20Sistem%20Temu%20Kembali%20Informasi.html

METODE DAN MODEL TEMU BALIK INFORMASI Luthfi Nurrohman ( )

Presentasi serupa

Presentasi berjudul: "METODE DAN MODEL TEMU BALIK INFORMASI Luthfi Nurrohman ( )"— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan

Masuk

Otorisasi melalui jaringan sosial:

METODE DAN MODEL TEMU BALIK INFORMASI Luthfi Nurrohman ( )

Presentasi serupa

Presentasi berjudul: "METODE DAN MODEL TEMU BALIK INFORMASI Luthfi Nurrohman ( )"— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan