Pertemuan ke-2 Model dalam sistem temu kembali informasi yasmi afrizal

Slides:



Advertisements
Presentasi serupa
PENGENALAN POLA Dr. Kusrini, M.Kom.
Advertisements

MESIN PENCARI (SEARCH ENGINE)
Konsep Dasar Sistem Temu Kembali Informasi
Praktikum Sistem Temu Balik Informasi
ORGANISASI INFORMASI Sistem Temu Kembali Informasi
StopList dan Stemming yasmi afrizal
Model Temu-Balik Informasi
Sistem Temu-Balik Pengantar Temu-Balik Informasi Pertemuan ke-2
Konsep Dasar Sistem Temu Kembali Informasi
SEARCHING MENU FEATURES IN DIGITAL LIBRARY REFERENSI: 1. 1.__________ Journal Title Searching in Melvyl dari
Ranked Retrieval Pencarian Boolean Menghasilkan sekumpulan dokumen yang cocok dengan query, yang tidak cocok tidak muncul Pada kasus.
Browsing dan Search engine
Searching & Browsing Hapsah.
PENGANTAR ORGANISASI INFORMASI Sistem Temu Kembali Informasi (Information Retrieval System) Modul 11 Muslech, Dipl.Lib, MSi 3 Desember 2012.
di Sistem Temu Balik Informasi (STBI) Syafri Arlis, S.Kom, M.Kom
Pengenalan Database Local e-Content Pertemuan 8
FUZZY INFORMATION RETRIEVAL
Information Retrieval
Alat Bantu Eksplorasi Informasi
Interaksi Manusia dengan Komputer
Gambar Kerangka dari sistem temu-kembali informasi sederhana
Latent Semantic Indexing
Final Project Temu Balik Informasi
Review Jurnal Nasional
Temu Balik Informasi Materi Pertemuan Ke – 1 Materi Dasar TBI
METODE DAN MODEL TEMU BALIK INFORMASI Luthfi Nurrohman ( )
Temu Balik Informasi BY : Taufik Ari Arnandan ( )
Anggota Kelompok Dian Santosa (KETUA)
TEMU BALIK INFORMASI.
Pertemuan 7 : Latent Semantic Indexing
SEARCH ENGINE.
TEMU BALIK INFORMASI ANGGOTA KELOMPOK BAYU ANDRIANTO 21
Konsep dan Model-model Sistem Temu Balik Informasi
Sistem Temu Kembali Informasi Multimedia
Alat Bantu Eksplorasi Informasi
Implementasi vector space model untuk pencarian dokumen
Natural Language Processing (NLP)
TEMU BALIK INFORMASI Multimedia Dalam Temu Balik Informasi.
Konsep, Metode dan Model Temu Kembali Informasi
Latent Semantic Indexing (LSI)
Review Jurnal Internasional
Sistem Temu Balik Informasi Multimedia
EFEKTIFITAS SELEKSI FITUR DALAM SISTEM TEMU-KEMBALI INFORMASI
KONSEP INTERFACE
Anggota Kelompok : Kurniawan Novi Pambudi
MODUL 9 Ekstraksi Fitur Warna
Sistem Temu-Balik Informasi yasmi afrizal
Review Jurnal Temu Balik Informasi
Perkenalan Pertemuan ke-1 Sistem Temu-Balik Informasi.
PENGALAMAN PENGGUNA A. Ridwan Siregar.
TEMU KEMBALI INFORMASI
Temu balik informasi Anggota Kelompok Ikhsan Fauji
Pengenalan Pola Materi 1
TEMU BALIK INFORMASI TI 14 A.
Ketua Kelompok Dian Restiani Anggota : Wahyu Septi Anjar
TUJUAN (1) Mahasiswa dapat menjelaskan Ilmu Pengolahan Text dan Informasi. (C2) Mahasiswa dapat menjelaskan Model-model Sistem Temu Balik Informasi. (C2)
Review Konsep Dasar IRS/ STI
StopList dan Stemming yasmi afrizal
Information Retrieval
Bayu pratama nugroho, s.kom, m.t
DOKUMENTASI DAN KEARSIPAN KELAS A Sistem Temu Kembali Informasi
Sistem TEMU KEMBALI INFORMASI
TEXT OPERATION Muhammad Yusuf Teknik Multimedia dan Jaringan
PENGANTAR REKAYASA PERANGKAT LUNAK
Teknik Informatika Universitas Trunojoyo Semester Genap
Pengenalan Temu Balik Informasi.
M Ali Fauzi Indriati Sigit Adinugroho
Model Boolean & Advanced Boolean
SEARCH ENGINE.
1 Search Engine Sumber : A short and easy search engine tutorial oleh Pandia.
Transcript presentasi:

Pertemuan ke-2 Model dalam sistem temu kembali informasi yasmi afrizal yasmi_afrizal@yahoo.co.id Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Definisi IR Pertemuan ke-2 Pencarian materi (biasanya dokumen) dari sesuatu yang sifatnya tak-terstruktur (unstructured, biasanya teks) untuk memenuhi kebutuhan informasi dari dalam koleksi besar (biasanya disimpan dalam komputer). Representasi, penyimpanan, organisasi, pencarian dan akses ke item informasi untuk memenuhi kebutuhan informasi pengguna. Penekanan pada proses retrieval informasi (bukan data). Karakterisasi kebutuhan informasi tidaklah mudah. Harus ditranslasi ke dalam suatu query terlebih dahulu. Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Motivasi Pertemuan ke-2 Data retrieval – Dokumen mana yang mengandung himpunan keyword? – Semantik didefinisikan dengan baik – Error dari suatu obyek mengakibatkan kegagalan! Information retrieval – Informasi mengenai suatu subyek atau topik – Semantik dapat bersifat lepas (longgar) – Error kecil ditoleransi Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

...Motivasi Pertemuan ke-2 IR di tengah pertunjukan – IR dalam 20 tahun terakhir: • Klasifikasi dan kategorisasi • Sistem dan bahasa • Antarmuka pengguna dan visualisasi – Masih, area dilihat sebagai bidang yang sempit – Web mengubah persepsi ini • Repository pengetahuan universal • Akses universal gratis (biaya rendah) • Volume raksasa dari informasi tanpa editorial board terpusat Meskipun banyak masalah: IR merupakan kunci untuk menemukan solusi! Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Sistem IR Menerima query pengguna yang mewakili kebutuhan informasi Pertemuan ke-2 Sistem IR Menerima query pengguna yang mewakili kebutuhan informasi Mencari dan menginterpretasikan content (isi) dari item-item informasi Membangkitkan suatu ranking yang mencerminkan relevansi terhadap kebutuhan informasi tersebut Ide mengenai relevansi adalah sangat penting Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Kebutuhan IR Pertemuan ke-2 WWW: lebih 25 milyar halaman web, 1.3 milyar gambar dan lebih 1 milyar pesan Usenet yang diindeks pada Google (2006) Berbagai kebutuhan informasi: – Mencari dokumen yang masuk dalam topik tertentu – Mencari suatu informasi spesifik – Mencari jawaban dari suatu pertanyaan – Mencari informasi dalam bahasa berbeda – ... Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Penjualan Software Text Retrieval Pertemuan ke-2 Penjualan Software Text Retrieval Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Information Retrieval (IR) Pertemuan ke-2 Information Retrieval (IR) Secara teknis: indexing (pembuatan index) dan retrieval (pencarian keterangan) dokumen textual. Pencarian halaman pada WWW adalah aplikasi paling “ngetop” saat ini Fokus pertama: meretrieve dokumen- dokumen yang relevan dengan query. Fokus kedua: meretrieve himpunan besar dokumen secara efisien. Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Information vs Data Retrieval Pertemuan ke-2 Information vs Data Retrieval Sistem data retrieval (seperti database) berurusan dengan structured data yang mempunyai semantik terdefinisi dengan baik dan kebutuhan meretrieve hasil yang pasti (exact) Sistem IR berurusan dengan dokumen bahasa alami (natural language) dan error kecil dapat diabaikan. Sistem IR harus menginterpretasikan content kemudian meranking daftar content sesuai dengan tingkat relevansinya. Tujuan: Meretrieve semua dokumen yang relevan sekaligus meretrieve sesedikit mungkin dokumen yang tidak relevan Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Sistem IR Pertemuan ke-2 Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Contoh Sistem IR Pertemuan ke-2 Conventional (katalog perpustakaan) Pencarian dengan kata kunci, judul, penulis, dll. Text-based (Google, Yahoo, ASK). Pencarian dengan kata kunci (keyword). Pencarian terbatas menggunakan query dalam bahasa alami. Multimedia (QBIC, WebSeek, SaFe) Pencarian dengan penampilan visual (bentuk, warna,…) Sistem jawaban pertanyaan (AskJeeves, Answerbus) Pencarian dalam bahasa alami (terbatas) Lainnya: IR lintas-bahasa, music retrieval Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Sistem IR di Web Pertemuan ke-2 Pencarian halaman web http://www.google.com Pencarian gambar http://images.google.com Pencarian isi (content) gambar http://wang.ist.psu.edu/IMAGE/ Pencarian jawaban pertanyaan http://www.askjeeves.com Pencarian musik? Hari-hati, jangan melanggar hukum. Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Relevansi Pertemuan ke-2 Relevansi merupakan suatu judgment (keputusan) subyektif dan dapat didasarkan pada: – topik yang tepat. – waktu (informasi terbaru). – otoritatif (dari suatu sumber terpercaya). – kebutuhan informasi dari pengguna. Kriteria relevansi utama: suatu sistem IR sebaiknya (harus) memenuhi kebutuhan informasi pengguna. Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Pertemuan ke-2 Pencarian Keyword Ide paling sederhana dari relevansi: apakah string query ada di dalam dokumen (kata demi kata, verbatim)? Ide yang lebih fleksibel: Berapa sering kata-kata di dalam query muncul di dalam dokumen, tanpa melihat urutannya (bag of words)? Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Masalah dengan Keyword Pertemuan ke-2 Masalah dengan Keyword Mungkin tidak meretrieve dokumen relevan yang menyertakan synonymous terms. – “restaurant” vs. “café” – “NDHU” vs. “National Dong Hwa University” Mungkin meretrieve dokumen tak-relevan yang menyertakan ambiguous terms. – “bat” (baseball vs. mamalia) – “Apple” (perusahaan vs. buah-buahan) – “bit” (unit data vs. perilaku menggigit) Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Bukan Sekedar Keyword Pertemuan ke-2 Kita akan mendiskusikan dasar-dasar IR berbasis keyword, tetapi… – Fokus pada perluasan dan pengembangan terakhir untuk mendapatkan hasil terbaik. Kita akan membahas dasar-dasar pembangunan sistem IR yang efisien, tetapi… – Fokus pada algoritma dan kemampuan dasar, bukan masalah sistem yang memungkinkan pengembangan ke database ukuran industri. Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

IR Cerdas Pertemuan ke-2 Memanfaatkan pengertian atau makna dari kata yang digunakan. Melibatkan urutan kata di dalam query. Beradaptasi dengan pengguna berdasarkan pada feedback, langsung atau tidak langsung. Memperluas pencarian dengan term terkait. Mengerjakan pemeriksaan ejaaan/perbaikan tanda pengenal otomatis. Memanfaatkan Otoritas dari sumber informasi. Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Pertemuan ke-2 Indeks Sistem IR jarang mencari koleksi dokumen secara langsung. Berdasarkan pada koleksi dokumen, dibangun sebuah index. Pengguna mencari index tersebut. Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Indexing Otomatis Pertemuan ke-2 Tujuan dari automatic indexing adalah membangun index dan meretrieve informasi tanpa intervensi manusia. Ketika informasi yang dicari adalah teks, metode automatic indexing akan sangat efektif. Penelitian automatic indexing fundamental dimulai oleh Gerald Salton, Professor of Computer Science di Cornell & mahasiswa Pasca-Sarjananya (Sistem SMART). Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

IR dari Koleksi Besar Pertemuan ke-2 Information retrieval dari koleksi sangat besar bersandar pada: – Jumlah computer power yang besar untuk mengerjakan algoritma sederhana terhadap jumlah data yang sangat banyak. komputasi kinerja-tinggi – Pemahaman pengguna terhadap informasi dan kemampuan dari sistem. Interaksi manusia - komputer Machine-learning banyak digunakan untuk mendapatkan kinerja terbaik. Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Searching & Browsing Pertemuan ke-2 • Orang dalam perulangan Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

IR dari Koleksi Dokumen Teks Pertemuan ke-2 IR dari Koleksi Dokumen Teks Kategori utama dari metode: – Ranking kemiripan terhadap query (vector space model). – Pencocokan exact (Boolean). – Ranking berdasarkan tingkat kepentingan dokumen (PageRank) – Kombinasi beberapa metode Contoh: Web search engine, seperti Google & Yahoo, menggunakan metode kombinasi, berdasarkan pada pendekatan pertama dan ketiga, dengan kombinasi exact dipilih menggunakan machine learning Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Istilah Penting Pertemuan ke-2 Information retrieval: sub-bidang ilmu komputer yang berurusan dengan penemuan kembali dokumen (khususnya teks) terotomatis berdasarkan pada content dan contextnya. Searching: Pencarian informasi spesifik di dalam badan informasi. Hasilnya adalah sehimpunan hit. Browsing: Eksplorasi tak-terstruktur dari badan informasi. Linking: Berpindah dari satu item ke item lain mengikuti link (sambungan) seperti rujukan (referensi). Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Pertemuan ke-2 ...Istilah Query: Suatu string teks, menggambarkan informasi yang sedang dicari pengguna. Setiap kata dari query dinamakan search term. Query dapat berupa search term tunggal, string dari term, frase atau ekspresi tertentu menggunakan simbol khusus, misalnya regular expression. Pencarian Full text: Metode yang membandingkan query dengan setiap kata di dalam teks, tanpa membedakan fungsi dari berbagai kata. Pencarian Bidang : Metode pencarian pada bidang struktural atau bibliografis spesifik, seperti penulis atau judul. Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Pertemuan ke-2 ...Istilah Corpus: Koleksi dokumen yang diindeks dan dijadikan target pencarian. Daftar kata: Himpunan semua term yang digunakan dalam indeks untuk suatu corpus (dikenal sebagai vocabulary file). Pada pencarian full text, word list adalah semua term di dalam corpus, stop words dihapus. Term- term terkait dikombinasi dengan stemming. Controlled vocabulary: Metode indexing dimana word list bersifat tetap. Term-term dari vocabulary tersebut dipilih untuk mendeskripsikan setiap dokumen. Keyword: Nama untuk term-term dalam word list, terutama dengan controlled vocabulary Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Mengurutan & Ranking Hit Pertemuan ke-2 Mengurutan & Ranking Hit Ketika pengguna men-submit suatu query ke sistem IR, sistem mengembalikan sehimpunan hit. Pada koleksi dokumen besar, himpunan hit akan sangat besar. Nilai untuk pengguna sering tergantung pada urutan hit ditampilkan. Tiga metode utama: – Mengurutkan hit, misal berdasarkan tanggal – Meranking hit berdasarkan kemiripan antara query dan dokumen – Meranking hit berdasarkan kepentingan dari dokumen Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

IR Berbasis Teks Pertemuan ke-2 Sebagian besar metode ranking didasarkan pada model ruang vektor (vector space model). Sebagian besar metode pencocokan (matching) didasarkan ada operator Boolean. Metode Web search mengkombinasikan model ruang vektor dengan ranking berdasarkan pada tingkat kepentingan dokumen. Banyak sistem (dalam praktek) menggabungkan fitur- fitur dari beberapa pendekatan. Pada bentuk dasar, semua pendekatan menganggap kata sebagai token terpisah, dengan usaha minimal untuk memahami kata-kata secara linguistik. Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Frekuensi Kata Pertemuan ke-2 Observasi: Beberapa kata lebih umum daripada yang lain. Statistika: Koleksi sangat besar dari dokumen teks tak-terstruktur mempunyai karakteristik statistik serupa. Statistik ini: – Mempengaruhi efektifitas dan efisiensi dari struktur data yang digunakan untuk mengindeks dokumen – Banyak model retrieval memanfaatkannya Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

...Frekuensi Kata Pertemuan ke-2 Contoh: Contoh berikut ini diambil dari : – Jamie Callan, Characteristics of Text, 1997 – 19 Juta kata sampel – Slide berikut memperlihatkan 50 kata yang paling umum, diranking (r) berdasarkan frekuensinya (f). Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011

Pertemuan ke-2 ...Frekuensi Kata

Distribusi Ranking Frekuensi Pertemuan ke-2 Distribusi Ranking Frekuensi Untuk semua kata di dalam suatu dokumen, untuk setiap kata w – f adalah frekuensi munculnya w – r ranking dari w disusun menurut frekuensi. (kata yang paling umum muncul mempunyai rank =1)

Pertemuan ke-2 Contoh Frekuensi Rank Slide berikut memperlihatkan kata-kata di dalam data Callan yang telah dinormalisasi. Dalam contoh ini: – r adalah ranking dari kata w dalam sampel. – f adalah frekuensi kata w di dalam sampel. – n adalah jumlah total kemunculan kata di dalam sampel.

...Contoh Ranking Frekuensi Pertemuan ke-2 ...Contoh Ranking Frekuensi