Oleh : Rahmat Robi Waliyansyah, M.Kom.

Slides:



Advertisements
Presentasi serupa
Praktikum Sistem Temu Balik Informasi
Advertisements

Ratri Enggar Pawening Materi 4 I NFORMATION R ETRIEVAL.
StopList dan Stemming yasmi afrizal
Model Temu-Balik Informasi
Ranked Retrieval Pencarian Boolean Menghasilkan sekumpulan dokumen yang cocok dengan query, yang tidak cocok tidak muncul Pada kasus.
KELOMPOK 10 PROYEK 5 Formulir Pembelian Buku Web / HTML
Mengidentifikasi Elemen Siklus Pemrosesan Informasi
Pertemuan ke-2 Model dalam sistem temu kembali informasi yasmi afrizal
Gambar Kerangka dari sistem temu-kembali informasi sederhana
Latent Semantic Indexing
Temu Balik Informasi Pertemuan Ke – 12 Presentasi Final Project
Final Project Temu Balik Informasi
Text Pre-Processing M. Ali Fauzi.
MATERI PROJECT TI 2014 B Taufik Ari Arnandan ( )
Review Jurnal Nasional
ALGORITMA STEMMING DAN STOPLIST
PENULISAN LAPORAN TEKNIK (PLT) Pertemuan 6 & 7
METODE DAN MODEL TEMU BALIK INFORMASI Luthfi Nurrohman ( )
Pertemuan 7 : Latent Semantic Indexing
Tujuan: Mahasiswa dapat mengajar huruf Jepang
SEARCH ENGINE.
(konsep, macam-macam, dan algoritma)
Sistem Temu Kembali Informasi
Natural Language Processing (NLP)
TEMU BALIK INFORMASI Konsep Thesaurus Dalam Information Retrival dan Macam-Macam Thesaurus Beserta Algoritmanya TI 14 A STMIK AMIKOM PURWOKERTO 2017.
Konsep, Metode dan Model Temu Kembali Informasi
Konsep, Metode dan Model dalam Temu Balik Informasi
Latent Semantic Indexing (LSI)
Mengelola Desain Tabel
EFEKTIFITAS SELEKSI FITUR DALAM SISTEM TEMU-KEMBALI INFORMASI
Temu Balik Informasi Materi Pertemuan Ke – 3 Stoplist dan Stemming
Anggota Kelompok : Kurniawan Novi Pambudi
PENGINDEKSAN.
MENGELOLA DESAIN TABEL
Stoplist dan Stemming Anggota Kelompok :
STOPLIST DAN STEEMING Temu Balik Informasi.
Text Preprocessing.
SISTEM TEMU KEMBALI INFORMASI
TEMU KEMBALI INFORMASI
Document Indexing dan Term Weighting
VECTOR SPACE MODEL.
Temu balik informasi Anggota Kelompok Ikhsan Fauji
FINAL PROJECT TEMU BALIK INFORMASI
Ketua Kelompok Dian Restiani Anggota : Wahyu Septi Anjar
TEMU BALIK INFORMASI Konsep Thesaurus Dalam Information Retrival dan Macam-Macam Thesaurus Beserta Algoritmanya TI 14 A STMIK AMIKOM PURWOKERTO 2017.
Review Konsep Dasar IRS/ STI
MERANCANG DAN MEMBUAT TABEL
StopList dan Stemming yasmi afrizal
Temu Balik Informasi Persentasi Final Project
Mengelola Desain Tabel
KELOMPOK 10 PROYEK 5 Formulir Pembelian Buku Web / HTML
Flowchart Nori Sahrun, S.Kom., M.Kom.
TEXT OPERATION Muhammad Yusuf Teknik Multimedia dan Jaringan
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Web Search Engine (Mesin Pencari Web)
Teknik Informatika Universitas Trunojoyo Semester Genap
CROSS LANGUAGE INFORMATION RETRIEVAL (CLIR)
Oleh : Rahmat Robi Waliyansyah, M.Kom.
MENGELOLA DESAIN TABEL
MERANCANG DAN MEMBUAT TABEL
M Ali Fauzi Indriati Sigit Adinugroho
Nugraha Iman Santosa ( )
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Pendahuluan Latar Belakang Batasan Masalah Tujuan Penulisan.
Pembobotan Kata (Term Weighting)
Information Retrieval “Document Classification dengan Naive Bayes”
Information Retrieval “Document Preprocessing”
Model Perolehan Informasi
Temu Kembali Informasi
Cross-Language Information Retrieval (CLIR)
Transcript presentasi:

Oleh : Rahmat Robi Waliyansyah, M.Kom. INVERTED INDEX Oleh : Rahmat Robi Waliyansyah, M.Kom.

PENDAHULUAN Di mana Term dihubungkan dengan lokasi document dimana term tersebut berada. Term adalah suatu kata kunci yang dijadikan objek searching. Pada contoh di atas kita menggunakan kata, walaupun terkadang kita harus memanipulasi kata tersebut, misalnya words yang jamak kita konversi menjadi word (kata dasarnya).

Diagram Proses Indexing Dokumen Friends, Romans, countrymen. Tokenizer Token stream Friends Romans Countrymen Linguistic module Modified tokens friend roman countryman Indexer Inverted index friend roman countryman 2 4 13 16 1

Indexing Pengindeksan secara manual (oleh manusia) : Menentukan kata kunci dari suatu dokumen berdasarkan perbendaharaan kata yang ada (controlled vocabulary). Oleh ahli di bidangnya. Lama dan mahal. Pengindeksan secara otomatis Program komputer untuk menentukan kata atau frase tertentu dari teks pada dokumen. Prosesnya cepat.

INDEXING

Tahap Pengindeksan Otomatis Perhatikan struktur dokumen (id, tanggal, author, title, text, dsb) Tokenisasi Buang stopwords [proses pemotongan imbuhan (stemming)] Pembobotan kata Pembuatan indeks

COMPLICATIONS : FORMAT/LANGUAGE Dokumen yang akan diindeks dapat berupa dokumen yang ditulis dalam beberapa bahasa : Sebuah indeks dapat mengandung kata dari beberapa bahasa. Karena sebuah dokumen dapat ditulis dalam beberapa bahasa Contoh: Email dalam bahasa Inggris tetapi attachment dari email adalah dokumen yang ditulis dalam bahasa Jerman Unit dari sebuah dokumen : Sebuah file Sebuah email Sebuah email dengan 5 attachments Sekumpulan files (PPT atau halaman HTML) Nontrivial issues. Requires some design decisions.

Tokenisasi (Tokenization) Sec. 2.2.1 Tokenisasi (Tokenization) Input: “Friends, Romans, Countrymen” Output: Tokens Friends Romans Countrymen Jadi token adalah sederetan karakter (a sequence of characters) dalam dokumen. Setiap token menjadi kandidat dari elemen dalam indeks, tentunya setelah preprocessing.

Tokenisasi: Isu Dalam Bahasa Chinese and Japanese: 莎拉波娃现在居住在美国东南部的佛罗里达。 Not always guaranteed a unique tokenization Further complicated in Japanese: Dates/amounts in multiple formats フォーチュン500社は情報不足のため時間あた$500K(約6,000万円) Katakana Hiragana Kanji Romaji

Tokenisasi : Isu Dalam Bahasa Tulisan Arab ditulis dari kanan ke kiri tetapi untuk angka dibaca dari kiri ke kanan ← → ← → ← start

Kata buangan, daftar kata umum yang mempunyai fungsi tapi tidak mempunyai arti. Contoh : dan, atau, yang. Dari pengalaman, frekuensinya sangat banyak. Timbul masalah, misalkan : - Yang Mulia - Yang Maha Kuasa - Ekspresi DAN bernilai benar jika kedua operand bernilai benar STOPWORDS

STOP WORDS Jumlahnya cukup banyak: ~30% dari semua kata dalam corpus. Hemat indeks dan dapat memperkecil ukuran indeks walaupun dikompres. Query optimisasi menjadi lebih baik.

Normalisasi Kata (terms)/Stemming Proses pembuangan prefiks dan sufiks (secara morfologi) dari suatu kata berimbuhan menjadi kata dasar. Contoh : menyelesaikan => selesai (stem). Stemming dilakukan atas dasar asumsi bahwa kata-kata yang memiliki stem yang sama memiliki makna yang serupa pula.

Tujuan Stemming Efisiensi, mengurangi jumlah kata-kata unik dalam indeks sehingga mengurangi kebutuhan ruang penyimpanan untuk indeks dan mempercepat proses pencarian. Efektivitas, meningkatkan dokumen yang ditemu-kembalikan (recall) dengan mengurangi varian kata menjadi bentuk kata dasarnya (stem).

Masalah pada stemming Understemming Jumlah kata/imbuhan yang dipotong terlalu sedikit Misal: ”pengorbanan” menjadi ”korbanan” Overstemming Jumlah kata/imbuhan yang dipotong terlalu banyak Misal: ”mencapai” menjadi ”capa”

Teknik stemming dapat dikategorikan menjadi tiga jenis : Berdasarkan aturan sesuai bahasa tertentu. Berdasarkan kemunculan bersama. Berdasarkan kamus. Teknik Stemming

TEKNIK STEMMING Periksa semua kemungkinan bentuk kata: “prefiks1+prefiks2+KATADASAR+sufiks3+sufiks2+sufiks1” Lakukan pemotongan berurutan : prefiks1, prefiks2, sufiks1, sufiks2, sufiks3 (kalau ada), dan KATADASAR. Setiap tahap pemotongan diikuti dengan pemeriksaan di kamus kata dasar. Jika ada maka proses dinyatakan selesai. Contoh : “kata mempermainkannya” Jika sampai pada pemotongan sufiks3 masih belum ada di kamus, maka dilakukan proses kombinasi.

Sifat Khusus Dilebur jika huruf kedua kata dasar adalah huruf vokal. Contoh: me- + tipu → menipu, me- + sapu → menyapu, me- + kira → mengira. Tidak dilebur jika huruf kedua kata dasar adalah huruf konsonan. Contoh: me- + klarifikasi → mengklarifikasi. Tidak dilebur jika kata dasar merupakan kata asing yang belum diserap secara sempurna. Contoh : me- + konversi → mengkonversi.

INTERSELEKSI POSTING LIST

Pembobotan Perlunya suatu kata diberi bobot Makin sering suatu kata muncul pada suatu dokumen, maka diduga semakin penting kata itu untuk dokumen tsb. Beberapa pendekatan: Tf tf.idf BM25 dsb.

TERM FREQUENCY (TF) Frekuensi kemunculan suatu term t pada dokumen d => tft,d

Term frequency (tf) Mana yang lebih memberikan informasi sebagai penciri dari suatu dokumen? (kasus pada dok-1). Kata komputer yang muncul sebanyak 10 kali Kata yang yang muncul sebanyak 35 kali Kata dari yang muncul sebanyak 20 kali

DOCUMENT FREQUENCY (DF) Banyaknya dokumen di dalam koleksi yang mengandung kata tertentu.

INVERSE DOCUMENT FREQUENCY (IDF) Banyaknya dokumen dimana suatu term t muncul : Dikoreksi dengan banyaknya seluruh dokumen dalam koleksi (N), menjadi :

Bobot tf.idf Hasil kali : tft x idft Maka bobot setiap term t pada dokumen d adalah: Kecenderungan nilai bobot: Berbanding lurus dengan frekuensi kemunculan term t pada suatu dokumen d. Berbanding terbalik dengan banyaknya dokumen yang mengandung suatu term t.

BOOLEAN Kemunculan suatu term t pada dokumen d => bt,d =>[0,1]

Contoh kasus: N=10000 Hitung bobot tf.idf normal