Document Indexing dan Term Weighting

Slides:



Advertisements
Presentasi serupa
Arlisa Yuliawati
Advertisements

Praktikum Sistem Temu Balik Informasi
Ratri Enggar Pawening Materi 4 I NFORMATION R ETRIEVAL.
StopList dan Stemming yasmi afrizal
Model Temu-Balik Informasi
Konsep Dasar Sistem Temu Kembali Informasi
Ranked Retrieval Pencarian Boolean Menghasilkan sekumpulan dokumen yang cocok dengan query, yang tidak cocok tidak muncul Pada kasus.
Text Mining.
SIFAT-SIFAT DAN APLIKASI DFT
Gambar Kerangka dari sistem temu-kembali informasi sederhana
Temu Balik Informasi Materi Pertemuan Ke – 8 Konsep Thesaurus dalam Information Retrival dan Mengenal Macam Thesaurus Beserta Algoritma Anggota : Nama Nim.
Latent Semantic Indexing
Temu Balik Informasi Pertemuan Ke – 12 Presentasi Final Project
Final Project Temu Balik Informasi
Text Pre-Processing M. Ali Fauzi.
MATERI PROJECT TI 2014 B Taufik Ari Arnandan ( )
Review Jurnal Nasional
ALGORITMA STEMMING DAN STOPLIST
Pertemuan 3.
METODE DAN MODEL TEMU BALIK INFORMASI Luthfi Nurrohman ( )
Anggota Kelompok Dian Santosa (KETUA)
TEMU BALIK INFORMASI.
ANALISIS ASOSIASI BAGIAN 2
Pertemuan 7 : Latent Semantic Indexing
Temu Balik Informasi Materi Pertemuan Ke – 7 Konsep dan Prinsip Serta Algoritma Latent Semantic Indexing Anggota : Nama Nim Wahyu Septi Anjar
Anggota Kelompok Ikhsan Fauji Irna Oktaviasari Erip Marliana
Konsep dan Model-model Sistem Temu Balik Informasi
Konsep dan model temu balik informasi
Sistem Temu Kembali Informasi
Text Mining and Information Retrieval
Implementasi vector space model untuk pencarian dokumen
Natural Language Processing (NLP)
Konsep, Metode dan Model Temu Kembali Informasi
Konsep, Metode dan Model dalam Temu Balik Informasi
Temu Balik Informasi Materi Pertemuan Ke – 8 Konsep Thesaurus dalam Information Retrival dan Mengenal Macam Thesaurus Beserta Algoritma Anggota : Nama Nim.
Latent Semantic Indexing (LSI)
EFEKTIFITAS SELEKSI FITUR DALAM SISTEM TEMU-KEMBALI INFORMASI
Anggota Kelompok : Kurniawan Novi Pambudi
PENGINDEKSAN.
Text Preprocessing.
SISTEM TEMU KEMBALI INFORMASI
TEMU KEMBALI INFORMASI
VECTOR SPACE MODEL.
Temu balik informasi Anggota Kelompok Ikhsan Fauji
Ketua Kelompok Dian Restiani Anggota : Wahyu Septi Anjar
Review Konsep Dasar IRS/ STI
StopList dan Stemming yasmi afrizal
Temu Balik Informasi Anggota Kelompok 1. Ikhsan Fauji Irna Oktaviasari Erip Marliana Egi Firmansyah
Laten Semantic Indexing
TEMU BALIK INFORMASI CONCEPT, PRINCIPLE & ALGORITHMS OF
Temu Balik Informasi Persentasi Final Project
Tugas Kajian Film - Teater Zaman Elizabethan
Information Retrieval
Oleh : Rahmat Robi Waliyansyah, M.Kom.
TEXT OPERATION Muhammad Yusuf Teknik Multimedia dan Jaringan
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Similarity Analisis.
Oleh : Rahmat Robi Waliyansyah, M.Kom.
USING DATA MINING TO MODEL PLAYER EXPERIENCE
M Ali Fauzi Indriati Sigit Adinugroho
Nugraha Iman Santosa ( )
Model Boolean & Advanced Boolean
Model Boolean dan Advanced Boolean
Pembobotan Kata (Term Weighting)
Information Retrieval “Document Preprocessing”
TEXT MINING.
Model Perolehan Informasi
Temu Kembali Informasi
Universitas Gunadarma
Intro Algoritma K-Nearest Neighbor (K- NN) adalah sebuah metode klasifikasi terhadap sekumpulan data maupun dokumen berdasarkan pembelajaran  data yang.
Transcript presentasi:

Document Indexing dan Term Weighting M. Ali Fauzi

Document Indexing Setelah melakukan preprocessing, kita akan mendapatkan sebuah set term yang bisa kita jadikan sebagai indeks. Indeks adalah perwakilan dari dokumen.aa Indeks memudahkan proses selanjutnya dalam teks mining ataupun IR.

Document Indexing Setelah melakukan preprocessing, kita akan mendapatkan sebuah set term yang bisa kita jadikan sebagai indeks. Indeks adalah perwakilan dari dokumen. Indeks memudahkan proses selanjutnya dalam teks mining ataupun IR.

Document Indexing Hasil Token Hasil Filtering Hasil Stemming Type Term they - are applied apply to the words word in texts text

Document Indexing Hasil Token Hasil Filtering Hasil Stemming Type Term namanya nama adalah - santiago sudah memutuskan putus untuk mencari cari sang alkemis

Document Indexing Dalam mebuat sebuah indeks, secara umum kita tidak memperhatikan urutan kata “John is quicker than Mary” dan “Mary is quicker than John” memiliki representasi yang sama Ini disebut bag of words model.

Document Indexing Dalam mebuat sebuah indeks, secara umum kita tidak memperhatikan urutan kata “John is quicker than Mary” dan “Mary is quicker than John” memiliki representasi yang sama Ini disebut bag of words model.

Document Indexing Dalam mebuat sebuah indeks, secara umum kita tidak memperhatikan urutan kata “John is quicker than Mary” dan “Mary is quicker than John” memiliki representasi yang sama Ini disebut bag of words model.

Document Indexing Hasil Token Hasil Filtering Hasil Stemming Type Term they - are applied apply to the words word in texts text

Document Indexing Hasil Token Hasil Filtering Hasil Stemming Type Term namanya nama adalah - santiago sudah memutuskan putus untuk mencari cari sang alkemis

Term Weighting Teks Mining

Term Weighting Dalam mebuat sebuah indeks, setiap kata/term memiliki bobot/nilai masing- masing Ada banyak metode untuk memberikan bobot pada masing-masing term pada indeks

Term Weighting Dalam mebuat sebuah indeks, setiap kata/term memiliki bobot/nilai masing- masing Ada banyak metode untuk memberikan bobot pada masing- masing term pada indeks

Term Weighting Term Weighting : Metode untuk memberikan nilai/bobot pada masing- masing term indeks.

Term Weighting Beberapa metode Term Weighting yang popular : Binary Term Weighting (Raw) Term-frequency Logarithmic Term-frequency TF-IDF

Binary Term Weighting Metode Term Weighting

Binary Term Weighting Masing-masing dokumen direpresentasikan oleh sebuah binary vector Dokumen diwakili oleh kolom, dan term diwakili oleh baris Jika kata/term berada pada dokumen tertentu, maka nilainya 1, jika tidak, maka nilainya 0

Binary Term Weighting Masing-masing dokumen direpresentasikan oleh sebuah binary vector Dokumen diwakili oleh kolom, dan term diwakili oleh baris Jika kata/term berada pada dokumen tertentu, maka nilainya 1, jika tidak, maka nilainya 0

Binary Term Weighting Masing-masing dokumen direpresentasikan oleh sebuah binary vector Dokumen diwakili oleh kolom, dan term diwakili oleh baris Jika kata/term berada pada dokumen tertentu, maka nilainya 1, jika tidak, maka nilainya 0

Binary Term Weighting Metode term weighting ini tidak memperhatikan jumlah kemunculan kata pada 1 dokumen.

Binary Term Weighting Misal : terdapat 6 dokumen : Antony and Cleopatra, Julius Caesar, The Tempest, Hamlet, Othello, dan Macbeth dan 7 kata/term : Antony, Brutus, Caesar, Calpurnia, Cleopatra, mercy, dan worser

Binary Term Weighting

(Raw) Term-frequency Metode Term Weighting

(Raw) Term-frequency Seperti halnya binary, hanya saja mempertimbangkan jumlah kemunculan kata pada dokumen: count vector Term frequency tft,d dari term t dalam dokumen d didefiniskan sebagai jumlah kemunculan term t pada dokumen d.

(Raw) Term-frequency Seperti halnya binary, hanya saja mempertimbangkan jumlah kemunculan kata pada dokumen: count vector Term frequency TFt,d dari term t dalam dokumen d didefiniskan sebagai jumlah kemunculan term t pada dokumen d.

(Raw) Term-frequency

(Raw) Term-frequency Term frequency TFt,d dari term t dalam dokumen d didefiniskan sebagai jumlah kemunculan term t pada dokumen d. TFAnthony, Antony and Cleopatra = 157 TFAnthony, Julius Caesar = 73 TFMercy, Macbeth = 1

(Raw) Term-frequency Raw term frequency kurang relevan: Sebuah term yang muncul 10 kali pada sebuah dokumen memang lebih penting dalam mewakili dokumen dibandingkan dengan term yang muncul cuma 1 kali. Tapi tidak berate 10 kali lebih penting.

Relevance does not increase proportionally with term frequency. (Raw) Term-frequency Relevance does not increase proportionally with term frequency.

Log Term-frequency Metode Term Weighting

Log Term-frequency Log Term-frequency dari term t dalam d adalah 0 → 0, 1 → 1, 2 → 1.3, 10 → 2, 1000 → 4, etc.

Log Term-frequency Log Term-frequency dari term t dalam d adalah 0 → 0, 1 → 1, 2 → 1.3, 10 → 2, 1000 → 4, etc.

Log Term-frequency Wtf Antony & Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 1+ 10log(157) 1+ 10log(73) Brutus 1+ 10log(4) 1+ 10log(1) Caesar 1+ 10log(232) 1+ 10log(227) 1+ 10log(2) Calpurnia 1+ 10log(10) Cleopatra 1+ 10log(57) Mercy 1+ 10log(3) 1+ 10log(5) Worser

Log Term-frequency Wtf Antony & Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 3.195899652 2.86332286 Brutus 1.602059991 1 Caesar 3.365487985 3.356025857 1.301029996 Calpurnia 2 Cleopatra 2.755874856 Mercy 1.477121255 1.698970004 Worser

TF-IDF Metode Term Weighting

TF-IDF Nilai TF-IDF dari sebuah term adalah perkalian antara nilai (Log)TF and nilai IDF-nya. TF-IDF = TF x IDF Catatan: tanda “-” dalam tf-idf adalah tanda hubung, bukan minus!. Alternative : TFf.IDF, TF x IDF

TF-IDF Nilai TF-IDF dari sebuah term adalah perkalian antara nilai (Log)TF and nilai IDF-nya. TF-IDF = TF x IDF Catatan: tanda “-” dalam tf-idf adalah tanda hubung, bukan minus!. Alternative : TFf.IDF, TF x IDF

TF-IDF Apa itu IDF? IDF : Inverse Document Frequency atau Kebalikan dari Document Frequency

Document frequency Document frequency (dft) adalah jumlah dokumen yang mengandung term t dft  N N = Jumlah Dokumen

Document frequency Document frequency (dft) adalah jumlah dokumen yang mengandung term t dft  N N = Jumlah Dokumen

Document frequency dft Antony & Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth dft Antony 157 73 2 Brutus 4 1 3 Caesar 232 227 5 Calpurnia 10 Cleopatra 57 Mercy Worser

Document frequency Document frequency (dft) adalah jumlah dokumen yang mengandung term t Rare terms adalah term memiliki nilai df yang kecil Frequent terms adalah term memiliki nilai df yang besar

Document frequency Document frequency (dft) adalah jumlah dokumen yang mengandung term t Rare terms adalah term memiliki nilai df yang kecil Frequent terms adalah term memiliki nilai df yang besar

Inverse Document frequency Apa itu IDF? IDF : Inverse Document Frequency atau Kebalikan dari Document Frequency

Inverse Document frequency Kata-kata yang muncul di banyak dokumen adalah kata yang ”tidak penting” Misal kata : dan, di, atau, merupakan, tinggi, bisa Sering muncul di hampir semua dokumena Kata-kata seperti ini kurang informative

Inverse Document frequency Kata-kata yang muncul di banyak dokumen adalah kata yang ”tidak penting” Misal kata : dan, di, atau, merupakan, tinggi, bisa Sering muncul di hampir semua dokumen Kata-kata seperti ini kurang informative

Inverse Document frequency Kata-kata yang muncul di banyak dokumen adalah kata yang ”tidak penting” Misal kata : dan, di, atau, merupakan, tinggi, bisa Sering muncul di hampir semua dokumen Kata-kata seperti ini kurang informatif

Inverse Document frequency Di sisi lain, kata-kata langka yang hanya muncul di sedikit dokumen, lebih informatif Misal, kata Meganthropus yang hanya muncul di dokumen sejarah, hampir tidak pernah muncul di dokumen-dokumen lain seperti dokumen olahraga, ekonomi, maupun politik.

Inverse Document frequency Di sisi lain, kata-kata langka yang hanya muncul di sedikit dokumen, lebih informatif Misal, kata Meganthropus yang hanya muncul di dokumen sejarah, hampir tidak pernah muncul di dokumen- dokumen lain seperti dokumen olahraga, ekonomi, maupun politik.

Inverse Document frequency Rare terms (Kata-kata langka yang hanya muncul di dokumen-dokumen tertentu) lebih informatif dibandingkan dengan Frequent terms (kata-kata yang muncul di banyak dokumen) Oleh karena itu, Rare terms harus memiliki bobot/nilai yang lebih besar daripada Frequent terms

Inverse Document frequency Rare terms (Kata-kata langka yang hanya muncul di dokumen-dokumen tertentu) lebih informatif dibandingkan dengan Frequent terms (kata-kata yang muncul di banyak dokumen) Oleh karena itu, Rare terms harus memiliki bobot/nilai yang lebih besar daripada Frequent terms

Inverse Document frequency dft adalah ukuran kebalikan dari keinformatifan term t idf (inverse document frequency) dari sebuah term t didefinisikan:

Inverse Document frequency Digunakan log (N/dft) dibanding N/dft untuk “mengecilkan” efek dari IDF. Menggunakan log berbasis berapapun tidak masalah

Inverse Document frequency Digunakan log (N/dft) dibanding N/dft untuk “mengecilkan” efek dari IDF. Menggunakan log berbasis berapapun tidak masalah

Berbeda dengan TF, sebuah term hanya memiliki satu nilai IDF. Latihan Berbeda dengan TF, sebuah term hanya memiliki satu nilai IDF. Term dft idft calpurnia 1 animal 100 sunday 1,000 fly 10,000 under 100,000 the 1,000,000

Inverse Document frequency dft idft Antony 2 10log (6/2) 0.47712125 Brutus 3 10log (6/3) 0.30103 Caesar 5 10log (6/5) 0.07918125 Calpurnia 1 10log (6/1) 0.77815125 Cleopatra Mercy Worser 4 10log (6/4) 0.17609126

TF-IDF Nilai TF-IDF dari sebuah term adalah perkalian antara nilai (Log)TF and nilai IDF-nya. TF-IDF = TF x IDF Term weighting paling populer

TF-IDF Nilai TF-IDF dari sebuah term adalah perkalian antara nilai (Log)TF and nilai IDF-nya. TF-IDF = TF x IDF Term weighting paling populer

TF-IDF TF-IDF = TF x IDF Term yang sering muncul di satu dokumen dan jarang muncul pada dokumen lain akan mendapatkan nilai tinggiaaaaaaaaa

TF-IDF TF-IDF = TF x IDF Term yang sering muncul di satu dokumen dan jarang muncul pada dokumen lain akan mendapatkan nilai tinggi

TF-IDF TF-IDF Antony & Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 1.524831652 1.366152196 Brutus 0.482268112 0.962061659 0.301029996 Caesar 0.266483532 0.265734309 0.103017176 0.079181246 0.07918 Calpurnia 1.556302501 Cleopatra 2.144487465 Mercy 0.116960302 0.134526562 Worser 0.22910001 0.176091259

Variasi TF-IDF Metode Term Weighting

Variasi TF-IDF

Term Weighting Lain Metode Term Weighting

Term Weighting Lain Masih ada banyak Term Weighting lain Information Gain Latent semantic indexing Mutual information TF.IDF.ICF Dsb.