Upload presentasi
Presentasi sedang didownload. Silahkan tunggu
1
PENGINDEKSAN
2
PROSES PEROLEHAN INFORMASI
3
INDEKS Pengorganisasian berkas atau indeks digunakan untuk meningkatkan unjuk kerja dari sistem perolehan informasi Pengindeksan teks adalah proses yang memutuskan apa yang akan digunakan untuk merepresentasikan dokumen tertentu Indeks kata ini yang digunakan untuk mengindeks dokumen
4
Pengindeksan Manual vs Otomatis
Pengindeksan secara manual (dilakukan oleh manusia) Pengindeks menentukan kata kunci yang diberikan kepada suatu dokumen berdasarkan perbendaharaan kata yang terkontrol (controlled vocabulary) Biaya mahal Pengindeksan secara otomatis Program pengindeks menentukan kata atau frase tertentu dari teks pada dokumen Prosesnya cepat
5
Pengindeksan Manual vs Otomatis
Hasil dari eksperimen: Pengindeksan secara otomatis sama efektifnya dengan pengindeksan secara manual Penggunaan indeks manual dan otomatis meningkatkan performance dari sistem perolehan informasi
6
Tahapan Pengindeksan Lihat dokumen untuk mengenali strukturnya
Mis. Judul, tanggal, dll. Tokenisasi Pembuangan stopwords Proses pemotongan imbuhan (stemming) Pembobotan kata Pembuatan indeks
7
Tahap 1 LIHAT & KENALI STRUKTUR DOKUMEN
8
Lihat dan kenali struktur dokumen
Perlu dilihat strukturnya Contoh: Dokumen dimulai dengan <DOC> dan diakhiri dengan </DOC> Bagian dokumen yang dihitung kalimatnya adalah yang dalam <TEXT> ... </TEXT> dan <TITLE> ... </TITLE> Mempengaruhi apa-apa yang harus dihilangkan saat akan melakukan tokenisasi
9
Tahap 2 TOKENISASI kampus retrieval belajar pergi
10
Pengertian Tokenisasi adalah suatu tahap pemrosesan di mana teks input dibagi menjadi unit-unit yang disebut token yg merupakan suatu kata atau suatu angka atau suatu tanda baca. Perlu mengenali unit secara otomatis Apakah kata itu? Bagaimana dengan frase kata?
11
KonsepTokenisasi Hilangkan karakter yang tidak penting / tandatanda
(mis. HTML tags, tanda baca, karakter khusus), huruf besar, nomor Potong menjadi token Bahasa seperti non-latin perlu segmentasi Query dan dokumen perlu dinormalisasi ke bentuk yang sama
12
Tokenisasi Frase Indeks sederhana berdasarkan pada kata atau kata yang sudah di-stem Indeks yang kompleks dapat berisi frase dan kelas kelas thesaurus (buku berisi daftar kata dengan sinonimnya) Retrieval yang berdasarkan konsep sering digunakan untuk memperoleh sesuatu yang lebih dari indeks kata Konsep adalah suatu nama yang digunakan untuk suatu set aturan atau kriteria ditentukan Sama dengan kelas pada thesaurus
13
Tokenisasi Frase Mis. Konsep ‘information retrieval’ dapat ditunjuk karena adanya kata ‘information’ dan ‘retrieval’, frase ‘information retrieval’ Metode statistik dan sintaksis telah digunakan untuk menemukan frase yang baik Teknik yang telah terbukti berhasil : Menemukan pasangan kata yang muncul lebih dari n kali pada koleksi atau menggunakan ‘Part-of-speech tagger’ untuk mengidentifikasi frase nomina yang sederhana.
14
Tokenisasi Frase Frase dapat berdampak pada efisiensi dan efektivitas
Pengindeksan frase dapat mempercepat query yang mengandung frase Mis. menemukan dokumen yang berisi ‘lagu kebangsaan’ lebih baik daripada dokumen yang berisi dua kata tersebut Contoh frase : united states, los angeles, hong kong, north korea, long times, new york, jawa timur
15
Segmentasi kata Bagaimana dengan frase “panjang tangan”, “tusuk jarum”? Kata-kata lain: No telp (024) Daerah Istimewa Yogyakarta Jurusan Semarang Solo Bahasa daerah Jawa: Nyuwun sewu Menjadi topik penelitian di bidang ekstraksi informasi
16
Tahap 3 PEMBUANGAN STOPWORDS
itu dan yang
17
Pembuangan Stopwords Semua kata yang termasuk dalam daftar stopwords, yaitu daftar kata yg umum (kata yang mempunyai fungsi tapi tidak mempunyai arti) mis.: dan, atau, sebuah, yang Jumlahnya bisa ratusan kata Perhatikan kata yang menjadi bagian dari frase: Yang Maha kuasa, vitamin A, gerbang dan-atau (and-or gate) Berguna untuk menghemat penyimpanan indeks (efisiensi)
18
Tahap 4 PROSES PEMOTONGAN IMBUHAN (STEMMING)
ber kan me
19
Proses Pemotongan Imbuhan (Stemming)
Pemrosesan morfologi terhadap sekelompok variasi kata: perubahan kata berimbuhan menjadi kata dasar Misalnya: diberikan beri Bisa salah tetapi banyak digunakan pada IR system Tidak digunakan oleh sebagian besar web search engines
20
Stemming Proses stemming (lemmatization): Contoh:
proses untuk menghilangkan imbuhan pada kata membentuk kata dasar Contoh: minum, diminum, minuman→ minum Ambigu: lying → lie- lay atau lie- lied Business → busy Dalam bidang IR, stemming dapat mempengaruhi dokumen yang diperoleh
21
Stemming Stem adalah bagian dari kata yang tertinggal setelah imbuhannya dihilangkan Makan : dimakan, memakan, termakan, pemakan, makan … Adi memberikan makanan itu kepada kucingnya Adi beri makan itu kepada kucing Biasanya stemmer terdiri dari sekumpulan aturan dan atau kamus Mis. Porter Stemmer untuk bahasa Inggris terdiri dari berbagai aturan
22
Porter stemmer Pemotong imbuhan untuk Bahasa Inggris yang dikembangkan oleh Martin Porter Algoritme berdasarkan pada sekelompok aturan bersyarat:
23
Porter stemmer
24
Contoh Porter stemmer
25
Penggunaan Stemmer Menimbulkan Masalah
Stemmer dapat menyebabkan tidak diperolehnya dokumen yang relevan karena kurangnya konteks dari kata yang sudah di-stem Kadang terlalu banyak melakukan pemotongan Mis. policy/police; execute/executive; university/universe; organization/organ Adanya pemotongan yang tidak dilakukan Mis. Porter tidak melakukan pemotongan untuk machine/machinery Hasil pemotongan kadang-kadang bukan kata sehingga sukar bagi pemakai untuk menginterpretasikan Mis. Hasil dari Porter : general gener; iteration iter
26
Stemmer lain Pengembangan stemmer untuk memperbaiki Porter stemmer
Lovins stemmer: Menghilangkan imbuhan yang terpanjang Berdasarkan analisa morfologi (linguistik) K-stem Menggunakan kamus kata dasar dan aturan imbuhan Corpus-based stemmer Berdasarkan asumsi bahwa suatu kata dan variasi imbuhannya akan sering muncul bersama dalam korpus Contoh : racial, racism, racist, racists race, racer, racetrack, racers, racing
27
Stemmer untuk bahasa Inggris
28
Efek Penggunaan Stemmer
Apakah penggunaan Stemmer dapat meningkatkan unjuk kerja dari sistem perolehan informasi? Hasil penelitian penggunaan stemmer sangat beragam Ada yang dapat membantu meningkatkan jumlah dokumen pada suatu koleksi tapi pada koleksi yang lain dapat menurunkan jumlah dokumen yang diperoleh KuKurang berguna untuk koleksi Web yang sangat besar
29
Stemmer Untuk Bahasa Selain Inggris
Pengembangan algoritma Porter untuk bahasa lain Mis. Bahasa Melayu Perlu mengerti morfologi karena setiap bahasa mempunyai kekhususan sendiri Mis. Bahasa Arab, Jepang, Jerman, Perancis
30
Stemmer untuk Bahasa Indonesia
Bahasa Indonesia (BI) mempunyai kata berimbuhan yang lebih kompleks daripada bahasa Inggris Akhiran / Infleksional: Partikel : kah, lah, tah Kepunyaan : ku, mu, nya Algoritma stemmer : Kata dasar Kata berakhiran – infleksional Kata berimbuhan Tidak ada Menggunakan kamus yang berisi daftar kata dasar
31
Stemmer untuk Bahasa Indonesia
Kata berakhiran – infleksional Akhiran ku, mu, nya harus mendahului kah, lah, tah Hasil : kata dasar atau kata berimbuhan Kata berimbuhan Lihat apakah prefiks & sufiks sudah sesuai aturan Mis. Prefiks ber tidak dapat digabung dengan sufiks i Setelah dihilangkan konfiksnya, teliti apakah fonemnya perlu diubah (mis. meng + ambil mengambil ; meng + satukan menyatukan)
32
Stemmer untuk Bahasa Indonesia
Imbuhan (afiks): Prefiks / awalan (meng, di, ber, peng, ke, se, ter) Mis. di + beri diberi Sufiks / akhiran (i, kan, an) Mis. makan + an makanan Confiks / gabungan prefiks & sufiks (me-kan, ber-an) Mis. meng + beli + kan membelikan Prefiks & Sufiks dapat ditambahkan pada kata yang telah mempunyai prefiks atau confiks Mis. mem + per + hati + kan memperhatikan
33
Stemmer untuk Bahasa Indonesia
Evaluasi: Dari 18,590 kata berimbuhan, 95 % bisa diperoleh kata dasarnya dengan benar dan 5 %-nya diperoleh kata yang salah Kesalahan: Salah melakukan perubahan fonem Mis: mengawani = meng + awan + i atau meng+ kawan + i Mis-stemming (salah melakukan pemotongan kata) Mis. berikan = beri + kan atau ber-ikan
34
Stemmer untuk Bahasa Indonesia
Understemming (kata terlalu sedikit yang dipotong) Mis. beruangkah = beruang + kah atau ber + uang + kah Overstemming (kata terlalu banyak yang dipotong)
35
Tahap 5 PEMBOBOTAN KATA retrieval information
36
Pembobotan kata Kata yang penting seharusnya diberi bobot yang lebih berat Menggunakan frekuensi dalam dokumen dan koleksi
37
Metode pembobotan Beberapa pendekatan untuk memberikan bobot pada suatu kata: TF TF . IDF Term Discrimination Model 2 Poisson Model Language Model BM25
38
Bobot kata tf x idf
39
Bobot kata tf x idf (tf.idf)
Ket: tft,d = frekuensi kata t pada dokumen d N = jumlah seluruh dokumen dft = jumlah dokumen yang mengandung kata t
40
Contoh tf*idf
41
Lanjutan Contoh tf*idf
42
Contoh tf*idf
43
Tahap 6 PEMBUATAN INDEKS
retrieval information
44
Pembuatan indeks Struktur dari berkas inverted terdiri dari: 1. Vocabulary (perbendaharaan kata): adalah set dari semua kata-kata yang berbeda pada teks 2. Occurrences (kemunculan): daftar yang berisi semua info yang perlu dari setiap kata pada perbendaharaan kata (posisi kata / karakter, frekuensi, dokumen di mana kata tsb. muncul, dsb.)
45
Inverted Files Prosedur untuk membuat inversed word list
Daftar kata awal adalah suatu kata yang bukan stopword, kata yang tidak di-stem, lokasi kata (nama dokumen) Daftar kata awal diurutkan sehingga mendapatkan daftar kata dengan mempertahankan duplikasi kata. Jika perlu terapkan stemmer. Duplikasi pada daftar kata dihilangkan untuk menghasilkan statistik frekuensi dalam dokumen Tambahkan informasi bobot kata
46
Inverted Files
47
Tahap Pengindeksan
48
URUTKAN KATA
49
Hitung Frekuensi Kata
50
HASIL PELACAKAN
51
Mengindeks Frase Frase : gabungan dua atau lebih kata yang mempunyai arti berbeda dengan masing-masing kata Mis. universitas indonesia, jawa timur Query : Saya tinggal di pulau jawa bagian timur Indeks kata tidak cukup (kata:dok) untuk menemukan frase
52
Lanjutan Salah satu caranya adalah dengan mengindeks Biword
Mis. dokter, jalan, jawa, timur maka akan menghasilkan biword : dokter jalan, jalan jawa, jawa timur Biword sekarang menjadi kata indeks Pencarian frase yang terdiri dari 2 kata dapat ditemukan dengan mudah
53
Lanjutan Bagaimana dengan frase yang lebih panjang?
Dapat dipecah dengan menggunakan operator Boolean Mis. kampus tembalang universitas diponegoro kampus tembalang AND tembalang universtas AND universitas diponegoro Kemudian diproses dengan indeks biword
54
Indeks Berisi Posisi Kata
Simpan untuk setiap kata, dalam bentuk: <jumlah dok yang berisi kata; dok1: posisi1, posisi2 … ; dok2: posisi1, posisi2 … ; dll.>
55
Indeks Berisi Posisi Kata
56
Memproses Query dengan Frase
57
Isu Pemrosesan Query Pemeriksa Ejaan Kesalahan penulisan query
Mis. Information retrival Did you mean “Information retrieval”? because no docs matched the query phrase. Teknik NLP terlalu berat untuk menangani masalah ini
58
Isu Pemrosesan Query Penyelesaian kesalahan ejaan
Perlu melakukan menemukan cara untuk menentukan yang terbaik dari sedikit pilihan pada user Menggunakan heuristics Berikan alternatif dok yang paling banyak dipilih Analisa log query Terutama untuk query yang populer dan topik tertentu Penggunaan pemeriksa ejaan sangat mahal
59
Isu Pemrosesan Query Thesaurus: daftar sinonim kata yang biasadigunakan pada query mobil → kendaraan, dll. baju → pakaian, dll. Soundex Query diperluas dengan kata-kata yang bunyinya sama (fonetik) chebyshev → tchebycheff You’re your Terutama untuk nama orang, kota dll.
60
Isu Pemrosesan Query
Presentasi serupa
© 2024 SlidePlayer.info Inc.
All rights reserved.