Upload presentasi
Presentasi sedang didownload. Silahkan tunggu
Diterbitkan olehRatna Iskandar Telah diubah "7 tahun yang lalu
1
IMPLEMENTASI ALGORITME DAMERAU-LEVENSHTEIN UNTUK KOREKSI EJAAN QUERY BAHASA INDONESIA PADA SEARCH ENGINE Oleh: Utis Sutisna G Pembimbing: Ir. Julio Adisantoso, Mkom
2
Tujuan dan Ruang lingkup
PENDAHULUAN Penelitian sebelumnya Primasari (1997) Arumsari (1998) Wahyudin (1999) Koreksi Ejaan Melakukan penelitian tentang pencarian dan temu kembali nama berdasarkan kesamaan fonetik. Menggunakan metode jarak edit. 3 operasi : penyisipan, penghapusan dan penggantian sebuah huruf. Menggunakan algoritme trigram untuk mendapatkan kata-kata perkiraan dari kata yang dinyatakan salah eja. Sutisna (2009) Menggunakan algoritme Damerau Levenshtein. 4 Operasi : penyisipan, penghapusan, penggantian dan Pertukaran sebuah huruf yang berdekatan. Pendahuluan Tujuan dan Ruang lingkup 2
3
TINJAUAN PUSTAKA Algoritme Damerau Levenshtein Kamus User
Metode Damerau Levenshtein melakukan operasi perbandingan kata-kata dengan memperhatikan 4 macam kesalahan pengetikan (misalnya kata DAMERAU), yaitu: Kamus User 1. Penyisipan (insertion) Kamus User 2. Penghilangan (deletion) D A M E R U D A M E R U D A H M E R U D A M R U Kamus User 3. Penggantian (substitution) Kamus User 4. Penukaran (transposition) D A M E R U D A M E R U D A N E R U D A M E R U R-P Cont... 3
4
Metodologi Penelitian
TINJAUAN PUSTAKA Algoritme Damerau Levenshtein Matric f(0, 0)= 0 f(i, 0)= i i : panjang string s1 f(0, j)= j j : panjang string s2 f(i, j)= min { f(i-1, j) + 1, // deletion f(i, j-1) + 1, // insertion f(i-1, j-1) + d(si, tj) // substitution f(i-2, j-2) + d(si-1, tj) + d(si, tj-1) + 1 // transposition } fungsi d merupakan fungsi untuk mengukur jarak untuk huruf. f(i, j) adalah jarak edit, dimana : i : panjang string s1 j : panjang string s2 Damerau Levenshtein Metodologi Penelitian 4
5
METODOLOGI PENELITIAN
Penelitian ini dilakukan melalui beberapa tahap, yaitu: 1 Pengumpulan data 2 Membuat program pengoreksian ejaan pada sistem temu kembali 3 Penentuan jarak edit 4 Percobaan 5 Evaluasi Kinerja Program Damerau Levenshtein Cont... 5
6
METODOLOGI PENELITIAN
Penelitian ini dilakukan melalui beberapa tahap, yaitu: 1 Pengumpulan data Kamus referensi KBBI (2005) kata. Metodologi Penelitian Cont... 6
7
METODOLOGI PENELITIAN
2 Membuat program pengoreksian ejaan pada sistem temu kembali Kueri Ada ? KBBI Korpus VSM Similarity Damerau-Levenstein-Metrics Merge display Kata usulan Edit distance N Y Tokenizer Sorting Metodologi Penelitian Cont...
8
METODOLOGI PENELITIAN
3 Penentuan Jarak edit Kueri Tokenizer Ada dalam Kamus? Hitung Jarak Kata Ambil satu kata Jarak kata ≤ k ? Kata ada di dalam usulan? Mulai Selesai Simpan ke dalam kamus Kamus Tampilkan sebagai usulan Masukan ke Kamus? Y N k : Jarak edit Maksimum k =2 (Mitton 1987, dalam Arumsari 1998). Metodologi Penelitian Cont... 8
9
METODOLOGI PENELITIAN
4 Percobaan Percobaan dilakukan dengan menuliskan query yang mengandung salah eja. Seolah-olah tidak mengetahui ejaan query yang benar (diasumsikan ejaan query benar walaupun mengandung salah eja). 5 Evaluasi Kinerja Program Hasil penemukembalian dokumen-dokumen, dilakukan perhitungan nilai precision pada tingkat recall tertentu. Kemudian dirata-ratakan untuk mendapatkan Average Precision (AVP). Metodologi Penelitian Cont... 9
10
METODOLOGI PENELITIAN
Asumsi-asumsi 1 2 Query telah ditentukan sebelumnya. Jumlah dokumen relevan telah diketahui sebelumnya. 3 4 Teks dokumen benar sesuai KBBI Pengoreksian dilakukan pada query. Metodologi Penelitian Hasil dan Pembahasan 10
11
Metodologi Penelitian
HASIL DAN PEMBAHASAN Dokumen Korpus 1000 dokumen. Berformat XML Tabel deskripsi dokumen pengujian Uraian Nilai (Bytes) Ukuran rata-rata dokumen 4.110,509 Ukuran dokumen keseluruhan Ukuran dokumen terbesar 53.306 Ukuran dokumen terkecil 456 Matriks model VSM Pembobotan Model VSM Uraian Nilai Rata-rata kata unik tiap dokumen 268 Jumlah kata unik keseluruhan Jumlah kata unik terbesar 1.831 Jumlah kata unik terkecil 37 d1 d2 ... d1000 query Term1 w11 w12 Term2 w21 w22 Term Metodologi Penelitian Cont... 11
12
HASIL DAN PEMBAHASAN Evaluasi Kinerja Program
Akan dipaparkan nilai precision untuk beberapa tahap, yaitu : Nilai precision sebelum dilakukan pengoreksian (p1). Nilai precision setelah pengoreksian dengan memilih kata usulan yang bukan diharapkan (p2). Nilai precision setelah pengoreksian dengan kata usulan yang diharapkan (p3). Nilai precision untuk semua percobaan akan dilihat berdasarkan : Maksimum nilai precision. Minimum nilai precision. Rata-rata precision. Hasil dan Pembahasan Cont... 12
13
HASIL DAN PEMBAHASAN 1. Dilihat berdasar maksimum nilai precision
Tabel 1 . Perbandingan maksimum nilai precision tahap p1 dan tahap p2 Tabel 2 . Perbandingan maksimum nilai precision tahap p1 dan tahap p3 recall p1 p2 Perubahan (∆) 1 0,1 0,2 0,3 0,89 -0,11 0,4 0,83 0,71 -0,14 0,5 0,86 0,75 -0,13 0,6 0,88 0,76 -0,12 0,7 -0,15 0,8 0,77 0,9 0,74 0,84 0,64 -0,25 Rataan 0,91 0,82 recall p1 p3 Perubahan (∆) 1 0,1 0,2 0,3 0,4 0,83 0,91 0,10 0,5 0,86 0,92 0,07 0,6 0,88 0,7 0,89 0,84 -0,06 0,8 0,81 -0,09 0,9 0,77 -0,10 0,70 -0,17 Rataan -0,02 Hasil dan Pembahasan Cont... 13
14
HASIL DAN PEMBAHASAN 1. Dilihat berdasar maksimum nilai precision
Recall Gambar 1. Kurva recall-precision tahap p1, p2 dan tahap p3 dengan maksimum precision Hasil dan Pembahasan Cont... 24
15
HASIL DAN PEMBAHASAN 2. Dilihat berdasar minimum nilai precision
Tabel 1 . Perbandingan minimum nilai precision tahap p1 dan tahap p2 Tabel 2 . Perbandingan minimum nilai precision tahap p1 dan tahap p3 recall p1 p2 Perubahan (∆) 0,02 0,03 0,50 0,1 0,04 1,00 0,2 0,01 3,00 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 0,00 Rataan 0,82 recall p1 p3 Perubahan (∆) 0,02 0,19 8,50 0,1 0,09 3,50 0,2 0,01 0,11 10,00 0,3 0,10 4,00 0,4 0,5 0,08 3,00 0,6 0,07 2,50 0,7 0,06 2,00 0,8 0,9 0,04 1,00 1 0,03 0,50 Rataan 3,73 Hasil dan Pembahasan Cont... 15
16
HASIL DAN PEMBAHASAN 2. Dilihat berdasar minimum nilai precision
Recall Gambar 1. Kurva recall-precision tahap p1, p2 dan tahap p3 dengan minimum precision Hasil dan Pembahasan Cont... 16
17
HASIL DAN PEMBAHASAN 3. Dilihat berdasar rata-rata nilai precision
Tabel 1 . Perbandingan Rata-rata nilai precision tahap p1 dan tahap p2 Tabel 2 . Perbandingan Rata-rata nilai precision tahap p1 dan tahap p3 recall p1 p2 Perubahan (∆) 0,48 0,60 0,25 0,1 0,38 0,26 0,2 0,35 0,41 0,17 0,3 0,32 0,19 0,4 0,28 0,34 0,21 0,5 0,27 0,29 0,07 0,6 0,04 0,7 0,23 -0,08 0,8 0,22 -0,14 0,9 0,20 -0,15 1 0,14 0,13 -0,07 Rataan recall p1 p3 Perubahan (∆) 0,48 0,78 0,63 0,1 0,38 0,68 0,79 0,2 0,35 0,54 0,3 0,32 0,50 0,56 0,4 0,28 0,43 0,5 0,27 0,41 0,52 0,6 0,26 0,37 0,42 0,7 0,25 0,33 0,8 0,22 0,9 0,20 0,24 1 0,14 0,16 Rataan 0,45 Hasil dan Pembahasan Cont... 17
18
HASIL DAN PEMBAHASAN 3. Dilihat berdasar rata-rata nilai precision
Recall Gambar 1. Kurva recall-precision tahap p1, p2 dan tahap p3 dengan Rata-rata precision Hasil dan Pembahasan Cont... 18
19
HASIL DAN PEMBAHASAN Perbandingan Kinerja Temu Kembali dengan Jarak edit (Arumsari 1998) Tabel Perbandingan nilai precision dengan algoritme Damerau Levenshtein dengan metode Levenshtein (Arumsari). Precision recall pArumsari pDL Perubahan (∆) 0,65 0,78 0,20 0,1 0,56 0,68 0,21 0,2 0,45 0,54 0,3 0,4 0,5 0,25 0,36 0,43 0,19 0,34 0,41 0,6 0,31 0,37 0,7 0,28 0,33 0,18 0,8 0,22 0,27 0,9 0,24 1 0,13 0,16 0,23 Rataan 0,35 Recall Gambar Kurva recall-precision perbandingan menggunakan algoritme Damerau Levenshtein dengan Levenshtein Arumsari (1998) Hasil dan Pembahasan Kesimpulan dan Saran 19
20
KESIMPULAN DAN SARAN Kesimpulan Saran
Implementasi algoritme Damerau Levenshtein dapat meningkatkan kinerja temu kembali dan query menjadi lebih optimal. Ini terlihat peningkatan secara rata-rata precision sebesar 45 % setelah dilakukan pengoreksian. Pengoreksian dengan algoritme Damerau Levenshtein lebih baik dibanding dengan metode jarak edit yang dilakukan oleh Arumsari (1998). Ini terlihat peningkatan precision 22% serta kata usulan yang diperoleh dengan algoritme Damerau Levenshtein lebih optimal. Saran Untuk menemukan kata usulan yang sedang diperiksa diperlukan algoritma pencarian yang hanya sebatas pada kata-kata di dalam kamus yang mendekati kata yang sedang diperiksa. Kata usulan yang diperoleh perlu ditentukan nilai peluang terhadap query. Sehingga jika kata usulan yang diperoleh memiliki lebih dari dua kata usulan yang memiliki jarak edit yang sama dapat ditentukan kata mana yang lebih optimal. Hasil dan Pembahasan Daftar Pustaka 20
21
DAFTAR PUSTAKA Arumsari, KN Penggunaan Metode Kesamaan String pada Pemeriksaan Ejaan Bahasa Indonesia [skripsi]. Bogor: Departemen Ilmu Komputer, Fakultas MIPA, Institut Pertanian Bogor. [skripsi]. Bogor: Departemen Ilmu Komputer, Fakultas MIPA, Institut Pertanian Bogor. Bard GV Spelling-Error Tolerant, Order-Independent Pass-Phrases via the Damerau-Levenshtein String-Edit Distance Metric. University of Maryland. Primasari D Metode Pencarian dan Temu Kembali Nama Berdasarkan Kesamaan Fonetik. [skripsi]. Bogor: Departemen Ilmu Komputer, Fakultas MIPA, Institut Pertanian Bogor. Manning CD, Prabhakar R, Hinrich S An Introduction to Information Retrieval. Cambridge University Press. Pfeifer U, Poersch T, Furh N Searching Proper Names in Databases. University of Dortmund. Wahyudin, Aep Algoritme Trigram untuk Mengoreksi Ejaan [skripsi]. Bogor: Departemen Ilmu Komputer, Fakultas MIPA, Institut Pertanian Bogor. Daftar Pustaka Demo Program 21
22
Demo Program Daftar Pustaka End... 22
23
Terima kasih Demo End... 23
Presentasi serupa
© 2024 SlidePlayer.info Inc.
All rights reserved.