IMPLEMENTASI ALGORITME DAMERAU-LEVENSHTEIN UNTUK KOREKSI EJAAN QUERY BAHASA INDONESIA PADA SEARCH ENGINE     Oleh: Utis Sutisna G64052523  

Slides:



Advertisements
Presentasi serupa
PROPOSAL PENELITIAN.
Advertisements

Sorting (Pengurutan).
BAGAIMANA METODE PENELITIAN PADA ILMU KOMPUTER / INFORMATIKA ?
Algoritme dan Pemrograman
oleh: Yusman Syaukat Departemen Ekonomi Sumberdaya dan Lingkungan
Interaksi Manusia dan Komputer
SQL.
TEKNIK PENULISAN KARYA ILMIAH
ANATOMI KARYA ILMIAH Pendahuluan Format Pengetikan
METODE PENELITIAN ILMU KOMPUTER
MENETAPKAN MASALAH PENELITIAN MENCOBA MEMBAHAS PENELITIAN DENGAN TEORI-TEORI.
Smith-Waterman Pembuatan Aplikasi Pendeteksian Kemiripan Dokumen Teks dengan Algoritma for further detail, please visit
Sistem Temu Kembali Informasi/ Information Retrieval
Referensi Sistem Harvard
Pendahuluan Pertemuan 5 - 8
Pertemuan-2 Kriteria kebaikan suatu algoritme Correctness
Algoritma Divide and Conquer (Bagian 1) Wahyul Wahidah Maulida, ST., M.Eng.
PERANGKAT LUNAK : APLIKASI PENGOLAH KATA
MATERI PERKULIAHAN TEKNIK KOMPILASI
Sistematika langkah-langkah penyusunan proposal penelittian
Review Jurnal Nasional
oleh: Yusman Syaukat Departemen Ekonomi Sumberdaya dan Lingkungan
PENULISAN LAPORAN TEKNIK (PLT) Pertemuan 6 & 7
5. PROPOSAL / RANCANGAN PENELITIAN
SEARCH ENGINE.
Rizki Pebuardi G Pembimbing : 1. Ir. Agus Buono, M.Si., M.Kom.
Implementasi vector space model untuk pencarian dokumen
Natural Language Processing (NLP)
Skripsi Judul Oleh : Dosen Pembimbing : Program Studi Pendidikan Fisika Fakultas Keguruan dan Ilmu.
KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA
Oleh: Ineza Nur Oktabroni (G )
Review Jurnal Internasional
Metode Cluster Self-Organizing Map untuk Temu Kembali Citra
EFEKTIFITAS SELEKSI FITUR DALAM SISTEM TEMU-KEMBALI INFORMASI
Pandu satria nur ananda
Struktur data Oleh: Tim Struktur Data IF ARRAY STATIS.
PEMBUATAN POHON KEPUTUSAN
TEKNIK PENULISAN ILMIAH PROGRAM STUDI PETERNAKAN
Sistem Temu-Balik Informasi yasmi afrizal
STOPLIST DAN STEEMING Temu Balik Informasi.
SISTEM TEMU KEMBALI INFORMASI
Perkenalan Pertemuan ke-1 Sistem Temu-Balik Informasi.
Temu Balik Informasi Nama Kelompok : Ikhsan Fauji
UNIVERSITAS GUNADARMA 2010
PENCARIAN INTERPOLASI
Ir. Julio Adisantoso, M.Kom.
STRUKTUR DATA Array Statis.
STRUKTUR DATA Array Statis.
PENGEMBANGAN APLIKASI SPELLING CHECKER BHS. INDONESIA
STRUKTUR DATA Array Statis.
Riset Teknologi Informasi
STRUKTUR DATA Array Statis.
ARRAY STATIS Sri Nurhayati, MT.
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Temu Balik Informasi Anggota Kelomopok :
PENELITIAN DAN ANALISIS KESEHATAN REPRODUKSI
TEKNIK PENULISAN KARYA ILMIAH
ARRAY STATIS Sri Nurhayati, MT.
PENYUSUNAN SKRIPSI Presented by: Auliya’ul Muhlis
Sistematika Penulisan Karya Ilmiah
Algoritma Divide and Conquer
PEMROGRAMAN Belajar memrogram : belajar tentang metodologi pemecahan masalah, kemudian menuangkannya dalam suatu notasi yang mudah dipahami Belajar bahasa.
Sistem Temu Kembali Informasi/ Information Retrieval
Pembimbing : Aziz Kustiyo, S.Si., M.Kom. Endang Purnama Giri, S.Kom.
IMPLEMENTASI QUESTION ANSWERING SYSTEM DENGAN METODE RULE-BASED PADA BANYAK DOKUMEN BERBAHASA INDONESIA Disusun Oleh : Romaida Dolarosa S G
SEARCH ENGINE.
Temu Kembali Informasi
Temu Kembali Informasi
Universitas Gunadarma
ANALISIS KESTABILAN LERENG PIT 19D Di PT INDOMINCO MANDIRI Disusun Oleh : NAMAKU December, 2017.
Transcript presentasi:

IMPLEMENTASI ALGORITME DAMERAU-LEVENSHTEIN UNTUK KOREKSI EJAAN QUERY BAHASA INDONESIA PADA SEARCH ENGINE     Oleh: Utis Sutisna G64052523     Pembimbing: Ir. Julio Adisantoso, Mkom

Tujuan dan Ruang lingkup PENDAHULUAN Penelitian sebelumnya Primasari (1997) Arumsari (1998) Wahyudin (1999) Koreksi Ejaan Melakukan penelitian tentang pencarian dan temu kembali nama berdasarkan kesamaan fonetik. Menggunakan metode jarak edit. 3 operasi : penyisipan, penghapusan dan penggantian sebuah huruf. Menggunakan algoritme trigram untuk mendapatkan kata-kata perkiraan dari kata yang dinyatakan salah eja. Sutisna (2009) Menggunakan algoritme Damerau Levenshtein. 4 Operasi : penyisipan, penghapusan, penggantian dan Pertukaran sebuah huruf yang berdekatan. Pendahuluan Tujuan dan Ruang lingkup 2

TINJAUAN PUSTAKA Algoritme Damerau Levenshtein Kamus User Metode Damerau Levenshtein melakukan operasi perbandingan kata-kata dengan memperhatikan 4 macam kesalahan pengetikan (misalnya kata DAMERAU), yaitu: Kamus User 1. Penyisipan (insertion) Kamus User 2. Penghilangan (deletion) D A M E R U D A M E R U D A H M E R U D A M R U Kamus User 3. Penggantian (substitution) Kamus User 4. Penukaran (transposition) D A M E R U D A M E R U D A N E R U D A M E R U R-P Cont... 3

Metodologi Penelitian TINJAUAN PUSTAKA Algoritme Damerau Levenshtein Matric f(0, 0)= 0 f(i, 0)= i i : panjang string s1 f(0, j)= j j : panjang string s2 f(i, j)= min { f(i-1, j) + 1, // deletion f(i, j-1) + 1, // insertion f(i-1, j-1) + d(si, tj) // substitution f(i-2, j-2) + d(si-1, tj) + d(si, tj-1) + 1 // transposition } fungsi d merupakan fungsi untuk mengukur jarak untuk huruf. f(i, j) adalah jarak edit, dimana : i : panjang string s1 j : panjang string s2 Damerau Levenshtein Metodologi Penelitian 4

METODOLOGI PENELITIAN Penelitian ini dilakukan melalui beberapa tahap, yaitu: 1 Pengumpulan data 2 Membuat program pengoreksian ejaan pada sistem temu kembali 3 Penentuan jarak edit 4 Percobaan 5 Evaluasi Kinerja Program Damerau Levenshtein Cont... 5

METODOLOGI PENELITIAN Penelitian ini dilakukan melalui beberapa tahap, yaitu: 1 Pengumpulan data Kamus referensi KBBI (2005) 53004 kata. Metodologi Penelitian Cont... 6

METODOLOGI PENELITIAN 2 Membuat program pengoreksian ejaan pada sistem temu kembali Kueri Ada ? KBBI Korpus VSM Similarity Damerau-Levenstein-Metrics Merge display Kata usulan Edit distance N Y Tokenizer Sorting Metodologi Penelitian Cont...

METODOLOGI PENELITIAN 3 Penentuan Jarak edit Kueri Tokenizer Ada dalam Kamus? Hitung Jarak Kata Ambil satu kata Jarak kata ≤ k ? Kata ada di dalam usulan? Mulai Selesai Simpan ke dalam kamus Kamus Tampilkan sebagai usulan Masukan ke Kamus? Y N k : Jarak edit Maksimum k =2 (Mitton 1987, dalam Arumsari 1998). Metodologi Penelitian Cont... 8

METODOLOGI PENELITIAN 4 Percobaan Percobaan dilakukan dengan menuliskan query yang mengandung salah eja. Seolah-olah tidak mengetahui ejaan query yang benar (diasumsikan ejaan query benar walaupun mengandung salah eja). 5 Evaluasi Kinerja Program Hasil penemukembalian dokumen-dokumen, dilakukan perhitungan nilai precision pada tingkat recall tertentu. Kemudian dirata-ratakan untuk mendapatkan Average Precision (AVP). Metodologi Penelitian Cont... 9

METODOLOGI PENELITIAN Asumsi-asumsi 1 2 Query telah ditentukan sebelumnya. Jumlah dokumen relevan telah diketahui sebelumnya. 3 4 Teks dokumen benar sesuai KBBI Pengoreksian dilakukan pada query. Metodologi Penelitian Hasil dan Pembahasan 10

Metodologi Penelitian HASIL DAN PEMBAHASAN Dokumen Korpus 1000 dokumen. Berformat XML Tabel deskripsi dokumen pengujian Uraian Nilai (Bytes) Ukuran rata-rata dokumen 4.110,509 Ukuran dokumen keseluruhan 4.110.509 Ukuran dokumen terbesar 53.306 Ukuran dokumen terkecil 456 Matriks model VSM Pembobotan Model VSM Uraian Nilai Rata-rata kata unik tiap dokumen 268 Jumlah kata unik keseluruhan 268.213 Jumlah kata unik terbesar 1.831 Jumlah kata unik terkecil 37 d1 d2 ... d1000 query Term1 w11 w12 Term2 w21 w22 Term268.213 Metodologi Penelitian Cont... 11

HASIL DAN PEMBAHASAN Evaluasi Kinerja Program Akan dipaparkan nilai precision untuk beberapa tahap, yaitu : Nilai precision sebelum dilakukan pengoreksian (p1). Nilai precision setelah pengoreksian dengan memilih kata usulan yang bukan diharapkan (p2). Nilai precision setelah pengoreksian dengan kata usulan yang diharapkan (p3). Nilai precision untuk semua percobaan akan dilihat berdasarkan : Maksimum nilai precision. Minimum nilai precision. Rata-rata precision. Hasil dan Pembahasan Cont... 12

HASIL DAN PEMBAHASAN 1. Dilihat berdasar maksimum nilai precision Tabel 1 . Perbandingan maksimum nilai precision tahap p1 dan tahap p2 Tabel 2 . Perbandingan maksimum nilai precision tahap p1 dan tahap p3 recall p1 p2 Perubahan (∆) 1 0,1 0,2 0,3 0,89 -0,11 0,4 0,83 0,71 -0,14 0,5 0,86 0,75 -0,13 0,6 0,88 0,76 -0,12 0,7 -0,15 0,8 0,77 0,9 0,74 0,84 0,64 -0,25 Rataan 0,91 0,82 recall p1 p3 Perubahan (∆) 1 0,1 0,2 0,3 0,4 0,83 0,91 0,10 0,5 0,86 0,92 0,07 0,6 0,88 0,7 0,89 0,84 -0,06 0,8 0,81 -0,09 0,9 0,77 -0,10 0,70 -0,17 Rataan -0,02 Hasil dan Pembahasan Cont... 13

HASIL DAN PEMBAHASAN 1. Dilihat berdasar maksimum nilai precision Recall Gambar 1. Kurva recall-precision tahap p1, p2 dan tahap p3 dengan maksimum precision Hasil dan Pembahasan Cont... 24

HASIL DAN PEMBAHASAN 2. Dilihat berdasar minimum nilai precision Tabel 1 . Perbandingan minimum nilai precision tahap p1 dan tahap p2 Tabel 2 . Perbandingan minimum nilai precision tahap p1 dan tahap p3 recall p1 p2 Perubahan (∆) 0,02 0,03 0,50 0,1 0,04 1,00 0,2 0,01 3,00 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 0,00 Rataan 0,82 recall p1 p3 Perubahan (∆) 0,02 0,19 8,50 0,1 0,09 3,50 0,2 0,01 0,11 10,00 0,3 0,10 4,00 0,4 0,5 0,08 3,00 0,6 0,07 2,50 0,7 0,06 2,00 0,8 0,9 0,04 1,00 1 0,03 0,50 Rataan 3,73 Hasil dan Pembahasan Cont... 15

HASIL DAN PEMBAHASAN 2. Dilihat berdasar minimum nilai precision Recall Gambar 1. Kurva recall-precision tahap p1, p2 dan tahap p3 dengan minimum precision Hasil dan Pembahasan Cont... 16

HASIL DAN PEMBAHASAN 3. Dilihat berdasar rata-rata nilai precision Tabel 1 . Perbandingan Rata-rata nilai precision tahap p1 dan tahap p2 Tabel 2 . Perbandingan Rata-rata nilai precision tahap p1 dan tahap p3 recall p1 p2 Perubahan (∆) 0,48 0,60 0,25 0,1 0,38 0,26 0,2 0,35 0,41 0,17 0,3 0,32 0,19 0,4 0,28 0,34 0,21 0,5 0,27 0,29 0,07 0,6 0,04 0,7 0,23 -0,08 0,8 0,22 -0,14 0,9 0,20 -0,15 1 0,14 0,13 -0,07 Rataan recall p1 p3 Perubahan (∆) 0,48 0,78 0,63 0,1 0,38 0,68 0,79 0,2 0,35 0,54 0,3 0,32 0,50 0,56 0,4 0,28 0,43 0,5 0,27 0,41 0,52 0,6 0,26 0,37 0,42 0,7 0,25 0,33 0,8 0,22 0,9 0,20 0,24 1 0,14 0,16 Rataan 0,45 Hasil dan Pembahasan Cont... 17

HASIL DAN PEMBAHASAN 3. Dilihat berdasar rata-rata nilai precision Recall Gambar 1. Kurva recall-precision tahap p1, p2 dan tahap p3 dengan Rata-rata precision Hasil dan Pembahasan Cont... 18

HASIL DAN PEMBAHASAN Perbandingan Kinerja Temu Kembali dengan Jarak edit (Arumsari 1998) Tabel Perbandingan nilai precision dengan algoritme Damerau Levenshtein dengan metode Levenshtein (Arumsari). Precision recall pArumsari pDL Perubahan (∆) 0,65 0,78 0,20 0,1 0,56 0,68 0,21 0,2 0,45 0,54 0,3 0,4 0,5 0,25 0,36 0,43 0,19 0,34 0,41 0,6 0,31 0,37 0,7 0,28 0,33 0,18 0,8 0,22 0,27 0,9 0,24 1 0,13 0,16 0,23 Rataan 0,35 Recall Gambar Kurva recall-precision perbandingan menggunakan algoritme Damerau Levenshtein dengan Levenshtein Arumsari (1998) Hasil dan Pembahasan Kesimpulan dan Saran 19

KESIMPULAN DAN SARAN Kesimpulan Saran Implementasi algoritme Damerau Levenshtein dapat meningkatkan kinerja temu kembali dan query menjadi lebih optimal. Ini terlihat peningkatan secara rata-rata precision sebesar 45 % setelah dilakukan pengoreksian. Pengoreksian dengan algoritme Damerau Levenshtein lebih baik dibanding dengan metode jarak edit yang dilakukan oleh Arumsari (1998). Ini terlihat peningkatan precision 22% serta kata usulan yang diperoleh dengan algoritme Damerau Levenshtein lebih optimal. Saran Untuk menemukan kata usulan yang sedang diperiksa diperlukan algoritma pencarian yang hanya sebatas pada kata-kata di dalam kamus yang mendekati kata yang sedang diperiksa. Kata usulan yang diperoleh perlu ditentukan nilai peluang terhadap query. Sehingga jika kata usulan yang diperoleh memiliki lebih dari dua kata usulan yang memiliki jarak edit yang sama dapat ditentukan kata mana yang lebih optimal. Hasil dan Pembahasan Daftar Pustaka 20

DAFTAR PUSTAKA Arumsari, KN. 1998. Penggunaan Metode Kesamaan String pada Pemeriksaan Ejaan Bahasa Indonesia [skripsi]. Bogor: Departemen Ilmu Komputer, Fakultas MIPA, Institut Pertanian Bogor. [skripsi]. Bogor: Departemen Ilmu Komputer, Fakultas MIPA, Institut Pertanian Bogor. Bard GV. 2006. Spelling-Error Tolerant, Order-Independent Pass-Phrases via the Damerau-Levenshtein String-Edit Distance Metric. University of Maryland. Primasari D. 1997. Metode Pencarian dan Temu Kembali Nama Berdasarkan Kesamaan Fonetik. [skripsi]. Bogor: Departemen Ilmu Komputer, Fakultas MIPA, Institut Pertanian Bogor. Manning CD, Prabhakar R, Hinrich S. 2009. An Introduction to Information Retrieval. Cambridge University Press. Pfeifer U, Poersch T, Furh N. 1994. Searching Proper Names in Databases. University of Dortmund. Wahyudin, Aep. 1999. Algoritme Trigram untuk Mengoreksi Ejaan [skripsi]. Bogor: Departemen Ilmu Komputer, Fakultas MIPA, Institut Pertanian Bogor. Daftar Pustaka Demo Program 21

Demo Program Daftar Pustaka End... 22

Terima kasih Demo End... 23