IMPLEMENTASI QUESTION ANSWERING SYSTEM DENGAN METODE RULE-BASED PADA BANYAK DOKUMEN BERBAHASA INDONESIA Disusun Oleh : Romaida Dolarosa S G64103003.

Slides:



Advertisements
Presentasi serupa
PENGENALAN POLA Dr. Kusrini, M.Kom.
Advertisements

Konsep Dasar Sistem Temu Kembali Informasi
Analisis Kebutuhan Sistem Untuk Pengguna (User Requirement)
Tinjauan Kepustakaan.
SOFTWARE REQUIREMENT SPECIFICATION
ORGANISASI INFORMASI Sistem Temu Kembali Informasi
Konsep Dasar Sistem Temu Kembali Informasi
TEKNIK PENULISAN KARYA ILMIAH
Indonesia merupakan daerah rawan bencana karena merupakan daerah tektonik aktif tempat berinteraksinya berbagai lempeng bumi. PEMBANGUNAN PENGEKSPOR DATA.
Susunan Proposal Penelitian Skripsi
Smith-Waterman Pembuatan Aplikasi Pendeteksian Kemiripan Dokumen Teks dengan Algoritma for further detail, please visit
PENGANTAR ORGANISASI INFORMASI Sistem Temu Kembali Informasi (Information Retrieval System) Modul 11 Muslech, Dipl.Lib, MSi 3 Desember 2012.
Information Retrieval
LAB. BASIS DATA 1 ORACLE FUNDAMENTAL IYAN GUSTIANA S.KOM, M.KOM DOWNLOADOPTIMISAJA.BLOGSPOT.COM.
Aplikasi E-Kinerja Kantor Regional I Yogyakarta 2016
Final Project Temu Balik Informasi
Review Jurnal Nasional
ALGORITMA STEMMING DAN STOPLIST
METODE DAN MODEL TEMU BALIK INFORMASI Luthfi Nurrohman ( )
SISTEM INFORMASI GEOGRAFIS UNTUK PEMETAAN DAERAH RAWAN GEMPA TEKTONIK DI YOGYAKARTA SERTA JALUR EVAKUASI KORBAN GEMPA DENGAN RUTE TERPENDEK BY : EDI ISKANDAR.
IMPLEMENTASI QUESTION ANSWERING SYSTEM DENGAN METODE RULE-BASED PADA TERJEMAHAN AL QUR’AN SURAT AL BAQARAH Meynar Dwi Anggraeny G Dibimbing Oleh:
ALHURIYAH :Aplikasi Pengenalan Huruf Hijaiyah Berbasis speech recognition Menggunakan Mel Frequency Cepstral Coefficients (MFCC) Kelompok 10 Dian.
Rizki Pebuardi G Pembimbing : 1. Ir. Agus Buono, M.Si., M.Kom.
Oleh: Tri Endah Wijayanti G
Fernissa .F. (G ) Dosen Pembimbing : Shelvie Nidya Neyman S.Kom, M.Si
Disusun Oleh: AVE ABDI SARAGIH
Implementasi vector space model untuk pencarian dokumen
Natural Language Processing (NLP)
KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA
Sistem Informasi Pemetaan Profil Kriminalitas Berbasis Web
IMPLEMENTASI ALGORITME DAMERAU-LEVENSHTEIN UNTUK KOREKSI EJAAN QUERY BAHASA INDONESIA PADA SEARCH ENGINE     Oleh: Utis Sutisna G  
Review Jurnal Internasional
Metode Cluster Self-Organizing Map untuk Temu Kembali Citra
EFEKTIFITAS SELEKSI FITUR DALAM SISTEM TEMU-KEMBALI INFORMASI
Temu Balik Informasi Materi Pertemuan Ke – 3 Stoplist dan Stemming
Anggota Kelompok : Kurniawan Novi Pambudi
PEMBUATAN POHON KEPUTUSAN
Sistem Temu-Balik Informasi yasmi afrizal
Review Jurnal Temu Balik Informasi
Stoplist dan Stemming Anggota Kelompok :
Perkenalan Pertemuan ke-1 Sistem Temu-Balik Informasi.
Temu Balik Informasi Nama Kelompok : Ikhsan Fauji
SISTEMATIKA PENULISAN KARYA ILMIAH (MAKALAH)
Temu balik informasi Anggota Kelompok Ikhsan Fauji
SOSIALISASI TUGAS AKHIR (SKRIPSI)
FINAL PROJECT TEMU BALIK INFORMASI
TEMU BALIK INFORMASI TI 14 A.
Firman Ardiansyah, S.Kom, M.Si. Imas S. Sitanggang, S.Si., M.Kom
YUDHA ADITYA FIANDRA PENDIDIKAN TEKNIK INFORMATIKA DAN KOMPUTER
Ir. Julio Adisantoso, M.Kom.
Metode Penelitian Pertemuan 9
DOKUMENTASI DAN KEARSIPAN KELAS A Sistem Temu Kembali Informasi
Analisis Kebutuhan Sistem
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Temu Balik Informasi Anggota Kelomopok :
Perancangan Data Logis dan Fisik
TEXT OPERATION Muhammad Yusuf Teknik Multimedia dan Jaringan
TEKNIK PENULISAN KARYA ILMIAH
TUGAS AKHIR PERANCANGAN PROGRAM PENJUALAN DAN PEMBELIAN BARANG ELEKTRONIK SECARA TUNAI PERANCANGAN PROGRAM PENJUALAN DAN PEMBELIAN BARANG ELEKTRONIK.
Disusun Oleh: ABDUL KHAIR
Question Answering System
MAKALAH Disampaikan dalam diklat Penulisan Makalah Mahasiswa
HAKIKAT MAKALAH Kelompok 3: DEVRIE ADITYA PURNAMA GINA ARTHA
PROGRAM STUDI SISTEM INFORMASI FAKULTAS TEKNIK DAN ILMU KOMPUTER
Oleh : DENI ROMADONI (G ) Pembimbing : Dr. Ir. Sri Nurdiati, M.Sc
Oleh: Wahyu Dwi Suryanto G
M Ali Fauzi Indriati Sigit Adinugroho
FORMAT MAKALAH ILMIAH Siti zulzilah.
Nugraha Iman Santosa ( )
Analisis Kebutuhan Sistem
Transcript presentasi:

IMPLEMENTASI QUESTION ANSWERING SYSTEM DENGAN METODE RULE-BASED PADA BANYAK DOKUMEN BERBAHASA INDONESIA Disusun Oleh : Romaida Dolarosa S G64103003 Dibimbing Oleh : Ir. Julio Adisantoso, M.Kom. Sony Hartono, S.Kom.

PREVIEW PENDAHULUAN TINJAUAN PUSTAKA METODE PENELITIAN HASIL DAN PEMBAHASAN KESIMPULAN DAN SARAN DAFTAR PUSTAKA

PENDAHULUAN

Latar Belakang Kueri berupa pertanyaan Informasi lebih spesifik

Penelitian Sebelumnya Mengimplementasikan QAS untuk satu dokumen bacaan dan dokumen yang digunakan adalah dokumen Reading Comprehension Ikhsani 2006 Mengimplementasikan QAS dengan menggunakan surat Al-baqarah yang terdiri dari beberapa ayat sebagai koleksi dokumennya Anggraeny 2007

Rumusan Masalah Bagaimana QAS berbasis aturan (rule-based) dapat diimplementasikan pada banyak dokumen (multi document) Jumlah dokumen = 60 Sejauh mana QAS berbasis aturan jika digunakan pada dokumen bahasa Indonesia yang tidak menggunakan bahasa baku (sesuai EYD). Contoh : dokumen dari internet, dokumen dari media koran, dokumen dari media majalah, dan lain-lain.

Tujuan Mengimplementasikan sistem temu kembali informasi menggunakan kueri pertanyaan (Question Answering System) untuk banyak dokumen berbahasa Indonesia Menelaah kinerja sistem dalam mengembalikan jawaban yang relevan dari banyak dokumen bahasa Indonesia yang tidak hanya menggunakan bahasa yang baku

Ruang Lingkup Korpus terdiri atas beberapa dokumen bidang pertanian berbahasa Indonesia Proses pengembalian jawaban terbatas pada menemukembalikan kalimat jawaban yang sesuai dengan kueri pertanyaan yang diberikan dan koleksi dokumen yang dimiliki

Manfaat Terbentuk QAS yang dapat menemukembalikan jawaban atas kueri pertanyaan dari banyak dokumen (multi document ) berbahasa Indonesia Membuat korpus untuk jawaban yang relevan dari beberapa kueri pertanyaan standar yang dibuat oleh penulis.

TINJAUAN PUSTAKA

Temu Kembali Informasi Representasi, penyimpanan, pengorganisasian, dan pengaksesan informasi Menyediakan kemudahan akses informasi bagi pengguna Tujuan utama : mengembalikan informasi yang relevan dengan kueri dan informasi yang tidak relevan sesedikit mungkin (Baeza-Yates & Ribeiro-Neto 1999).

QUARC (Question Answering System for Reading Comprehension) Riloff & Thelen (2000) Dokumen diberikan kueri pertanyaan -> sistem akan menghitung nilai dari masing-masing kalimat pada dokumen tersebut Digunakan enam rule untuk lima tipe pertanyaan (WH question) Empat kemungkinan nilai, yaitu: clue (+3), good_clue (+4), confident (+6), dan slam_dunk (+20) Kalimat yang memiliki nilai tertinggi -> jawaban atas kueri yang diberikan Nilai akurasi: 40%

Algoritme Rules sudah diimplementasikan oleh Ikhsani (2006) mengacu pada QUARC yang dikembangkan Rillof & Thelen (2000)

Ambang Batas Nilai (Treshold of Score) Score minimal yang harus dimiliki oleh kalimat dokumen agar dikembalikan sebagai kalimat jawaban. Penentuan tergantung nilai yang dimasukkan oleh pengguna.

Recall Precision (Grossman 2008) jumlah kalimat atau informasi yang relevan yang dikembalikan oleh sistem dibandingkan dengan jumlah kalimat atau informasi relevan yang seharusnya dikembalikan oleh sistem Recall jumlah kalimat atau informasi yang relevan yang dikembalikan oleh sistem dibandingkan dengan jumlah kalimat atau informasi keseluruhan (relevan dan tidak relevan) yang dikembalikan oleh sistem. Precision Recall = Relevant-retrieved/Relevant Precision = Relevant-retieved/Retrieved

METODE PENELITIAN

Gambaran umum sistem Dokumen Data nama dokumen Parsing Data token Kalimat -kalimat Token-token kalimat Data kalimat Parsing WordMatch Kueri Token-token kueri Stemming Rule Kalimat jawaban Treshold of Score

WordMatch nilai clue (+3) Setiap token yang sama dari kalimat dokumen dan kalimat kueri

Identifikasi Pertanyaan KAPAN MANA MENGAPA SIAPA APA ! BAGAIMANA ! -KAH

Pengelompokan Tipe Jawaban Untuk menemukan jawaban yang tepat Pembelajaran sistem Pengelompokan jawaban

Temu Kembali Jawaban Kalimat yang ditemukembalikan: Kalimat yang memiliki nilai tertinggi Tergantung nilai Treshold of Score yang dimasukkan pengguna Score yang sama dikembalikan berdasarkan urutan kalimat dalam dokumen dan urutan dokumen dalam basis data. Empat tingkatan nilai, yakni (Rillof & Thelen, 2000): clue (+3) good_clue (+4) confident (+6) slam_dunk (+20)

Evaluasi Persentase kalimat jawaban yang relevan untuk beberapa Treshold of Score Recall Precision

Asumsi Kueri dibuat sendiri oleh penulis Kamus dibuat secara manual Rules yang digunakan mengacu pada rules yang sudah ada sebelumnya

Lingkungan Implementasi Perangkat Lunak: Windows XP Professional Microsoft Visual Basic.NET 2005 SQL Server 2000 Perangkat Keras: Prosesor AMD Turion, 2.2 GHz RAM 512 MB Harddisk 80 GB

HASIL DAN PEMBAHASAN

Koleksi Dokumen Pengujian Format dokumen adalah teks (*.txt) Disimpan dalam satu direktori dan mengandung tag XML Nama dokumen berdasarkan sumber data dan tanggal data diterbitkan Satu dokumen berisi satu atau lebih artikel bacaan dan setiap kalimat harus diakhiri oleh tanda titik (.)

Nilai 3 + 20 = 23 C:\KoleksiDokumen mediaindonesia050604-001.txt Data nama dokumen Parsing kalimat Data token Kalimat -kalimat kata Token-token kalimat Data kalimat Parsing WordMatch Kueri Token-token kueri Stemming Rule Kapan bencana kering landa Kapan bencana kekeringan melanda? Kalimat jawaban Treshold of Score jawaban 23

Hasil Indexing Simpan nama dokumen Parsing menjadi kalimat tb_dokumen Jumlah dokumen = 60 Parsing menjadi kalimat tb_kalimat Jumlah kalimat = 1760 Parsing dan stemming menjadi token tb_kata Jumlah kata = 28041

Pengelompokan Tipe Jawaban Jawaban dari “APA” Pak, Bapak, Bu, Ibu, Prof, Dr, Ir kamus_orang.txt ORANG Jawaban dari “KAPAN” Januari, Senin, Tahun, Bulan, Hari kamus_waktu.txt WAKTU Jawaban dari “MANA” Jakarta, Yogyakarta, Sungai, Teluk, Kota, Desa kamus_tempat.txt TEMPAT

Algoritme Rule

Algoritme Rule (KAPAN) Score(S) += WordMatch(Q,S) If contains(S,{saat, ketika, kala, semenjak, sejak, waktu, setelah, sebelum, sesudah,selama, pada}) and contains(S, TIME) then Score(S) += good_clue If contains(Q,TIME) Or containsS(S, TIME) then Score(S) += good_clue If contains(S,{saat, ketika, kala, semenjak, sejak, waktu, setelah, sebelum}) then Score(S) +=clue

Algoritme Rule (MANA) score(S) += WordMatch(Q,S) If contains(S,LOCATION) and contains(S,{dalam, dari, pada}) then Score(S) += slam_dunk If contains(S,{dalam, dari, pada}) then Score(S) += clue If contains(S,LOCATION) then Score(S) += good_clue

Algoritme Rule (MENGAPA) Score(S) += WordMatch(Q,S) If contains(S,{karena, sebab, akibat, maka, agar, supaya}) then Score(S) += clue

Algoritme Rule (SIAPA) score(S) += WordMatch(Q,S) If contains(Q,HUMAN) then score(S) += confident

Algoritme Rule (APA) Score(S) += WordMatch(Q,S) If contains(Q,{tujuan, manfaat}) and contains(S,{untuk, guna}) then Score(S) += confident Elseif contains(Q,{maksud}) and contains(S,{adalah, ialah, yaitu})then Score(S) += slam_dunk Elseif contains(Q,{ tujuan, manfaat}) and contains(S,{ adalah, ialah })then Score(S) += confident

Persentase hasil yang benar Hasil Percobaan Persentase hasil yang benar

Recall Precision Precision = Relevant-retieved/Retrieved Recall = Relevant-retrieved/Relevant Precision = Relevant-retieved/Retrieved

KAPAN MANA Evaluasi QAS Treshold of Score 26 = 94,44% Recall Precision = 0,93 KAPAN Treshold of Score 26 = 76,8% Recall Precision = 0,88 MANA

Evaluasi (Lanj.) MENGAPA SIAPA APA Treshold of Score 7 = 64,95% Recall Precision = 0,65 MENGAPA Treshold of Score 26 = 50% Recall Precision = 0,84 SIAPA Treshold of Score 9 = 25,88% Recall Precision = 0,88 APA

Kelebihan dan Kekurangan Sistem Indexing dokumen hanya dilakukan satu kali yaitu di awal pembangunan sistem. Kueri pertanyaan menggunakan bahasa yang alami. Penggunaan Treshold of Score yang memudahkan pengguna untuk menentukan sendiri score minimal yang harus dikembalikan dan memutuskan sendiri kalimat jawaban yang relevan menurut pengguna. Kelebihan Jika terdapat penambahan dokumen, maka harus dilakukan pengindeksan ulang. Tidak dilakukan kajian terhadap makna semantik dalam dokumen. Kamus yang digunakan belum dibuat otomatis tapi secara manual dibuat penulis. Masih harus ada penyempurnaan untuk algoritma rule agar dokumen yang dikembalikan nilai persentasenya lebih bagus. Kekurangan

KESIMPULAN DAN SARAN

Kesimpulan Dari penelitian dihasilkan suatu Question Answering System pada banyak dokumen berbahasa Indonesia Pengembangan sistem menggunakan metode rule-based sehingga dihasilkan rule untuk setiap tipe pertanyaan

Kesimpulan (Lanj.) Dari evaluasi sistem, rule pada tipe pertanyaan ”KAPAN” mempunyai kinerja yang paling tinggi dan rule pada tipe pertanyaan ”APA” mempunyai kinerja yang paling rendah Kinerja sistem tertinggi dengan penggunaan treshold of score (ambang batas) 26, yang mengembalikan rata–rata 67,88%.

Saran Setiap sistem pertama kali dijalankan, maka hal yang pertama kali dilakukan adalah me-refresh database dan kemudian mengambil sumber data pada directory yang telah ditentukan. Menambahkan Part of Speech Tagging (POS Tagging) Membuat kamus otomatis agar hasil yang dicapai lebih objektif, Membuat WordMatch yang tidak hanya simple matching, misalnya dengan matriks kesamaan, Menyempurnakan rules terutama rule ”APA” agar kinerja sistem dapat ditingkatkan.

DAFTAR PUSTAKA

Daftar Pustaka Anggraeny M. 2007. Implementasi Question Answering System dengan Metode Rule-Based pada Terjemahan Al-Qur’an Surat Al-baqarah [skripsi]. Bogor. Fakultas Matematika dan Ilmu Pengetahuan Alam. Institut Pertanian Bogor. Baeza-Yates R, Ribeiro-Neto B. 1999. Modern Information Retrieval. Addison-Wesley.

Daftar Pustaka (Lanj.) Grossman D. IR Book. http://www.ir.iit.edu/~dagr/cs529/ir_book/ [12 Februari 2008]. Ikhsani N. 2006. Implementasi Question Answering System dengan Metode Rule-Based untuk Temu Kembali Informasi Berbahasa Indonesia [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Daftar Pustaka (Lanj.) Lin J. 2004. An Introduction to Information Retrieval and Question Aswering. College of Information Studies University of Maryland. Porter M. 1980. The Porter Stemming Algorithm. http://tartarus.org/~martin/PorterStemmer/ index-old/ [12 Februari 2008].

Daftar Pustaka (Lanj.) Ridha A. 2002. Pengindeksan Otomatis dengan istilah Tunggal untuk Dokumen Berbahasa Indonesia [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Riloff E, Thelen M. 2002. A Rule-based Question Answering System for Reading Comprehension Tests. ANLP/NAACL-2000 Workshop on Reading Comprehension Tests as Evaluation for Computer-Based Language Understanding System.

DEMO PROGRAM

Question Answering (Lin 2004) Tujuan Utama Menampilkan jawaban atas pertanyaan yang diberikan pengguna Ide Utama Menentukan tipe semantik jawaban yang diharapkan Menentukan dokumen yang memiliki keywords seperti pada pertanyaan Mencari entitas dengan tipe yang sesuai dengan pertanyaan, yang dekat dengan keywords

Parsing dan Stemming Parsing (Ridha 2002) Stemming (Porter 1980) Proses pemilahan dokumen menjadi unit-unit yang lebih kecil Hasilnya berupa kata, frasa atau kalimat Parsing (Ridha 2002) Proses pemotongan imbuhan dari sebuah kata untuk mendapatkan kata dasarnya Stemming (Porter 1980)

Rule 1 “KAPAN” Score(S) += WordMatch(Q,S) If contains (S, WAKTU) and contains (S,{saat,ketika,kala,semenjak,sejak,waktu, setelah,sebelum}) then Score(S) += slam_dunk If contains (S,WAKTU) then Score(S) += good_clue If contains (S,{saat,ketika,kala,semenjak, sejak,waktu,setelah,sebelum}) then

Rule (Lanj.) 2 “ MANA” Score(S) += WordMatch(Q,S) If contains (S,TEMPAT) and contains (S, {dalam,dari,pada }) then Score(S) += slam_dunk If contains (S,{dalam,dari,pada}) then Score(S) += clue If contains (S,TEMPAT) then Score(S) += good_clue

Rule (Lanj.) 3 “MENGAPA” Score(S) += WordMatch(Q,S) If contains (S,{karena,sebab,akibat, maka}) then Score(S) += confident 4 “SIAPA” Score(S) += WordMatch (Q,S) If ~contains (Q, ORANG) and contains (S, ORANG) then Score(S) += slam_dunk

Rule (Lanj.) 5 “APA” Score(S) += WordMatch (Q,S) If contains (Q, {tujuan,manfaat}) and contains (S,{untuk,guna}) then Score(S) += confident Elseif contains (Q,maksud) and contains (S,{adalah,ialah}) then Score(S) += slam_dunk Elseif contains (S,{adalah,ialah}) then Score(S) +=confident