IMPLEMENTASI QUESTION ANSWERING SYSTEM DENGAN METODE RULE-BASED PADA TERJEMAHAN AL QUR’AN SURAT AL BAQARAH Meynar Dwi Anggraeny G64103038 Dibimbing Oleh: Firman Ardiansyah, S.Kom., M.Si. Hari Agung Adrianto, S.Kom., M.Si. 23 Juni 2007
PENDAHULUAN
Latar Belakang www.Ask.com www.answerbus.com Kueri berupa pertanyaan Informasi lebih spesifik www.Ask.com www.answerbus.com Q : Di mana tempat syi’ar Allah? A : Sesungguhnya Shafa dan Marwa adalah sebahagian dari syi’ar Allah Dengan adanya kueri berupa pertanyaan, pengguna akan mendapatkan informasi yang lebih spesifik. Beberapa search engine yang telah memilki fasilitas kueri berupa pertanyaan diantaranya www.ask.com, www.answerbus.com, TellMe QA System, AskEd! Dll Misalnya dengan kueri “Di mana tempat syi’ar Allah?” akan dihasilkan jawaban “Sesungguhnya Shafa dan Marwa ada;ah sebahagian dari syi’ar Allah”.
Menentukan rule berdasarkan pola dokumen Tujuan Menentukan rule berdasarkan pola dokumen Mengimplementasikan Question Answering System menggunakan kueri pertanyaan dengan metode rule-based pada terjemahan Al Qur’an surat Al Baqarah Menganalisis tingkat akurasi sistem dalam menemukembalikan jawaban relevan berdasarkan kueri pengguna
Ruang Lingkup Dokumen yang digunakan adalah terjemahan Al Qur’an surat Al Baqarah dalam bahasa Indonesia (terjemahan DEPAG 1989) Dokumen memiliki format teks (*.txt) dan tidak menyertakan informasi yang terdapat pada catatan kaki Proses pengembalian jawaban hanya terbatas pada menemukembalikan kalimat jawaban yang sesuai dengan kueri pengguna Penelitian ini mengacu pada sistem Quarc (Question Answering System for Reading Comprehension) yang telah dikembangkan oleh Riloff dan Thelen (2000)
Manfaat Diharapkan terbentuk suatu Question Answering System (QAS) untuk terjemahan Al Qur’an surat Al Baqarah Dengan memberikan kueri pertanyaan ke dalam sistem, pengguna dapat mengetahui informasi yang terkandung dalam terjemahan Al Baqarah
TINJAUAN PUSTAKA
Temu Kembali Informasi Temu kembali informasi berkaitan dengan representasi, penyimpanan, pengorganisasian, dan pengaksesan informasi Sistem temu kembali informasi berhubungan dengan teks bahasa alami yang tidak selalu terstruktur dengan baik dan bersifat ambigu (Baeza-Yates & Ribeiro-Neto 1999) BAEZA_YATES & RIBEIRO_NETTO 1999: - TKI berkaitan dengan representasi, penyimpanan, dan pengaksesan informasi TKI berhubungan dengan teks bahsa alami yang tidak selalu terstruktur dengan baik dan bersifat ambigu LANCASTER (1968) dalam RIJSBERGEN (1979): TKI tidak mengubah pengetahuan pengguna, hanya sebatas memberitahukan keberadaan/tidak dari dokumen + keterangan dokumen yg berhubungan BAEZA-YATES Tujuan utama yaitu : menemukembalikan jawaban yang relevan dan sedikit mungkin mengembalikan jawaban yang tidak relevan Tujuan utama Temu Kembali DATA: menentukan dokumen yang memiliki kata kunci sesuai dgn kueri pengguna dalam sekumpulan dokumen Perbedaan TKD dan TKI (Rijsbergen): MATCHING : Exact Match – Partial (Best) Match INFERENCE : Deduksi – Induksi MODEL : Deterministik – Probabilistic KLASIFIKASI : Monothetic – Polythetic BAHASA QUERY: Artificial – Natural SPESIFIKASI QUERY: Lengkap – Tidak lengkap ITEM YG DIINGINKAN : Matching - Relevan RESPON EROR : Sensitif – Tidak Sensitif Kerangka Sistem Informasi: Pengguna Dokumen -> indeks
Question Answering Menurut Wikipedia: Maybury 2004 Proses interaktif antara manusia dengan komputer yang meliputi pemahaman terhadap kebutuhan informasi pengguna, menampilkan, dan memaparkan respon yang efektif Kebutuhan informasi pengguna meliputi kueri dalam bentuk bahasa alami, pengembalian dokumen relevan, menyaring, dan mengutamakan jawaban dari sumber Lin 2004 Tujuan utamanya yaitu menampilkan jawaban atas pertanyaan yang diberikan pengguna Menurut Wikipedia: QA -> tipe dari IR dimana sistem dapat mengembalikan jawaban dari pertanyaan user yg menggunakan bahasa natural Metode QA: Shallow Menggunakan keyword Deep Lebih rumit, menggunakan name-entity recognition, syntatic alternation, word sense disambiguition dll Arsitektur QA : Klasifikasi Query Document retrieval module -> uses search engines Use Filter -> who is -> ke kamus orang Answer extraction -> bagaimana clue yg digunakan untuk menampilkan jawaban CLOSED-DOMAIN QA yang berhubungan dgn dokumen yg terbatas ruang lingkup nya OPEN-DOMAIN QA yang berhubungan dengan dokumen dari kumpulan semua dokumen dan world knowledge Mempunyai data yg lebih banyak dalam mengembalikan jawaban
Quarc (Question Answering System for Reading Comprehension) Riloff dan Thelen (2000) Dokumen diberikan kueri pertanyaan -> sistem akan menghitung nilai dari masing-masing kalimat pada dokumen tersebut Digunakan enam rule untuk lima tipe pertanyaan (WH question) Empat kemungkinan nilai, yaitu: clue (+3), good_clue (+4), confident (+6), dan slam_dunk (+20) Kalimat yang memiliki nilai tertinggi -> jawaban atas kueri yang diberikan Nilai akurasi: 40%
Parsing Grossman 2007 Proses pengenalan token yang terdapat dalam rangkaian teks Jackson dan Moulinier 2002 Sering kali spasi digunakan sebagai pemisah antar token
Stemming Grossman 2007 Proses pemotongan imbuhan dari suatu kata untuk mendapatkan kata dasarnya
METODE PENELITIAN
Gambaran Umum Sistem Dokumen-dokumen Parsing Kalimat-kalimat WordMatch Data nama dokumen Parsing Kalimat-kalimat Data kalimat Data kata WordMatch Rule Parsing Stemming Token-token Kueri Token-token Kalimat Jawaban
Setiap token yang sama dari kalimat dokumen dan kalimat kueri WordMatch Setiap token yang sama dari kalimat dokumen dan kalimat kueri nilai clue (+3)
Identifikasi Tipe Pertanyaan APA SIAPA KAPAN MENGAPA MANA ! BAGAIMANA ! -KAH
Pengelompokan Tipe Jawaban Untuk menemukan jawaban yang tepat Pembelajaran sistem Pengelompokan jawaban
Temu Kembali Jawaban Empat tingkatan nilai, yakni (Rillof & Thelen, 2000): clue (+3) good_clue (+4) confident (+6) slam_dunk (+20) Kalimat yang ditemukembalikan: kalimat yang memiliki nilai tertinggi
Evaluasi Sistem dengan: Persentase = Persentase hasil evaluasi ∑Ar = Jumlah kalimat relevan yang ditemukembalikan ∑A = Jumlah kalimat yang ditemukembalikan
Asumsi Kamus pengelompokan tipe jawaban yang digunakan dibuat secara manual Rule-rule yang digunakan dibuat dengan memperhatikan pola dokumen yang digunakan
Lingkungan Implementasi Perangkat Lunak: Windows XP Professional XAMPP versi 1.4.13 [PHP: 5.0.4, MySQL: 4.1.11, dan Apache 2.0.53] Macromedia Dreamweaver MX 2004 IE 7.0, Netscape versi 8.0.1 Perangkat Keras: Prosesor Intel Pentium IV 2.8 GHz RAM 768 MB Harddisk 40 GB Keyboard, mouse, dan monitor
HASIL DAN PEMBAHASAN
Koleksi Dokumen Pengujian Dokumen pengujian berformat teks (*.txt) Dokumen disimpan dalam satu direktori dan tidak terdapat tag-tag tertentu seperti XML atau HTML Satu dokumen berisi satu terjemahan ayat dimana sebuah kalimat harus diakhiri oleh tanda titik (.)
Koleksi Dokumen Pengujian (Lanj.) Pengubahan pada dokumen: Penggabungan beberapa ayat Menambahkan tanda titik pada akhir kalimat Berdasarkan jumlah ayat: 286 dokumen, setelah dilakukan proses penggabungan ayat, jumlah dokumen menjadi 274 Jumlah kalimat dalam keseluruhan dokumen adalah 609
Dokumen-dokumen Ayat 158 Parsing Kalimat-kalimat safa marwah ngada Sesungguhnya Safa dan Marwah adalah sebahagian dari syi'ar Allah. Maka barang siapa yang beribadah haji ke Baitullah atau ber-umrah, maka tidak ada dosa baginya mengerjakan sa'i antara keduanya. Dan barang siapa yang mengerjakan suatu kebajikan dengan kerelaan hati, maka sesungguhnya Allah Maha Mensyukuri kebaikan lagi Maha Mengetahui. Rule Dokumen-dokumen Parsing Data nama dokumen Kalimat-kalimat Stemming Data kalimat Kueri WordMatch Token-token Kalimat Jawaban Data kata Ayat 158 Sesungguhnya Safa dan Marwah adalah sebahagian dari syi'ar Allah safa marwah ngada bahag syiar ngallah Nilai : 6 + 20 = 26 mana nempat syiar ngallah Di mana tempat syi’ar Allah? Sesungguhnya Safa dan Marwah adalah sebahagian dari syi'ar Allah
Pengelompokan Tipe Jawaban ORANG Jawaban dari APA Allah, Kami, manusia, syaitan kamus_orang.txt WAKTU Jawaban dari KAPAN Hari, malam, tahun kamus_waktu.txt TEMPAT Jawaban dari MANA Shafa, Marwah, surga, neraka kamus_tempat.txt
Algoritma Rule (APA) Q = (Q - {apa}) If(Q,{Allah}) then (Q + {kami}) elseif(Q,{kami}) then (Q + {kamu}) else (Q,Q) Score(S) += wordMatch (Q,S) If contains (Q,{maksud}) and contains (S,{adalah,yaitu}) then Score(S) += slam_dunk If contains (S,{adalah,yaitu}) then Score(S) += confident
Algoritma Rule (MENGAPA) Q = (Q - {mengapa}) If(Q,{Allah}) then (Q + {kami}) elseif(Q,{kami}) then (Q + {kamu}) else (Q,Q) Score(S) += WordMatch(Q,S) If contains (S,{agar,karena,supaya}) then Score(S) += slam_dunk
Algoritma Rule (SIAPA) Q = (Q - {siapa}) If(Q,{Allah}) then (Q + {kami}) elseif(Q,{kami}) then (Q + {kamu}) else (Q,Q) Score(S) += wordMatch (Q,S) If ~contains (Q, ORANG) and contains (S, ORANG) then Score(S) += confident If contains (Q, ORANG) and contains (S, ORANG) then Score(S) += slam_dunk
Algoritma Rule (KAPAN) Q = (Q - {kapan}) If(Q,{kami}) then (Q + {kamu}) else (Q,Q) Score(S) += wordMatch(Q,S) If contains (S, WAKTU) and contains(S,{pada,selama}) then Score(S) += confident If contains (S,WAKTU) then Score(S) += good_clue
Algoritma Rule (MANA) Q = (Q - {mana,dimana,kemana}) Score(S) += wordMatch(Q,S) If contains (S,TEMPAT) then Score(S) += slam_dunk
Evaluasi Question Answering System
EvaluasiQuestion Answering System (Lanj.) Kueri Penelitian 85.69% Kueri Pengguna Umum 53.14%
Kelebihan dan Kekurangan Sistem Sistem berbasis web Kueri dalam bentuk bahasa alami Indexing dokumen hanya dilakukan sekali, yaitu indexing dokumen di awal pembangunan sistem Kekurangan Pengindeksan ulang saat penambahan dokumen Tidak dilakukan kajian terhadap hubungan makna semantik dalam dokumen Penelitian ini belum menggunakan thesaurus dan hanya menggunakan simple matching
KESIMPULAN DAN SARAN
Kesimpulan Penelitian menghasilkan suatu Question Answering System pada terjemahan Al Qur’an surat Al Baqarah Pengembangan sistem menggunakan metode rule-based sehingga dihasilkan rule untuk setiap tipe pertanyaan
Kesimpulan (Lanj.) Dari evaluasi sistem, rule pada tipe pertanyaan ”SIAPA” mempunyai kinerja yang paling tinggi dan rule pada tipe pertanyaan ”MANA” mempunyai kinerja yang paling rendah Secara keseluruhan, akurasi rata-rata rule terhadap kueri penelitian adalah 85.69%, sedangkan akurasi rata-rata rule terhadap kueri pengguna umum adalah 53.14%
Saran Dikembangkan menjadi sebuah Question Answering System untuk terjemahan Al Qur’an yang lengkap Beberapa alternatif pengembangan yang dapat dilakukan: Penggunaan Part of Speech Tagging (POS Tagging) Pembuatan kamus otomatis Penggunaan thesaurus dan WordMatch yang tidak hanya menggunakan simple matching Penggunaan hubungan semantik antar kalimat terjemahan
DAFTAR PUSTAKA
Daftar Pustaka Alwi H, Dardjowidjojo S, Lapoliwa H, Moeliono AM. 2003. Tata Bahasa Baku Indonesia Ed. ke-3. Jakarta: Balai Pustaka. Baeza-Yates R, Ribeiro-Neto B. 1999. Modern Information Retrieval. Addison-Wesley. [DEPAG] Departemen Agama. 1989. Al Qur’an dan Terjemahnya. Semarang: Toha Putra. Grossman D. IR Book. http://www.ir.iit.edu/ ~dagr/cs529/files/ir_book/ [13 Juni 2007] Ikhsani N. 2006. Implementasi Question Answering System dengan Metode Rule-Based untuk Temu Kembali Informasi Berbahasa Indonesia [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Jackson P, Moulinier I. 2002. Natural Language Processing for Online Applications: Text Retrieval, Extraction and Categorization. John Benjamin Publishing Company. Alwi et al. -> tata bahasa indonesia Grossman -> TKI Ikhsani -> QAS pada bacaan SD kelas 4 dgn evaluasinya terhadap threshold Jackson -> NLP
Daftar Pustaka (Lanj.) Lin J. 2004. An Introduction to Information Retrieval and Question Answering. College of Information Studies University of Maryland. Maybury MT. 2004. New Direction in Question Answering. AAAI Press / The MIT Press. Nadirman F. 2006. Sistem Temu-Kembali Informasi dengan Metode Vector Space Model pada Pencarian File Dokumen Berbasis Teks [skripsi]. Yogyakarta: Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Gadjah Mada. Ridha A. 2002. Pengindeksan Otomatis dengan istilah Tunggal untuk Dokumen Berbahasa Indonesia [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Riloff E, Thelen M. 2000. A Rule-based Question Answering System for Reading Comprehension Tests. ANLP/NAACL-2000 Workshop on Reading Comprehension Tests as Evaluation for Computer-Based Language Understanding System. Lin -> tujuan dari QAS Maybury -> arsitektur untuk QAS advance dan berbagai tipe data Nadirman -> TKI dengan vektor space Riloff -> rule-based
DEMO PROGRAM