IMPLEMENTASI QUESTION ANSWERING SYSTEM DENGAN METODE RULE-BASED PADA TERJEMAHAN AL QUR’AN SURAT AL BAQARAH Meynar Dwi Anggraeny G64103038 Dibimbing Oleh:

Slides:



Advertisements
Presentasi serupa
Konsep Dasar Sistem Temu Kembali Informasi
Advertisements

Praktikum Sistem Temu Balik Informasi
PI, Manajemen Informatika, Fakultas Ilmu Komputer, Universitas Gunadarma, PENGGUNAAN APLIKASI YAHOO SEARCH HACK for further detail, please visit
ORGANISASI INFORMASI Sistem Temu Kembali Informasi
StopList dan Stemming yasmi afrizal
Konsep Dasar Sistem Temu Kembali Informasi
Rama Lesmana Pendidikan Matematika
PEMBUATAN Firman Yudhistira
Smith-Waterman Pembuatan Aplikasi Pendeteksian Kemiripan Dokumen Teks dengan Algoritma for further detail, please visit
PENGANTAR ORGANISASI INFORMASI Sistem Temu Kembali Informasi (Information Retrieval System) Modul 11 Muslech, Dipl.Lib, MSi 3 Desember 2012.
Information Retrieval
PERANGKAT LUNAK : APLIKASI PENGOLAH KATA
PRIHANDOKO S.Kom, MIT, PDH
Final Project Temu Balik Informasi
Review Jurnal Nasional
Temu Balik Informasi Materi Pertemuan Ke – 1 Materi Dasar TBI
Temu Balik Informasi BY : Taufik Ari Arnandan ( )
TEMU BALIK INFORMASI.
Rizki Pebuardi G Pembimbing : 1. Ir. Agus Buono, M.Si., M.Kom.
Konsep dan Model-model Sistem Temu Balik Informasi
MANAJEMEN PEMANTAUAN PERANGKAT JARINGAN KOMPUTER KAMPUS IPB DARMAGA
Fernissa .F. (G ) Dosen Pembimbing : Shelvie Nidya Neyman S.Kom, M.Si
ANALISIS KELAYAKAN.
Disusun Oleh: AVE ABDI SARAGIH
Implementasi vector space model untuk pencarian dokumen
Natural Language Processing (NLP)
TEMU BALIK INFORMASI Multimedia Dalam Temu Balik Informasi.
Pengembangan Sistem Informasi Manajemen Akademik Berbasis Web
KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA
Sistem Informasi Pemetaan Profil Kriminalitas Berbasis Web
Oleh: Ineza Nur Oktabroni (G )
IMPLEMENTASI ALGORITME DAMERAU-LEVENSHTEIN UNTUK KOREKSI EJAAN QUERY BAHASA INDONESIA PADA SEARCH ENGINE     Oleh: Utis Sutisna G  
EFEKTIFITAS SELEKSI FITUR DALAM SISTEM TEMU-KEMBALI INFORMASI
Desain User Interface dan Input
Anggota Kelompok : Kurniawan Novi Pambudi
Sistem Temu-Balik Informasi yasmi afrizal
Perkenalan Pertemuan ke-1 Sistem Temu-Balik Informasi.
Temu Balik Informasi Nama Kelompok : Ikhsan Fauji
Temu balik informasi Anggota Kelompok Ikhsan Fauji
Basis Data Klien Server dan Basis data Internet Materi 7
TEMU BALIK INFORMASI TI 14 A.
Firman Ardiansyah, S.Kom, M.Si. Imas S. Sitanggang, S.Si., M.Kom
TUJUAN (1) Mahasiswa dapat menjelaskan Ilmu Pengolahan Text dan Informasi. (C2) Mahasiswa dapat menjelaskan Model-model Sistem Temu Balik Informasi. (C2)
StopList dan Stemming yasmi afrizal
Ir. Julio Adisantoso, M.Kom.
“PEMBUATAN WEBSITE INFORMASI DATA NILAI MAHASISWA NURDIANTO
Pertemuan 5 Electronic Commerce
Pembuatan Website Untuk Pemesanan Daging Sapi Di PD
PCLINUXOS TEKNIK PEMBUATAN DISTRO LINUX ATUNEZ-ME BERBASIS
Bayu pratama nugroho, s.kom, m.t
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Pengenalan Dasar Web dan HTML
Aplikasi Teknologi Informasi bagian 2
Temu Balik Informasi Anggota Kelomopok :
Sistem TEMU KEMBALI INFORMASI
PEMBUATAN WEBSITE SEKOLAH AL-HIKMAH MENGGUNAKAN Robani
TEXT OPERATION Muhammad Yusuf Teknik Multimedia dan Jaringan
TUGAS AKHIR PERANCANGAN PROGRAM PENJUALAN DAN PEMBELIAN BARANG ELEKTRONIK SECARA TUNAI PERANCANGAN PROGRAM PENJUALAN DAN PEMBELIAN BARANG ELEKTRONIK.
Question Answering System
ANALISIS KELAYAKAN.
ANALISIS KELAYAKAN.
Firman Ardiansyah S.Komp, M.Si.
Oleh : DENI ROMADONI (G ) Pembimbing : Dr. Ir. Sri Nurdiati, M.Sc
Pengenalan Temu Balik Informasi.
Oleh: Wahyu Dwi Suryanto G
Nugraha Iman Santosa ( )
IMPLEMENTASI QUESTION ANSWERING SYSTEM DENGAN METODE RULE-BASED PADA BANYAK DOKUMEN BERBAHASA INDONESIA Disusun Oleh : Romaida Dolarosa S G
Cross-Language Information Retrieval (CLIR)
PEMBUATAN MODUL PROBABILISTIK DENGAN MENGGUNAKAN Septo Dwi Winarto
PEMBUATAN WEBSITE E-COMMERCE TOKO PC GAME ONLINE Firman Isai
Transcript presentasi:

IMPLEMENTASI QUESTION ANSWERING SYSTEM DENGAN METODE RULE-BASED PADA TERJEMAHAN AL QUR’AN SURAT AL BAQARAH Meynar Dwi Anggraeny G64103038 Dibimbing Oleh: Firman Ardiansyah, S.Kom., M.Si. Hari Agung Adrianto, S.Kom., M.Si. 23 Juni 2007

PENDAHULUAN

Latar Belakang www.Ask.com www.answerbus.com Kueri berupa pertanyaan Informasi lebih spesifik www.Ask.com www.answerbus.com Q : Di mana tempat syi’ar Allah? A : Sesungguhnya Shafa dan Marwa adalah sebahagian dari syi’ar Allah Dengan adanya kueri berupa pertanyaan, pengguna akan mendapatkan informasi yang lebih spesifik. Beberapa search engine yang telah memilki fasilitas kueri berupa pertanyaan diantaranya www.ask.com, www.answerbus.com, TellMe QA System, AskEd! Dll Misalnya dengan kueri “Di mana tempat syi’ar Allah?” akan dihasilkan jawaban “Sesungguhnya Shafa dan Marwa ada;ah sebahagian dari syi’ar Allah”.

Menentukan rule berdasarkan pola dokumen Tujuan Menentukan rule berdasarkan pola dokumen Mengimplementasikan Question Answering System menggunakan kueri pertanyaan dengan metode rule-based pada terjemahan Al Qur’an surat Al Baqarah Menganalisis tingkat akurasi sistem dalam menemukembalikan jawaban relevan berdasarkan kueri pengguna

Ruang Lingkup Dokumen yang digunakan adalah terjemahan Al Qur’an surat Al Baqarah dalam bahasa Indonesia (terjemahan DEPAG 1989) Dokumen memiliki format teks (*.txt) dan tidak menyertakan informasi yang terdapat pada catatan kaki Proses pengembalian jawaban hanya terbatas pada menemukembalikan kalimat jawaban yang sesuai dengan kueri pengguna Penelitian ini mengacu pada sistem Quarc (Question Answering System for Reading Comprehension) yang telah dikembangkan oleh Riloff dan Thelen (2000)

Manfaat Diharapkan terbentuk suatu Question Answering System (QAS) untuk terjemahan Al Qur’an surat Al Baqarah Dengan memberikan kueri pertanyaan ke dalam sistem, pengguna dapat mengetahui informasi yang terkandung dalam terjemahan Al Baqarah

TINJAUAN PUSTAKA

Temu Kembali Informasi Temu kembali informasi berkaitan dengan representasi, penyimpanan, pengorganisasian, dan pengaksesan informasi Sistem temu kembali informasi berhubungan dengan teks bahasa alami yang tidak selalu terstruktur dengan baik dan bersifat ambigu (Baeza-Yates & Ribeiro-Neto 1999) BAEZA_YATES & RIBEIRO_NETTO 1999: - TKI berkaitan dengan representasi, penyimpanan, dan pengaksesan informasi TKI berhubungan dengan teks bahsa alami yang tidak selalu terstruktur dengan baik dan bersifat ambigu LANCASTER (1968) dalam RIJSBERGEN (1979): TKI tidak mengubah pengetahuan pengguna, hanya sebatas memberitahukan keberadaan/tidak dari dokumen + keterangan dokumen yg berhubungan BAEZA-YATES Tujuan utama yaitu : menemukembalikan jawaban yang relevan dan sedikit mungkin mengembalikan jawaban yang tidak relevan Tujuan utama Temu Kembali DATA: menentukan dokumen yang memiliki kata kunci sesuai dgn kueri pengguna dalam sekumpulan dokumen Perbedaan TKD dan TKI (Rijsbergen): MATCHING : Exact Match – Partial (Best) Match INFERENCE : Deduksi – Induksi MODEL : Deterministik – Probabilistic KLASIFIKASI : Monothetic – Polythetic BAHASA QUERY: Artificial – Natural SPESIFIKASI QUERY: Lengkap – Tidak lengkap ITEM YG DIINGINKAN : Matching - Relevan RESPON EROR : Sensitif – Tidak Sensitif Kerangka Sistem Informasi: Pengguna Dokumen -> indeks

Question Answering Menurut Wikipedia: Maybury 2004 Proses interaktif antara manusia dengan komputer yang meliputi pemahaman terhadap kebutuhan informasi pengguna, menampilkan, dan memaparkan respon yang efektif Kebutuhan informasi pengguna meliputi kueri dalam bentuk bahasa alami, pengembalian dokumen relevan, menyaring, dan mengutamakan jawaban dari sumber Lin 2004 Tujuan utamanya yaitu menampilkan jawaban atas pertanyaan yang diberikan pengguna Menurut Wikipedia: QA -> tipe dari IR dimana sistem dapat mengembalikan jawaban dari pertanyaan user yg menggunakan bahasa natural Metode QA: Shallow Menggunakan keyword Deep Lebih rumit, menggunakan name-entity recognition, syntatic alternation, word sense disambiguition dll Arsitektur QA : Klasifikasi Query Document retrieval module -> uses search engines Use Filter -> who is -> ke kamus orang Answer extraction -> bagaimana clue yg digunakan untuk menampilkan jawaban CLOSED-DOMAIN QA yang berhubungan dgn dokumen yg terbatas ruang lingkup nya OPEN-DOMAIN QA yang berhubungan dengan dokumen dari kumpulan semua dokumen dan world knowledge Mempunyai data yg lebih banyak dalam mengembalikan jawaban

Quarc (Question Answering System for Reading Comprehension) Riloff dan Thelen (2000) Dokumen diberikan kueri pertanyaan -> sistem akan menghitung nilai dari masing-masing kalimat pada dokumen tersebut Digunakan enam rule untuk lima tipe pertanyaan (WH question) Empat kemungkinan nilai, yaitu: clue (+3), good_clue (+4), confident (+6), dan slam_dunk (+20) Kalimat yang memiliki nilai tertinggi -> jawaban atas kueri yang diberikan Nilai akurasi: 40%

Parsing Grossman 2007 Proses pengenalan token yang terdapat dalam rangkaian teks Jackson dan Moulinier 2002 Sering kali spasi digunakan sebagai pemisah antar token

Stemming Grossman 2007 Proses pemotongan imbuhan dari suatu kata untuk mendapatkan kata dasarnya

METODE PENELITIAN

Gambaran Umum Sistem Dokumen-dokumen Parsing Kalimat-kalimat WordMatch Data nama dokumen Parsing Kalimat-kalimat Data kalimat Data kata WordMatch Rule Parsing Stemming Token-token Kueri Token-token Kalimat Jawaban

Setiap token yang sama dari kalimat dokumen dan kalimat kueri WordMatch Setiap token yang sama dari kalimat dokumen dan kalimat kueri nilai clue (+3)

Identifikasi Tipe Pertanyaan APA SIAPA KAPAN MENGAPA MANA ! BAGAIMANA ! -KAH

Pengelompokan Tipe Jawaban Untuk menemukan jawaban yang tepat Pembelajaran sistem Pengelompokan jawaban

Temu Kembali Jawaban Empat tingkatan nilai, yakni (Rillof & Thelen, 2000): clue (+3) good_clue (+4) confident (+6) slam_dunk (+20) Kalimat yang ditemukembalikan: kalimat yang memiliki nilai tertinggi

Evaluasi Sistem dengan: Persentase = Persentase hasil evaluasi ∑Ar = Jumlah kalimat relevan yang ditemukembalikan ∑A = Jumlah kalimat yang ditemukembalikan

Asumsi Kamus pengelompokan tipe jawaban yang digunakan dibuat secara manual Rule-rule yang digunakan dibuat dengan memperhatikan pola dokumen yang digunakan

Lingkungan Implementasi Perangkat Lunak: Windows XP Professional XAMPP versi 1.4.13 [PHP: 5.0.4, MySQL: 4.1.11, dan Apache 2.0.53] Macromedia Dreamweaver MX 2004 IE 7.0, Netscape versi 8.0.1 Perangkat Keras: Prosesor Intel Pentium IV 2.8 GHz RAM 768 MB Harddisk 40 GB Keyboard, mouse, dan monitor

HASIL DAN PEMBAHASAN

Koleksi Dokumen Pengujian Dokumen pengujian berformat teks (*.txt) Dokumen disimpan dalam satu direktori dan tidak terdapat tag-tag tertentu seperti XML atau HTML Satu dokumen berisi satu terjemahan ayat dimana sebuah kalimat harus diakhiri oleh tanda titik (.)

Koleksi Dokumen Pengujian (Lanj.) Pengubahan pada dokumen: Penggabungan beberapa ayat Menambahkan tanda titik pada akhir kalimat Berdasarkan jumlah ayat: 286 dokumen, setelah dilakukan proses penggabungan ayat, jumlah dokumen menjadi 274 Jumlah kalimat dalam keseluruhan dokumen adalah 609

Dokumen-dokumen Ayat 158 Parsing Kalimat-kalimat safa marwah ngada Sesungguhnya Safa dan Marwah adalah sebahagian dari syi'ar Allah. Maka barang siapa yang beribadah haji ke Baitullah atau ber-umrah, maka tidak ada dosa baginya mengerjakan sa'i antara keduanya. Dan barang siapa yang mengerjakan suatu kebajikan dengan kerelaan hati, maka sesungguhnya Allah Maha Mensyukuri kebaikan lagi Maha Mengetahui. Rule Dokumen-dokumen Parsing Data nama dokumen Kalimat-kalimat Stemming Data kalimat Kueri WordMatch Token-token Kalimat Jawaban Data kata Ayat 158 Sesungguhnya Safa dan Marwah adalah sebahagian dari syi'ar Allah safa marwah ngada bahag syiar ngallah Nilai : 6 + 20 = 26 mana nempat syiar ngallah Di mana tempat syi’ar Allah? Sesungguhnya Safa dan Marwah adalah sebahagian dari syi'ar Allah

Pengelompokan Tipe Jawaban ORANG Jawaban dari APA Allah, Kami, manusia, syaitan kamus_orang.txt WAKTU Jawaban dari KAPAN Hari, malam, tahun kamus_waktu.txt TEMPAT Jawaban dari MANA Shafa, Marwah, surga, neraka kamus_tempat.txt

Algoritma Rule (APA) Q = (Q - {apa}) If(Q,{Allah}) then (Q + {kami}) elseif(Q,{kami}) then (Q + {kamu}) else (Q,Q) Score(S) += wordMatch (Q,S) If contains (Q,{maksud}) and contains (S,{adalah,yaitu}) then Score(S) += slam_dunk If contains (S,{adalah,yaitu}) then Score(S) += confident

Algoritma Rule (MENGAPA) Q = (Q - {mengapa}) If(Q,{Allah}) then (Q + {kami}) elseif(Q,{kami}) then (Q + {kamu}) else (Q,Q) Score(S) += WordMatch(Q,S) If contains (S,{agar,karena,supaya}) then Score(S) += slam_dunk

Algoritma Rule (SIAPA) Q = (Q - {siapa}) If(Q,{Allah}) then (Q + {kami}) elseif(Q,{kami}) then (Q + {kamu}) else (Q,Q) Score(S) += wordMatch (Q,S) If ~contains (Q, ORANG) and contains (S, ORANG) then Score(S) += confident If contains (Q, ORANG) and contains (S, ORANG) then Score(S) += slam_dunk

Algoritma Rule (KAPAN) Q = (Q - {kapan}) If(Q,{kami}) then (Q + {kamu}) else (Q,Q) Score(S) += wordMatch(Q,S) If contains (S, WAKTU) and contains(S,{pada,selama}) then Score(S) += confident If contains (S,WAKTU) then Score(S) += good_clue

Algoritma Rule (MANA) Q = (Q - {mana,dimana,kemana}) Score(S) += wordMatch(Q,S) If contains (S,TEMPAT) then Score(S) += slam_dunk

Evaluasi Question Answering System

EvaluasiQuestion Answering System (Lanj.) Kueri Penelitian 85.69% Kueri Pengguna Umum 53.14%

Kelebihan dan Kekurangan Sistem Sistem berbasis web Kueri dalam bentuk bahasa alami Indexing dokumen hanya dilakukan sekali, yaitu indexing dokumen di awal pembangunan sistem Kekurangan Pengindeksan ulang saat penambahan dokumen Tidak dilakukan kajian terhadap hubungan makna semantik dalam dokumen Penelitian ini belum menggunakan thesaurus dan hanya menggunakan simple matching

KESIMPULAN DAN SARAN

Kesimpulan Penelitian menghasilkan suatu Question Answering System pada terjemahan Al Qur’an surat Al Baqarah Pengembangan sistem menggunakan metode rule-based sehingga dihasilkan rule untuk setiap tipe pertanyaan

Kesimpulan (Lanj.) Dari evaluasi sistem, rule pada tipe pertanyaan ”SIAPA” mempunyai kinerja yang paling tinggi dan rule pada tipe pertanyaan ”MANA” mempunyai kinerja yang paling rendah Secara keseluruhan, akurasi rata-rata rule terhadap kueri penelitian adalah 85.69%, sedangkan akurasi rata-rata rule terhadap kueri pengguna umum adalah 53.14%

Saran Dikembangkan menjadi sebuah Question Answering System untuk terjemahan Al Qur’an yang lengkap Beberapa alternatif pengembangan yang dapat dilakukan: Penggunaan Part of Speech Tagging (POS Tagging) Pembuatan kamus otomatis Penggunaan thesaurus dan WordMatch yang tidak hanya menggunakan simple matching Penggunaan hubungan semantik antar kalimat terjemahan

DAFTAR PUSTAKA

Daftar Pustaka Alwi H, Dardjowidjojo S, Lapoliwa H, Moeliono AM. 2003. Tata Bahasa Baku Indonesia Ed. ke-3. Jakarta: Balai Pustaka. Baeza-Yates R, Ribeiro-Neto B. 1999. Modern Information Retrieval. Addison-Wesley. [DEPAG] Departemen Agama. 1989. Al Qur’an dan Terjemahnya. Semarang: Toha Putra. Grossman D. IR Book. http://www.ir.iit.edu/ ~dagr/cs529/files/ir_book/ [13 Juni 2007] Ikhsani N. 2006. Implementasi Question Answering System dengan Metode Rule-Based untuk Temu Kembali Informasi Berbahasa Indonesia [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Jackson P, Moulinier I. 2002. Natural Language Processing for Online Applications: Text Retrieval, Extraction and Categorization. John Benjamin Publishing Company. Alwi et al. -> tata bahasa indonesia Grossman -> TKI Ikhsani -> QAS pada bacaan SD kelas 4 dgn evaluasinya terhadap threshold Jackson -> NLP

Daftar Pustaka (Lanj.) Lin J. 2004. An Introduction to Information Retrieval and Question Answering. College of Information Studies University of Maryland. Maybury MT. 2004. New Direction in Question Answering. AAAI Press / The MIT Press. Nadirman F. 2006. Sistem Temu-Kembali Informasi dengan Metode Vector Space Model pada Pencarian File Dokumen Berbasis Teks [skripsi]. Yogyakarta: Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Gadjah Mada. Ridha A. 2002. Pengindeksan Otomatis dengan istilah Tunggal untuk Dokumen Berbahasa Indonesia [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Riloff E, Thelen M. 2000. A Rule-based Question Answering System for Reading Comprehension Tests. ANLP/NAACL-2000 Workshop on Reading Comprehension Tests as Evaluation for Computer-Based Language Understanding System. Lin -> tujuan dari QAS Maybury -> arsitektur untuk QAS advance dan berbagai tipe data Nadirman -> TKI dengan vektor space Riloff -> rule-based

DEMO PROGRAM