Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

IMPLEMENTASI QUESTION ANSWERING SYSTEM DENGAN METODE RULE-BASED PADA BANYAK DOKUMEN BERBAHASA INDONESIA Disusun Oleh : Romaida Dolarosa S G64103003.

Presentasi serupa


Presentasi berjudul: "IMPLEMENTASI QUESTION ANSWERING SYSTEM DENGAN METODE RULE-BASED PADA BANYAK DOKUMEN BERBAHASA INDONESIA Disusun Oleh : Romaida Dolarosa S G64103003."— Transcript presentasi:

1 IMPLEMENTASI QUESTION ANSWERING SYSTEM DENGAN METODE RULE-BASED PADA BANYAK DOKUMEN BERBAHASA INDONESIA Disusun Oleh : Romaida Dolarosa S G Dibimbing Oleh : Ir. Julio Adisantoso, M.Kom. Sony Hartono, S.Kom.

2 PREVIEW PENDAHULUAN TINJAUAN PUSTAKA METODE PENELITIAN
HASIL DAN PEMBAHASAN KESIMPULAN DAN SARAN DAFTAR PUSTAKA

3 PENDAHULUAN

4 Latar Belakang Kueri berupa pertanyaan Informasi lebih spesifik

5 Penelitian Sebelumnya
Mengimplementasikan QAS untuk satu dokumen bacaan dan dokumen yang digunakan adalah dokumen Reading Comprehension Ikhsani 2006 Mengimplementasikan QAS dengan menggunakan surat Al-baqarah yang terdiri dari beberapa ayat sebagai koleksi dokumennya Anggraeny 2007

6 Rumusan Masalah Bagaimana QAS berbasis aturan (rule-based) dapat diimplementasikan pada banyak dokumen (multi document) Jumlah dokumen = 60 Sejauh mana QAS berbasis aturan jika digunakan pada dokumen bahasa Indonesia yang tidak menggunakan bahasa baku (sesuai EYD). Contoh : dokumen dari internet, dokumen dari media koran, dokumen dari media majalah, dan lain-lain.

7 Tujuan Mengimplementasikan sistem temu kembali informasi menggunakan kueri pertanyaan (Question Answering System) untuk banyak dokumen berbahasa Indonesia Menelaah kinerja sistem dalam mengembalikan jawaban yang relevan dari banyak dokumen bahasa Indonesia yang tidak hanya menggunakan bahasa yang baku

8 Ruang Lingkup Korpus terdiri atas beberapa dokumen bidang pertanian berbahasa Indonesia Proses pengembalian jawaban terbatas pada menemukembalikan kalimat jawaban yang sesuai dengan kueri pertanyaan yang diberikan dan koleksi dokumen yang dimiliki

9 Manfaat Terbentuk QAS yang dapat menemukembalikan jawaban atas kueri pertanyaan dari banyak dokumen (multi document ) berbahasa Indonesia Membuat korpus untuk jawaban yang relevan dari beberapa kueri pertanyaan standar yang dibuat oleh penulis.

10 TINJAUAN PUSTAKA

11 Temu Kembali Informasi
Representasi, penyimpanan, pengorganisasian, dan pengaksesan informasi Menyediakan kemudahan akses informasi bagi pengguna Tujuan utama : mengembalikan informasi yang relevan dengan kueri dan informasi yang tidak relevan sesedikit mungkin (Baeza-Yates & Ribeiro-Neto 1999).

12 QUARC (Question Answering System for Reading Comprehension)
Riloff & Thelen (2000) Dokumen diberikan kueri pertanyaan -> sistem akan menghitung nilai dari masing-masing kalimat pada dokumen tersebut Digunakan enam rule untuk lima tipe pertanyaan (WH question) Empat kemungkinan nilai, yaitu: clue (+3), good_clue (+4), confident (+6), dan slam_dunk (+20) Kalimat yang memiliki nilai tertinggi -> jawaban atas kueri yang diberikan Nilai akurasi: 40%

13 Algoritme Rules sudah diimplementasikan oleh Ikhsani (2006) mengacu pada QUARC yang dikembangkan Rillof & Thelen (2000)

14 Ambang Batas Nilai (Treshold of Score)
Score minimal yang harus dimiliki oleh kalimat dokumen agar dikembalikan sebagai kalimat jawaban. Penentuan tergantung nilai yang dimasukkan oleh pengguna.

15 Recall Precision (Grossman 2008)
jumlah kalimat atau informasi yang relevan yang dikembalikan oleh sistem dibandingkan dengan jumlah kalimat atau informasi relevan yang seharusnya dikembalikan oleh sistem Recall jumlah kalimat atau informasi yang relevan yang dikembalikan oleh sistem dibandingkan dengan jumlah kalimat atau informasi keseluruhan (relevan dan tidak relevan) yang dikembalikan oleh sistem. Precision Recall = Relevant-retrieved/Relevant Precision = Relevant-retieved/Retrieved

16 METODE PENELITIAN

17 Gambaran umum sistem Dokumen Data nama dokumen Parsing Data token
Kalimat -kalimat Token-token kalimat Data kalimat Parsing WordMatch Kueri Token-token kueri Stemming Rule Kalimat jawaban Treshold of Score

18 WordMatch nilai clue (+3) Setiap token yang sama dari kalimat dokumen dan kalimat kueri

19 Identifikasi Pertanyaan
KAPAN MANA MENGAPA SIAPA APA ! BAGAIMANA ! -KAH

20 Pengelompokan Tipe Jawaban
Untuk menemukan jawaban yang tepat Pembelajaran sistem Pengelompokan jawaban

21 Temu Kembali Jawaban Kalimat yang ditemukembalikan: Kalimat yang memiliki nilai tertinggi Tergantung nilai Treshold of Score yang dimasukkan pengguna Score yang sama dikembalikan berdasarkan urutan kalimat dalam dokumen dan urutan dokumen dalam basis data. Empat tingkatan nilai, yakni (Rillof & Thelen, 2000): clue (+3) good_clue (+4) confident (+6) slam_dunk (+20)

22 Evaluasi Persentase kalimat jawaban yang relevan untuk beberapa Treshold of Score Recall Precision

23 Asumsi Kueri dibuat sendiri oleh penulis Kamus dibuat secara manual
Rules yang digunakan mengacu pada rules yang sudah ada sebelumnya

24 Lingkungan Implementasi
Perangkat Lunak: Windows XP Professional Microsoft Visual Basic.NET 2005 SQL Server 2000 Perangkat Keras: Prosesor AMD Turion, 2.2 GHz RAM 512 MB Harddisk 80 GB

25 HASIL DAN PEMBAHASAN

26 Koleksi Dokumen Pengujian
Format dokumen adalah teks (*.txt) Disimpan dalam satu direktori dan mengandung tag XML Nama dokumen berdasarkan sumber data dan tanggal data diterbitkan Satu dokumen berisi satu atau lebih artikel bacaan dan setiap kalimat harus diakhiri oleh tanda titik (.)

27 Nilai 3 + 20 = 23 C:\KoleksiDokumen mediaindonesia050604-001.txt
Data nama dokumen Parsing kalimat Data token Kalimat -kalimat kata Token-token kalimat Data kalimat Parsing WordMatch Kueri Token-token kueri Stemming Rule Kapan bencana kering landa Kapan bencana kekeringan melanda? Kalimat jawaban Treshold of Score jawaban 23

28 Hasil Indexing Simpan nama dokumen Parsing menjadi kalimat
tb_dokumen Jumlah dokumen = 60 Parsing menjadi kalimat tb_kalimat Jumlah kalimat = 1760 Parsing dan stemming menjadi token tb_kata Jumlah kata = 28041

29 Pengelompokan Tipe Jawaban
Jawaban dari “APA” Pak, Bapak, Bu, Ibu, Prof, Dr, Ir kamus_orang.txt ORANG Jawaban dari “KAPAN” Januari, Senin, Tahun, Bulan, Hari kamus_waktu.txt WAKTU Jawaban dari “MANA” Jakarta, Yogyakarta, Sungai, Teluk, Kota, Desa kamus_tempat.txt TEMPAT

30 Algoritme Rule

31 Algoritme Rule (KAPAN)
Score(S) += WordMatch(Q,S) If contains(S,{saat, ketika, kala, semenjak, sejak, waktu, setelah, sebelum, sesudah,selama, pada}) and contains(S, TIME) then Score(S) += good_clue If contains(Q,TIME) Or containsS(S, TIME) then Score(S) += good_clue If contains(S,{saat, ketika, kala, semenjak, sejak, waktu, setelah, sebelum}) then Score(S) +=clue

32 Algoritme Rule (MANA) score(S) += WordMatch(Q,S) If contains(S,LOCATION) and contains(S,{dalam, dari, pada}) then Score(S) += slam_dunk If contains(S,{dalam, dari, pada}) then Score(S) += clue If contains(S,LOCATION) then Score(S) += good_clue

33 Algoritme Rule (MENGAPA)
Score(S) += WordMatch(Q,S) If contains(S,{karena, sebab, akibat, maka, agar, supaya}) then Score(S) += clue

34 Algoritme Rule (SIAPA)
score(S) += WordMatch(Q,S) If contains(Q,HUMAN) then score(S) += confident

35 Algoritme Rule (APA) Score(S) += WordMatch(Q,S) If contains(Q,{tujuan, manfaat}) and contains(S,{untuk, guna}) then Score(S) += confident Elseif contains(Q,{maksud}) and contains(S,{adalah, ialah, yaitu})then Score(S) += slam_dunk Elseif contains(Q,{ tujuan, manfaat}) and contains(S,{ adalah, ialah })then Score(S) += confident

36 Persentase hasil yang benar
Hasil Percobaan Persentase hasil yang benar

37 Recall Precision Precision = Relevant-retieved/Retrieved
Recall = Relevant-retrieved/Relevant Precision = Relevant-retieved/Retrieved

38 KAPAN MANA Evaluasi QAS Treshold of Score 26 = 94,44%
Recall Precision = 0,93 KAPAN Treshold of Score 26 = 76,8% Recall Precision = 0,88 MANA

39 Evaluasi (Lanj.) MENGAPA SIAPA APA Treshold of Score 7 = 64,95%
Recall Precision = 0,65 MENGAPA Treshold of Score 26 = 50% Recall Precision = 0,84 SIAPA Treshold of Score 9 = 25,88% Recall Precision = 0,88 APA

40 Kelebihan dan Kekurangan Sistem
Indexing dokumen hanya dilakukan satu kali yaitu di awal pembangunan sistem. Kueri pertanyaan menggunakan bahasa yang alami. Penggunaan Treshold of Score yang memudahkan pengguna untuk menentukan sendiri score minimal yang harus dikembalikan dan memutuskan sendiri kalimat jawaban yang relevan menurut pengguna. Kelebihan Jika terdapat penambahan dokumen, maka harus dilakukan pengindeksan ulang. Tidak dilakukan kajian terhadap makna semantik dalam dokumen. Kamus yang digunakan belum dibuat otomatis tapi secara manual dibuat penulis. Masih harus ada penyempurnaan untuk algoritma rule agar dokumen yang dikembalikan nilai persentasenya lebih bagus. Kekurangan

41 KESIMPULAN DAN SARAN

42 Kesimpulan Dari penelitian dihasilkan suatu Question Answering System pada banyak dokumen berbahasa Indonesia Pengembangan sistem menggunakan metode rule-based sehingga dihasilkan rule untuk setiap tipe pertanyaan

43 Kesimpulan (Lanj.) Dari evaluasi sistem, rule pada tipe pertanyaan ”KAPAN” mempunyai kinerja yang paling tinggi dan rule pada tipe pertanyaan ”APA” mempunyai kinerja yang paling rendah Kinerja sistem tertinggi dengan penggunaan treshold of score (ambang batas) 26, yang mengembalikan rata–rata 67,88%.

44 Saran Setiap sistem pertama kali dijalankan, maka hal yang pertama kali dilakukan adalah me-refresh database dan kemudian mengambil sumber data pada directory yang telah ditentukan. Menambahkan Part of Speech Tagging (POS Tagging) Membuat kamus otomatis agar hasil yang dicapai lebih objektif, Membuat WordMatch yang tidak hanya simple matching, misalnya dengan matriks kesamaan, Menyempurnakan rules terutama rule ”APA” agar kinerja sistem dapat ditingkatkan.

45 DAFTAR PUSTAKA

46 Daftar Pustaka Anggraeny M Implementasi Question Answering System dengan Metode Rule-Based pada Terjemahan Al-Qur’an Surat Al-baqarah [skripsi]. Bogor. Fakultas Matematika dan Ilmu Pengetahuan Alam. Institut Pertanian Bogor. Baeza-Yates R, Ribeiro-Neto B Modern Information Retrieval. Addison-Wesley.

47 Daftar Pustaka (Lanj.) Grossman D. IR Book. [12 Februari 2008]. Ikhsani N Implementasi Question Answering System dengan Metode Rule-Based untuk Temu Kembali Informasi Berbahasa Indonesia [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

48 Daftar Pustaka (Lanj.) Lin J An Introduction to Information Retrieval and Question Aswering. College of Information Studies University of Maryland. Porter M The Porter Stemming Algorithm. index-old/ [12 Februari 2008].

49 Daftar Pustaka (Lanj.) Ridha A Pengindeksan Otomatis dengan istilah Tunggal untuk Dokumen Berbahasa Indonesia [skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Riloff E, Thelen M A Rule-based Question Answering System for Reading Comprehension Tests. ANLP/NAACL-2000 Workshop on Reading Comprehension Tests as Evaluation for Computer-Based Language Understanding System.

50 DEMO PROGRAM

51 Question Answering (Lin 2004)
Tujuan Utama Menampilkan jawaban atas pertanyaan yang diberikan pengguna Ide Utama Menentukan tipe semantik jawaban yang diharapkan Menentukan dokumen yang memiliki keywords seperti pada pertanyaan Mencari entitas dengan tipe yang sesuai dengan pertanyaan, yang dekat dengan keywords

52 Parsing dan Stemming Parsing (Ridha 2002) Stemming (Porter 1980)
Proses pemilahan dokumen menjadi unit-unit yang lebih kecil Hasilnya berupa kata, frasa atau kalimat Parsing (Ridha 2002) Proses pemotongan imbuhan dari sebuah kata untuk mendapatkan kata dasarnya Stemming (Porter 1980)

53 Rule 1 “KAPAN” Score(S) += WordMatch(Q,S)
If contains (S, WAKTU) and contains (S,{saat,ketika,kala,semenjak,sejak,waktu, setelah,sebelum}) then Score(S) += slam_dunk If contains (S,WAKTU) then Score(S) += good_clue If contains (S,{saat,ketika,kala,semenjak, sejak,waktu,setelah,sebelum}) then

54 Rule (Lanj.) 2 “ MANA” Score(S) += WordMatch(Q,S)
If contains (S,TEMPAT) and contains (S, {dalam,dari,pada }) then Score(S) += slam_dunk If contains (S,{dalam,dari,pada}) then Score(S) += clue If contains (S,TEMPAT) then Score(S) += good_clue

55 Rule (Lanj.) 3 “MENGAPA” Score(S) += WordMatch(Q,S)
If contains (S,{karena,sebab,akibat, maka}) then Score(S) += confident 4 “SIAPA” Score(S) += WordMatch (Q,S) If ~contains (Q, ORANG) and contains (S, ORANG) then Score(S) += slam_dunk

56 Rule (Lanj.) 5 “APA” Score(S) += WordMatch (Q,S)
If contains (Q, {tujuan,manfaat}) and contains (S,{untuk,guna}) then Score(S) += confident Elseif contains (Q,maksud) and contains (S,{adalah,ialah}) then Score(S) += slam_dunk Elseif contains (S,{adalah,ialah}) then Score(S) +=confident


Download ppt "IMPLEMENTASI QUESTION ANSWERING SYSTEM DENGAN METODE RULE-BASED PADA BANYAK DOKUMEN BERBAHASA INDONESIA Disusun Oleh : Romaida Dolarosa S G64103003."

Presentasi serupa


Iklan oleh Google