Question Answering System

Slides:



Advertisements
Presentasi serupa
Desain Dan Analisis Algoritma
Advertisements

Database Spatial Mendeskripsikan sekumpulan entity yg memiliki lokasi atau posisi yg tetap maupun tidak tetap. Tipe2 entity spatial ini memiliki properties.
Materi 4 : Aljabar Boolean Dosen : Ulil Hamida
Once there was a man who asked God for a flower and a butterfly Suatu ketika seorang lelaki mohon kepada Tuhan sekuntum bunga dan seekor kupu-kupu.
Arsitektur Sistem Pakar
BAHASA INGGRIS KELAS V SEMESTER 2
Evaluasi Proyek.
GRADE/ SEMESTER : VII/ I
Design and Analysis Algorithm
Association Rule (Apriori Algorithm)
Muhammad Yusuf Teknik Multimedia dan Jaringan UNIVERSITAS TRUNOJOYO.
Information Retrieval
RISET KHALAYAK Nora N. Amal, S.Sos., M.L.M.Ed., Hons.
Appropriate Measures of Central Tendency Nominal variables Mode Ordinal variables Median Interval level variables Mean - If the distribution is normal.
Algoritma dan Struktur Data
BAHASA INGGRIS KELAS V SEMESTER 2
MEDIA PEMBELAJARAN BAHASA INGGRIS 2011 PROGRAM STUDI PENDIDIKAN BAHASA INGGRIS FAKULTAS KEGURUAN DAN ILMU PENDIDIKAN UNIVERSITAS MAHASARASWATI.
Perencanaan Pengujian (Test Plan) Pertemuan 4
1 Pertemuan > > Matakuliah: >/ > Tahun: > Versi: >
Sistem Temu-Balik Informasi INFORMATION RETRIEVAL SYSTEMS (IRS)
IMPLEMENTASI QUESTION ANSWERING SYSTEM DENGAN METODE RULE-BASED PADA TERJEMAHAN AL QUR’AN SURAT AL BAQARAH Meynar Dwi Anggraeny G Dibimbing Oleh:
Datamart dan Datawarehouse
Natural Language Processing (NLP)
Sistem Temu Balik Informasi Multimedia
KNOWLEDGE REPRESENTATION
MATERI PERKULIAHAN ANALISIS ALGORITMA
SPECIFIC INFORMATION By Asmuni Gani.
SISTEM TEMU KEMBALI INFORMASI
TIM PENGAMPU SIG: Siswanto Kemal Wijaya Moch. Arifin
“LITERASI OLIMPIADE SAINS NASIONAL BIDANG MATEMATIKA MELALUI PENGEMBANGAN MEDIA PEMBELAJARAN MATEMATIKA BERBASIS EKSPLORASI BAGI GURU-GURU SD/MI DI KECAMATAN.
Information Extraction and Named Entity Recognition
BY EKA ANDRIANI NOVALIA RIZKANISA VELA DESTINA
Model Heuristik Dr. Sri Kusumadewi, S.Si., MT. Materi Kuliah [8]:
ALGORITMA DAN PEMROGRAMAN
KIAT MENGERJAKAN READING COMPREHENSION
BAHASA INGGRIS KELAS V SEMESTER 2
MEANING OF WORD/ PHRASE/SENTENCES
FISIKA DASAR By: Mohammad Faizun, S.T., M.Eng.
T(ea) for Two Again Tests Between the Means of Related Groups
Kuis 1 April 2017 Pilih Suatu Proyek IT
Prinsip Data Warehouse
Open and Closed Social Stratification
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Oleh : Rahmat Robi Waliyansyah, M.Kom.
TEXT OPERATION Muhammad Yusuf Teknik Multimedia dan Jaringan
Validasi dan Verifikasi Software
Sistem Temu-Balik Informasi INFORMATION RETRIEVAL SYSTEMS (IRS)
Web Search Engine (Mesin Pencari Web)
CROSS LANGUAGE INFORMATION RETRIEVAL (CLIR)
Master data Management
DETAILED INFORMATION By Asmuni Gani.
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Analisis Korelasi dan Regresi Berganda Manajemen Informasi Kesehatan
Sistem sertifikasi produk
Algoritma dan Struktur Data
How Can I Be A Driver of The Month as I Am Working for Uber?
© Mark E. Damon - All Rights Reserved Another Presentation © All rights Reserved
Text Mining ..
GUNAWAN Materi Kuliah [8]: (Sistem Pendukung Keputusan)
Pengenalan Temu Balik Informasi.
EVALUATING SELECTION TECHNIQUES & DECISIONS
IMPLEMENTASI QUESTION ANSWERING SYSTEM DENGAN METODE RULE-BASED PADA BANYAK DOKUMEN BERBAHASA INDONESIA Disusun Oleh : Romaida Dolarosa S G
Pengambilan Keputusan Etis Ciri Ciri Keputusan Etis, Upaya Pengambilan Keputusan Etis, Keputusan yang dipengaruhi Tabi’at, Lingkungan Sosial, Hubungan.
By : Rahmat Robi Waliyansyah, M.Kom
Two Groups Too Many? Try Analysis of Variance
By Yulius Suprianto Macroeconomics | 02 Maret 2019 Chapter-5: The Standard of Living Over Time and A Cross Countries Source: http//
Perulangan (Loop) Oleh : Tim Teaching
Temu Kembali Informasi
"More Than Words" Saying I love you, Is not the words, I want to hear from you, It's not that I want you, Not to say but if you only knew, How easy, it.
2. Discussion TASK 1. WORK IN PAIRS Ask your partner. Then, in turn your friend asks you A. what kinds of product are there? B. why do people want to.
Transcript presentasi:

Question Answering System Oleh : Rahmat Robi Waliyansyah, M.Kom.

QA vs Search Engine Search engine atau IR QAS Query berbentuk keyword Hasil jawaban berupa dokumen QAS Query berbentuk bahasa alami (pertanyaan) → NLP Hasil jawaban berupa entitas yang tepat Kombinasi IR dan NLP

Jenis Pertanyaan Orang: pekerjaan, peranan, posisi Siapa Susilo Bambang Yudhoyono? Organisasi: nama, kegiatannya dsb. Apa itu UNICEF? Lokasi Dimana ibukota Indonesia? Waktu dari suatu kejadian (date) Kapan Pangeran Diponegoro wafat? Ukuran (kuantitas. jarak, lamanya - measure of distance) Berapa jumlah penduduk Bogor? Cara suatu hal bisa terjadi (how) Bagaimana Pangeran Diponegoro wafat? “Pertanyaan bisa tidak mempunyai jawaban”

Evaluasi Dilakukan oleh manusia Jawaban dinilai dari segi Reponsiveness (pasangan jawaban-dokID) Ketepatan (untuk setiap jawaban) Pemberian penilaian Wrong (W) : jawaban tidak benar Unsupported (U): jawaban benar tapi dokumen tidak mendukung Inexact (X): jawaban dan dokumen benar tapi terlalu panjang Right (R) : jawaban dan dokumen benar

Metode QAS, Li & Croft (2001)

Contoh Proses Memperoleh Jawaban Query : What is the capital of <LOC>Somalia</LOC>? †Passage : Here there is no coordination. <PERSON>Steffan de Mistura</PERSON>– <ORG>UNICEF</ORG> representative in the Somali Capital, <LOC>Mogadishu</LOC> and head of the anti-cholera team–said far more <LOC>Mogadishu</LOC>, anti refugees are crowded together here without proper housing or sanitarian than during the <LOC>Somalia</LOC> crisis. And many are already sick and exhausted by the long trek from <LOC>Rwanda<LOC>. String yang diambil adalah yang mempunyai jarak yang terkecil dan yang paling banyak mempunyai kata sesuai query.

Pengembangan QAS (Riloff & Thelen (2000), Ikhsani (2006), Romaida (2008)) Menemukan jawaban pada dokumen yang menggunakan bahasa baku. Jawaban berupa kalimat pada dokumen yang memiliki nilai skor tertinggi. Rule-based Question Answering System. Jenis pertanyaan: Apa, Siapa, Kapan, Mengapa, Mana.

Tingkatan pemberian nilai clue : +3 good_clue : +4 confident : +6 slam dunk : +20 WordMatch: kondisi dimana setiap token pada kalimat query sama dengan setiap token pada kalimat dokumen, dan diberi nilai CLUE

Rules: KAPAN? Score(S) += WordMatch(Q,S) If contains(S,{saat, ketika, kala, semenjak, sejak, waktu, setelah, sebelum, sesudah,selama, pada}) and contains(S, TIME) then Score(S) += good_clue If contains(Q,TIME) Or containsS(S, TIME) then If contains(S,{saat, ketika, kala, semenjak, sejak, waktu, setelah, sebelum}) then Score(S) +=clue

Rules: MANA? Score(S) += WordMatch(Q,S) If contains(S,LOCATION) and contains(S,{dalam, dari, pada}) then Score(S) += slam_dunk If contains(S,{dalam, dari, pada}) then Score(S) += clue If contains(S,LOCATION) then Score(S) += good_clue

Rules: MENGAPA? Score(S) += WordMatch(Q,S) If contains(S,{karena, sebab, akibat, maka, agar, supaya}) then Score(S) += clue

Rules: SIAPA? score(S) += WordMatch(Q,S) If contains(Q,HUMAN) then score(S) += confident

Pengembangan QAS (Ballesteros & Xiaoyan-li (2007), Dewa Ayu Tenara K C (2009)) Jawaban berupa entitas yang tepat Menggunakan metode Li & Croft (2001) Name entity tagging pada dokumen (Pangudi, 2009) Pemilihan passage menggunakan pembobotan heuristic Tipe pertanyaan : Siapa, Kapan, Dimana, Berapa

Metode

Ekstraksi jawaban Identifikasi named entity pada dokumen Dokumen dipartisi menjadi passages yang terdiri dari dua kalimat yang saling Berdampingan Dilakukan pembobotan terhadap passages Jumlah kata pada query yang terdapat pada passages. Apakah kata-kata yang cocok terdapat pada kalimat yang sama. Ukuran dari passages terbaik. Jarak kandidat jawaban dengan passages terbaik.

Pembobotan Passages Hanya perhitungkan passages yang memiliki NE yang sesuai dengan query. Ambil count_m = jumlah kata pada query yang terdapat pada passages, dan count_q = jumlah kata pada query. Jika jumlah kata yang cocok kurang dari threshold (t), score = 0, selain itu, score = count_m. Cara menentukan threshold (t) : Jika jumlah kata pada query < 4, t = count_q Jika antara 4-8, t = count_q/2.0+1.0 Jika >8, t = count_q/3.0+2.0.

Pembobotan Passages Jika seluruh mathching words terletak pada satu kalimat Sm = 1, selainnya Sm = 0 Jika matching words terletak pada urutan yang sama Ord = 1, selainnya Ord = 0 W = the best matching window. Ukuran passages yang mengandung matching word terbanyak score = score + (count_m / W) Heuristic Score score = count_m + 0.5*Sm + 0.5*Ord + count_m/W

Contoh hasil QAS

Open Ephyra Ephyra is a modular and extensible framework for question answering. Open Ephyra is the freely-available, open-source version of the Ephyra QA system. Four stages: question analysis, query generation, search and answer extraction, and selection. http://www.cs.cmu.edu/~nico/ephyra Based on Java. Indexer : Google knowledge miner Indri knowledge miner (http://sourceforge.net/projects/lemur/)

Open Ephyra Architectures