Temu Kembali Informasi

Slides:



Advertisements
Presentasi serupa
Peserta mengerti tahap-tahap pada ADC
Advertisements

KIMIA UNSUR-UNSUR TRANSISI
PERTEMUAN 3 Algoritma & Pemrograman
Penyelidikan Operasi 1. Konsep Optimisasi.
KEBIJAKAN PEMERINTAH PROVINSI JAWA TIMUR
Penyusunan Data Baseline dan Perhitungan Capaian Kegiatan Peningkatan Kualitas Permukiman Kumuh Perkotaan DIREKTORAT PENGEMBANGAN KAWASAN PERMUKIMAN DIREKTORAT.
BALTHAZAR KREUTA, SE, M.SI
PENGEMBANGAN KARIR DOSEN Disarikan dari berbagai sumber oleh:
Identitas, persamaan dan pertidaksamaan trigonometri
ANGGOTA KELOMPOK WISNU WIDHU ( ) WILDAN ANUGERAH ( )
METODE PENDUGAAN ALTERNATIF
Dosen Pengampu: Muhammad Zidny Naf’an, M.Kom
GERAK SUGIYO, SPd.M.Kom.
Uji Hipotesis Luthfina Ariyani.
SOSIALISASI PEKAN IMUNISASI NASIONAL (PIN) POLIO 2016
PENGEMBANGAN BUTIR SOAL
Uji mana yang terbaik?.
Analisis Regresi linear berganda
PEERSIAPAN DAN PENERAPAN ISO/IEC 17025:2005 OLEH: YAYAN SETIAWAN
E Penilaian Proses dan Hasil Belajar
b. Kematian (mortalitas)
Ilmu Komputasi BAGUS ADHI KUSUMA
Uji Hipotesis dengan SPSS
OVERVIEW PERUBAHAN PSAK EFFEKTIF 2015
Pengolahan Citra Berwarna
Teori Produksi & Teori Biaya Produksi
Pembangunan Ekonomi dan Pertumbuhan Ekonomi
PERSIAPAN UN MATEMATIKA
Kriptografi.
1 Bab Pembangunan Ekonomi dan Pertumbuhan Ekonomi.
Ekonomi untuk SMA/MA kelas XI Oleh: Alam S..
ANALISIS PENDAPATAN NASIONAL DALAM PEREKONOMIAN TIGA SEKTOR
Dosen: Atina Ahdika, S.Si., M.Si.
Anggaran biaya konversi
Junaidi Fakultas Ekonomi dan Bisnis Universitas Jambi
Pemodelan dan Analisis
Bab 4 Multivibrator By : M. Ramdhani.
Analisis Regresi – (Lanjutan)
Perkembangan teknologi masa kini dalam kaitannya dengan logika fazi
DISTRIBUSI PELUANG KONTINU
FETAL PHASE Embryolgy II
Yusuf Enril Fathurrohman
3D Viewing & Projection.
Sampling Pekerjaan.
Gerbang Logika Dwi Indra Oktoviandy (A )
SUGIYO Fisika II UDINUS 2014
D10K-6C01 Pengolahan Citra PCD-04 Algoritma Pengolahan Citra 1
Perpajakan di Indonesia
Bab 2 Kinerja Perusahaan dan Analisis Laporan Keuangan
Penyusunan Anggaran Bahan Baku
MOMENTUM, IMPULS, HUKUM KEKEKALAN MOMENTUM DAN TUMBUKAN
Theory of Computation 3. Math Fundamental 2: Graph, String, Logic
Strategi Tata Letak.
Theory of Computation 2. Math Fundamental 1: Set, Sequence, Function
METODE PENELITIAN.
(Skewness dan kurtosis)
Departemen Teknik Mesin dan Biosistem INSTITUT PERTANIAN BOGOR
Dasar-dasar piranti photonik
Klasifikasi Dokumen Teks Berbahasa Indonesia
Mekflu_1 Rangkaian Pipa.
Digital to Analog Conversion dan Rekonstruksi Sinyal Tujuan Belajar 1
SEKSI NERACA WILAYAH DAN ANALISIS BPS KABUPATEN TEMANGGUNG
ASPEK KEPEGAWAIAN DALAM PENILAIAN ANGKA KREDIT
RANGKAIAN DIODA TK2092 Elektronika Dasar Semester Ganjil 2015/2016
Ruang Euclides dan Ruang Vektor 1.
Bab Anuitas Aritmetrik dan Geometrik
Penyelidikan Operasi Pemrograman Dinamik Deterministik.
Kesetimbangan Fase dalam sistem sederhana (Aturan fase)
ANALISIS STRUKTUR MODAL
Transcript presentasi:

Temu Kembali Informasi Evaluasi

Outline Evaluasi Evaluasi Temu Kembali Tak Berperingkat Evaluasi Temu Kembali Berperingkat Evaluasi Relevansi

Evaluasi Seberapa baik/bagus dokumen hasil yang diberikan? Document Collection Document Normalization Indexer Query UI Query Norm. IR System Indexes Ranking/Matching Module Seberapa baik/bagus dokumen hasil yang diberikan? Evaluation Set of relevant document

Evaluasi Evaluasi digunakan untuk mengukur hasil uji coba kinerja sistem yang telah dibuat dengan metode tertentu, apakah benar-benar powerful terhadap kondisi lingkungan atau parameter yang lebih kompleks, variatif, dan berbeda.

Evaluasi Sistem Perolehan Informasi Aspek yang dapat dievaluasi: Kemudahan untuk menuliskan query Kecepatan dari perolehan informasi Sumber daya yang diperlukan Kecepatan dalam pengindeksan (jumlah dokumen) Presentasi dari dokumen Kemampuan untuk menemukan dokumen Evaluasi yang paling umum: keefektifan perolehan informasi

Evaluasi Sistem Perolehan Informasi Aspek yang dievaluasi harus dapat diukur Aspek penting lainnya: kepuasan user Kecepatan sistem perolehan informasi dalam menjawab query Jawaban yang tidak berguna tidak akan memuaskan user Perlu suatu cara untuk menguantifikasi kepuasan user

Evaluasi Sistem Perolehan Informasi Siapa user yang akan dipuaskan?  Tergantung situasinya Search engine: user menemukan informasi yang diinginkan dan kembali menggunakan search engine tersebut  Menghitung banyaknya user yang kembali menggunakan search engine tersebut eCommerce site: user menemukan yang diinginkan dan membelinya  Mengukur waktu user sampai saat membeli

Evaluasi Sistem Perolehan Informasi Enterprise (perusahaan/pemerintah/akademik):  Mengukur waktu yang dihemat user saat mencari informasi  Kriteria lain: kedalaman pengaksesan, keamanan pengaksesan, dll.

Evaluasi Sistem Perolehan Informasi Evaluasi yang paling umum: relevansi dari hasil pelacakan. Elemen yang dibutuhkan untuk mengukur relevansi: Suatu benchmark koleksi dokumen Suatu benchmark set query Suatu penilaian biner: Relevan atau Tidak relevan untuk setiap pasangan query-dokumen

Evaluasi Suatu Sistem IR Kebutuhan informasi diterjemahkan menjadi suatu query Relevansi dinilai relatif terhadap kebutuhan informasi, bukan terhadap query Misal: Kebutuhan informasi: saya mencari informasi tentang apakah makan ikan lebih efektif mengurangi resiko serangan jantung daripada makan daging sapi. Query: ikan daging sapi serangan jantung efektif User mengevaluasi apakah dokumen membahas kebutuhan informasi, bukan apakah terdapat kata-kata tsb.

Evaluasi Temu Kembali Tak Berperingkat

Evaluasi Temu Kembali Tak Berperingkat Precision: tingkat ketepatan antara informasi yang diminta oleh user dengan hasil jawaban yang diberikan oleh sistem. Recall: tingkat jumlah banyak dan sedikitnya kesesuaian informasi yang didapatkan dari hasil percobaan berdasarkan sudut pandang kelas atau label yang digunakan. F-Measure: bobot harmonic mean pada recall dan precision. Accuracy: kesesuaian nilai hasil prediksi pengujian dengan nilai aktual (ground truth) yang dibandingkan.

Precision & Recall Precision Proporsi dari suatu set yang diperoleh yang relevan 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛= 𝑟𝑒𝑙𝑒𝑣𝑎𝑛 ∩ 𝑑𝑜𝑘.𝑑𝑖𝑝𝑒𝑟𝑜𝑙𝑒ℎ 𝑑𝑜𝑘.𝑑𝑖𝑝𝑒𝑟𝑜𝑙𝑒ℎ =𝑃 𝑟𝑒𝑙𝑒𝑣𝑎𝑛 | 𝑑𝑜𝑘.𝑑𝑖𝑝𝑒𝑟𝑜𝑙𝑒ℎ Recall Proporsi dari semua dokumen yang relevan di koleksi termasuk dokumen yang diperoleh 𝑅𝑒𝑐𝑎𝑙𝑙= 𝑟𝑒𝑙𝑒𝑣𝑎𝑛 ∩ 𝑑𝑜𝑘.𝑑𝑖𝑝𝑒𝑟𝑜𝑙𝑒ℎ 𝑟𝑒𝑙𝑒𝑣𝑎𝑛 =𝑃 𝑑𝑜𝑘.𝑑𝑖𝑝𝑒𝑟𝑜𝑙𝑒ℎ | 𝑟𝑒𝑙𝑒𝑣𝑎𝑛 Koleksi Dok yg relevan (relevant) Dok yg diperoleh (retrieved)

Precision & Recall Relevant = A + C Retrieved = A + B Koleksi = A + B + C + D Precision = A / (A + B) Recall = A / (A + C) Miss = C / (A + C) False Alarm (Fallout) = B / (B + D) Relevant Not relevant Retrieved A B Not retrieved C D

Precision & Recall Precision menghitung kemampuan sistem untuk menolak dokumen yang tidak relevan di dalam dokumen yang diperoleh Recall menghitung kemampuan sistem untuk menemukan semua dokumen yang relevan Pada sistem, dapat terjadi dua jenis error: False positive error: sistem me-retrieve dokumen yang tidak relevan (seharusnya tidak di-retrieve) False negative error: sistem gagal me-retrieve dokumen yang relevan (seharusnya di-retrieve)

Contoh Precision & Recall A, C, E, G, H, I, J Relevant W, Y Retrieved B, D, F Retrieved & Relevant Koleksi Dokumen Precision = 𝐵,𝐷,𝐹 𝐵,𝐷,𝐹,𝑊,𝑌 = 3 5 = 60% Recall = 𝐵,𝐷,𝐹 𝐴,𝐵,𝐶,𝐷,𝐸,𝐹,𝐺,𝐻,𝐼,𝐽 = 3 10 = 30%

F-Measure/F-Score F-measure adalah pengukuran yang menilai timbal balik antara precision dan recall (bobot harmonic mean). 𝐹= 1 1 2 1 𝑃 + 1 𝑅 = 2×𝑃×𝑅 𝑃+𝑅 P : precision R : recall

Accuracy Mengapa kita menggunakan pengukuran yang kompleks seperti precision, recall, dan F-measure? Mengapa tidak menggunakan pengukuran yang sederhana seperti accuracy? Accuracy adalah bagian keputusan (relevant/non relevant) yang benar. Relevant = A + C Retrieved = A + B Koleksi = A + B + C + D Accuracy = (A + D) / (A + B + C + D) Relevant Not relevant Retrieved A B Not retrieved C D

Accuracy Accuracy sama = 0.5 Tapi mana sistem [1, 2, 3] yang baik? Urutan 1 Urutan 2 Urutan 3 d1 R d9 T d7 d2 d10 d3 d8 d4 d5 d6 Accuracy sama = 0.5 Tapi mana sistem [1, 2, 3] yang baik?

Evaluasi Temu Kembali Berperingkat

Evaluasi Temu Kembali Berperingkat Precision Recall Curve Interpolated Precision Precision@K Mean Average Precision R-Precision

Precision Recall Curve Menggambarkan precision sebagai fungsi dari recall Menghitung precision pada beberapa tingkat recall

Contoh Precision-Recall Curve Peringkat Relevan/Tidak 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20  Asumsikan terdapat 10 dokumen relevan untuk sebuah query A Misalkan user ingin R = 𝟏 𝟏𝟎 Precision pada tingkat berapa yang akan diamati user?

Contoh Precision-Recall Curve Peringkat Relevan/Tidak 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20  Asumsikan terdapat 10 dokumen relevan untuk sebuah query A Misalkan user ingin R = 𝟑 𝟏𝟎 Precision pada tingkat berapa yang akan diamati user?

Contoh Precision-Recall Curve Peringkat Relevan/Tidak R P 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20  𝟏 𝟏𝟎 = 0.10 𝟐 𝟏𝟎 = 0.20 𝟑 𝟏𝟎 = 0.30 𝟒 𝟏𝟎 = 0.40 𝟓 𝟏𝟎 = 0.50 𝟔 𝟏𝟎 = 0.60 𝟕 𝟏𝟎 = 0.70 𝟖 𝟏𝟎 = 0.80 𝟗 𝟏𝟎 = 0.90 𝟏𝟎 𝟏𝟎 = 1.00 𝟏 𝟏 = 1.00 𝟏 𝟐 = 0.50 𝟐 𝟑 = 0.67 𝟑 𝟒 = 0.75 𝟒 𝟓 = 0.80 𝟓 𝟔 = 0.83 𝟔 𝟕 = 0.86 𝟔 𝟖 = 0.75 𝟕 𝟗 = 0.78 𝟖 𝟏𝟏 = 0.73 𝟖 𝟏𝟐 = 0.67 𝟖 𝟏𝟑 = 0.62 𝟗 𝟏𝟒 = 0.64 𝟗 𝟏𝟓 = 0.60 𝟗 𝟏𝟔 = 0.56 𝟗 𝟏𝟕 = 0.53 𝟗 𝟏𝟖 = 0.50 𝟗 𝟏𝟗 = 0.47 𝟏𝟎 𝟐𝟎 = 0.50

Contoh Precision-Recall Curve

Contoh Precision-Recall Curve

Interpolation Precision Interpolasi nilai precision untuk setiap tingkat recall rj  {0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0} r0 = 0.0, r1 = 0.1, …, r10 = 1.0 Precision yang diinterpolasi pada tingkat recall ke-j adalah precision maksimum yang diketahui pada setiap tingkat recall antara tingkat ke-j dan j+1 𝑃 𝑟 𝑗 = max 𝑟 𝑗 ≤𝑟≤ 𝑟 𝑗+1 𝑃 𝑟 Interpolasi adalah cara menentukan nilai yang berada di antara dua nilai diketahui berdasarkan suatu fungsi persamaan.

Contoh Interpolation Precision Ketika membandingkan dua atau lebih sistem, kurva yang paling dekat ke sudut kanan atas grafik menunjukkan kinerja terbaik

Precision@K (P@K) Menentukan threshold peringkat K Menghitung persentase (%) dokumen teratas sejumlah K Mengabaikan dokumen yang berperingkat di bawah K

Contoh Precision@K P@3 = 1 3 = 0.33 P@5 = 1 5 = 0.2 P@8 = 2 8 = 0.25 Peringkat Keterangan 1 T 2 3 R 4 5 6 7 8 9 10 P@3 = 1 3 = 0.33 P@5 = 1 5 = 0.2 P@8 = 2 8 = 0.25

Mean Average Precision (MAP) Menentukan precision pada setiap titik ketika sebuah dokumen relevan yang baru di-retrieve Menghitung rata-rata setiap query, kemudian rata-rata semua query 𝑀𝐴𝑃= 1 𝑁 𝑗=1 𝑁 1 𝑄 𝑗 𝑖=1 𝑄 𝑗 𝑃 𝑑𝑜𝑐 𝑖 Qj : banyaknya dokumen relevan untuk query j N : banyaknya query P(doci) : precision pada dokumen relevan ke-i P = 0 untuk setiap dokumen relevan yang tidak di-retrieve

Contoh Mean Average Precision Query 1 Peringkat Relevan/Tidak P(doci) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20  1.00 0.67 0.50 0.40 0.25 Rata-rata 0.564 Query 2 Peringkat Relevan/Tidak P(doci) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15  1.00 0.67 0.2 Rata-rata 0.623 Dokumen relevan ke-2 2 3 Peringkat ke-3 MAP = 𝟎.𝟓𝟔𝟒+𝟎.𝟔𝟐𝟑 𝟐 = 0.594

R-Precision Precision pada peringkat ke-R untuk query yang mempunyai dokumen relevan sebanyak R

Contoh R-Precision R = banyaknya dokumen relevan R = 6 Peringkat Dokumen ke- Relevan/Tidak 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 588 589 576 590 986 592 984 988 578 985 103 591 772 990 602  R = banyaknya dokumen relevan R = 6 R-Precision = 4 6 = 0.67

Evaluasi Relevansi

Evaluasi Relevansi Dari korpus untuk koleksi pengujian, dibutuhkan: Query untuk pengujian Harus sesuai dengan dokumen yang tersedia Paling baik jika dibuat oleh ahli di bidangnya Kata-kata query yang acak umumnya tidak baik Penilaian relevansi Penilaian dilakukan oleh manusia, perlu waktu lama Apakah penilaian manusia sempurna?

Korpus untuk Pengujian

Kappa Measure Untuk mengukur persetujuan antara para penilai 𝐾𝑎𝑝𝑝𝑎= 𝑃 𝐴 −𝑃 𝐸 1−𝑃 𝐸 P(A) = proporsi banyaknya penilai yang sama P(E) = persetujuan yang merupakan kebetulan P(E) = P(tidak relevan)2 + P(relevan)2 Kappa = 0 untuk persetujuan secara kebetulan Kappa = 1 untuk persetujuan total

Contoh Kappa Measure Jumlah Dokumen Penilai 1 Penilai 2 300 Relevan 70 Tidak relevan 20 10

Contoh Kappa Measure P(A) = 370 400 = 0.925 P(tidak relevan) = 10+20+70+70 800 = 0.2125 P(relevan) = 10+20+300+300 800 = 0.7878 P(E) = (0.2125)2 + (0.7878)2 = 0.665 Kappa = 0.925−0.665 1−0.665 = 0.776 Kappa > 0.8 = persetujuannya baik 0.67 < Kappa < 0.8 = persetujuan yang fair

Latihan Individu Terdapat 20 dokumen berperingkat yang diperoleh sebagai hasil query dari 10.000 dokumen. Hasil menunjukkan terdapat 6 dokumen relevan. Asumsikan terdapat 8 dokumen relevan dari semua dokumen di dalam korpus. Hitung: P@15 F-Measure R-Precision Peringkat 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 R / T R T

Selesai