1 ~ EVALUASI.

Slides:



Advertisements
Presentasi serupa
Peserta mengerti tahap-tahap pada ADC
Advertisements

KIMIA UNSUR-UNSUR TRANSISI
PERTEMUAN 3 Algoritma & Pemrograman
Penyelidikan Operasi 1. Konsep Optimisasi.
KEBIJAKAN PEMERINTAH PROVINSI JAWA TIMUR
Penyusunan Data Baseline dan Perhitungan Capaian Kegiatan Peningkatan Kualitas Permukiman Kumuh Perkotaan DIREKTORAT PENGEMBANGAN KAWASAN PERMUKIMAN DIREKTORAT.
BALTHAZAR KREUTA, SE, M.SI
PENGEMBANGAN KARIR DOSEN Disarikan dari berbagai sumber oleh:
Identitas, persamaan dan pertidaksamaan trigonometri
ANGGOTA KELOMPOK WISNU WIDHU ( ) WILDAN ANUGERAH ( )
METODE PENDUGAAN ALTERNATIF
Dosen Pengampu: Muhammad Zidny Naf’an, M.Kom
GERAK SUGIYO, SPd.M.Kom.
Uji Hipotesis Luthfina Ariyani.
SOSIALISASI PEKAN IMUNISASI NASIONAL (PIN) POLIO 2016
PENGEMBANGAN BUTIR SOAL
Uji mana yang terbaik?.
Analisis Regresi linear berganda
PEERSIAPAN DAN PENERAPAN ISO/IEC 17025:2005 OLEH: YAYAN SETIAWAN
E Penilaian Proses dan Hasil Belajar
b. Kematian (mortalitas)
Ilmu Komputasi BAGUS ADHI KUSUMA
Uji Hipotesis dengan SPSS
OVERVIEW PERUBAHAN PSAK EFFEKTIF 2015
Pengolahan Citra Berwarna
Teori Produksi & Teori Biaya Produksi
Pembangunan Ekonomi dan Pertumbuhan Ekonomi
PERSIAPAN UN MATEMATIKA
Kriptografi.
1 Bab Pembangunan Ekonomi dan Pertumbuhan Ekonomi.
Ekonomi untuk SMA/MA kelas XI Oleh: Alam S..
ANALISIS PENDAPATAN NASIONAL DALAM PEREKONOMIAN TIGA SEKTOR
Dosen: Atina Ahdika, S.Si., M.Si.
Anggaran biaya konversi
Junaidi Fakultas Ekonomi dan Bisnis Universitas Jambi
Pemodelan dan Analisis
Bab 4 Multivibrator By : M. Ramdhani.
Analisis Regresi – (Lanjutan)
Perkembangan teknologi masa kini dalam kaitannya dengan logika fazi
DISTRIBUSI PELUANG KONTINU
FETAL PHASE Embryolgy II
Yusuf Enril Fathurrohman
3D Viewing & Projection.
Sampling Pekerjaan.
Gerbang Logika Dwi Indra Oktoviandy (A )
SUGIYO Fisika II UDINUS 2014
D10K-6C01 Pengolahan Citra PCD-04 Algoritma Pengolahan Citra 1
Perpajakan di Indonesia
Bab 2 Kinerja Perusahaan dan Analisis Laporan Keuangan
Penyusunan Anggaran Bahan Baku
MOMENTUM, IMPULS, HUKUM KEKEKALAN MOMENTUM DAN TUMBUKAN
Theory of Computation 3. Math Fundamental 2: Graph, String, Logic
Strategi Tata Letak.
Theory of Computation 2. Math Fundamental 1: Set, Sequence, Function
METODE PENELITIAN.
(Skewness dan kurtosis)
Departemen Teknik Mesin dan Biosistem INSTITUT PERTANIAN BOGOR
Dasar-dasar piranti photonik
Klasifikasi Dokumen Teks Berbahasa Indonesia
Mekflu_1 Rangkaian Pipa.
Digital to Analog Conversion dan Rekonstruksi Sinyal Tujuan Belajar 1
SEKSI NERACA WILAYAH DAN ANALISIS BPS KABUPATEN TEMANGGUNG
ASPEK KEPEGAWAIAN DALAM PENILAIAN ANGKA KREDIT
RANGKAIAN DIODA TK2092 Elektronika Dasar Semester Ganjil 2015/2016
Ruang Euclides dan Ruang Vektor 1.
Bab Anuitas Aritmetrik dan Geometrik
Penyelidikan Operasi Pemrograman Dinamik Deterministik.
Kesetimbangan Fase dalam sistem sederhana (Aturan fase)
ANALISIS STRUKTUR MODAL
Transcript presentasi:

1 ~ EVALUASI

Sejarah ~ Evaluasi IR

Penelitian awal Membandingkan pengindeksan secara manual vs otomatis Apakah pendekatan otomatis dapat mendekati kualitas manual Asumsi bahwa pengindeksan manual adalah pendekatan yang benar

TREC Conference Text REtrieval Conference Mulai 1992 Evaluasi IR dalam skala besar Koleksi data GB Setiap tahun bulan November NIST (National Institute of Standard for Testing) – Information Access Division Evaluasi IR paling dikenal Mulanya diikuti 25 organisasi peserta Mulai tahun 2005 diikuti 117 grup dari 22 negara Laporannya tersedia online di http://trec.nist.gov

Format Umum TREC TREC berisi track IR Cross language, speech recognition, video retrieval, question-answering, interactive IR, terabyte, law, …… Setiap track menggunakan model yang sama Peneliti melakukan training sesuai dengan spresifikasi Peneliti melakukan evaluasi resmi NIST melakukan evaluasi November diadalakan pertemuan Mengetahui seberapa baik hasil dari suatu grup Bagaimana grup lain menangani masalah Pendekatan yang berhasil umumnya akan diulang lagi tahun berikutnya

Forum Lainnya CLEF NTCIR Cross Language Evaluation Forum Forum evaluasi IR di Asia untuk bahasa Korea, Jepang, dan Cina

Evaluation as a Process

Query Collection Results IR System IRS Measurement

Mengevaluasi Search Engine Beberapa aspek yang dapat dievaluasi: Kemudahan untuk menuliskan query Kecepatan dari perolehan informasi Sumber daya yang diperlukan Kecepatan pengindeksan jumlah dokumen/jam) Kemampuan untuk menemukan dokumen Evaluasi sistem biasanya membandingkan: Sistem A vs Sistem B

Ukuran lain yang penting adalah kepuasan user Isu: Siapa user yang akan dinilai kepusannya? Bagaimana teknik untuk mengkuantifikasi kepuasan user?

Mengukur Kepuasan User Yang paling umum: Mengukur relevansi dari hasil pencarian Tiga elemen yang perlu diperhatikan dalam mengukur tingkat kerelevanan, yaitu: Suatu benchmark koleksi data Suatu benchmark set query Suatu penilaian biner, yakni relevan atau tidak relevan untuk setiap pasangan query-dokumen

Mengukur Relevansi Hasil Pencarian Kebutuhan informasi diterjemahkan menjadi sebuah query Relevansi dinilai relatif terhadap kebutuhan pencarian informasi, bukan query Contoh: Kebutuhan informasi: Saya mencari informasi tentang apakah minum wine merah lebih efektif mengurangi resiko serangan jantung daripada wine putih Query: wine merah putih serangan jantung efektif Evaluasi: apakah dokumen-dokumen tersebut membahas kebutuhan informasi bukan apakah terdapat kata-kata tersebut

Benchmark Relevansi yang Standar Menggunakan koleksi dokumen benchmark Reuters, AP, dan lain-lain “Retrieval Task” diberikan sebagai query Para ahli menandai, untuk setiap query dan document, Relevant atau Irrelevant Atau paling sedikit untuk subset

Kerelevanan Relevan sulit untuk didefinisikan Suatu dokumen dinilai berguna untuk suatu query Siapa yang menilai? Apa yang berguna? Manusia tidak konsisten Penilaian bergantung pada dokumen dan query

Metrik Evaluasi

Precision & Recall Precision: Proporsi dari suatu set yang diperoleh yang relevan 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛= 𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑡∩𝑟𝑒𝑡𝑟𝑖𝑒𝑣𝑒𝑑 / 𝑟𝑒𝑡𝑟𝑖𝑒𝑣𝑒𝑑 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛=𝑃 𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑡 𝑟𝑒𝑡𝑟𝑖𝑒𝑣𝑒𝑑 Koleksi Dok. Relevan Dok. Di-peroleh Recall: Proporsi dari suatu semua dokumen yang relevan di koleksi termasuk dokumen yang diperoleh 𝑅𝑒𝑐𝑎𝑙𝑙= 𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑡∩𝑟𝑒𝑡𝑟𝑖𝑒𝑣𝑒𝑑 / 𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑡 𝑅𝑒𝑐𝑎𝑙𝑙=𝑃 𝑟𝑒𝑡𝑟𝑖𝑒𝑣𝑒𝑑 𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑡

(lanjutan) Relevant = A + C Retrieved = A + B Koleksi = A + B + C + D Not Relevant Retrieved A B Not Retreved C D Relevant = A + C Retrieved = A + B Koleksi = A + B + C + D Precision = A / (A + B) Recall = A / (A + C) Miss = C / (A + C) False Alarm (Fallout) = B / (B + D)

Precision di Urutan Tertentu Bisa digunakan untuk melihat seberapa baik suatu metode mengurutkan dokumen yang relevan sebelum dokumen yang tidak relevan muncul Precision pada Top5 Urutan 1 : 1.0 Urutan 2 : 0.0 Urutan 3 : 0.4 Precision pada Top10 Urutan 1 : 0.5 Urutan 2 : 0.5 Urutan 3 : 0.5

Contoh Precision & Recall (1) = Dokumen Relevan Urutan 1 Recall 0.2 0.2 0.4 0.4 0.4 0.6 0.6 0.6 0.8 1.0 Precision 1.0 0.5 0.67 0.5 0.4 0.5 0.43 0.38 0.44 0.5

Contoh Precision & Recall (2) = Dokumen Relevan Urutan 2 Recall 0.0 0.2 0.4 0.4 0.4 0.6 0.8 1.0 1.0 1.0 Precision 0.0 0.5 0.33 0.25 0.4 0.5 0.57 0.63 0.56 0.5

Menghitung Precision Recall Dari sejumlah dokumen terurut yang dihasilkan oleh IR System, hitung nilai precision dan recall pada setiap kemunculan dokumen yang relevan Berdasarkan contoh sebelumnya Urutan 1, P/R dihitung pada dokumen ke 1, 3, 6, 9, 10 Urutan 2, P/R dihitung pada dokumen ke 2, 5, 6, 7, 8

Average Precision dari Suatu Query Banyak digunakan dalam IR System Average precision merupakan rata-rata dari nilai precision pada saat nilai recall-nya naik Urutan 1  Average Precision = 62.2% Recall 0.2 0.2 0.4 0.4 0.4 0.6 0.6 0.6 0.8 1.0 Precision 1.0 0.5 0.67 0.5 0.4 0.5 0.43 0.38 0.44 0.5 Urutan 2  Average Precision = 52% Recall 0.0 0.2 0.4 0.4 0.4 0.6 0.8 1.0 1.0 1.0 Precision 0.0 0.5 0.33 0.25 0.4 0.5 0.57 0.63 0.56 0.5

Latihan = Dokumen Relevan Soal: Tentukan nilai precision dan recall untuk masing-masing kemunculan dokumen! Berapa nilai average precision untuk Top-5 dan Top-10 dari urutan perolehan dokumen di atas?

Ringkasan Pengukuran Average Precision  mampu meringkas pengukuran Menyembunyikan informasi Urutan 1  Average Precision = 62.2% R TR R TR TR R TR TR R R Recall 0.2 0.2 0.4 0.4 0.4 0.6 0.6 0.6 0.8 1.0 Precision 1.0 0.5 0.67 0.5 0.4 0.5 0.43 0.38 0.44 0.5 Urutan 1a  Average Precision = 62.2% TR R TR R R R R R TR TR Recall 0.0 0.17 0.4 0.33 0.5 0.67 0.83 1.0 1.0 1.0 Precision 0.0 0.5 0.33 0.5 0.6 0.67 0.71 0.75 0.67 0.6

Ringkasan Pengukuran Orang cenderung menginginkan ringkasan dari pengukuran Precision pada suatu tingkat retrieval yang tetap Paling tepat untuk web search Orang menginginkan hasil terbaik pada halaman ke-1 atau ke-2

Plotting Grafik Precision-Recall Plotting dilakukan untuk nilai precision-recall vs no. items retrieved  It shows inverse relationship between precision and recall

Plotting dilakukan untuk nilai precision vs nilai recall (Lanjutan) Plotting dilakukan untuk nilai precision vs nilai recall

Precision vs Recall Critical Task Waktu pencarian sangat terbatas Jumlah dokumen relevan yang sedikit sudah menjawab kebutuhan pencarian informasi Jumlah dokumen yang banyak memungkinkan informasi redundan Contoh : web search for factual information Recall Waktu pencarian tidak diperhatikan Satu dokumen relevan yang tidak diperoleh bisa menyebabkan hilangnya informasi yang dibutuhkan Perlu untuk melihat masing-masing (satu per satu) dokumen yang relevan Contoh : pattent search Terkadang sebuah sistem lebih mementingkan nilai precision yang tinggi dan di sisi lain terdapat sistem yang mementingkan recall yang tinggi

Grafik Precision/Recall Untuk sebuah IR engines diperoleh List Ranking Dokumen Perolehan dan Status Kerelevanannya

Definisi Formal Precision pada Ranking Tertentu : P(100) Precision pada Nilai Recall Tertentu : P(R=0.2) Precision pada Dokumen Relevan Terakhir : P(last_relevant) Recall pada ranking tertentu : R(100) Recall pada Nilai Precision Tertentu : R(P=0.1)

Evaluasi untuk Sejumlah Query Ingin menghitung rata-rata untuk keseluruhan query Problem : Masing-masing query memiliki hasil akhir berupa jumlah dokumen yang relevan tidak sama Dengan urutan dokumen relevan yang berbeda-beda Tidak dapat menggunakan single cut-off untuk semua query Jika cutoff < 10, R < 1 untuk semua sistem Jika cutoff > 10, P < 1 untuk semua sistem

11-point Average Precision (AP) 𝑃 11_𝑝𝑡 = 1 11 𝑗=0 10 1 𝑁 𝑖=1 𝑁 𝑃 𝑖 ( 𝑟 𝑗 ) dimana 𝑃 𝑖 ( 𝑟 𝑗 ) adalah precision pada titik recall ke-𝑗 pada query ke-𝑖 (dari N query) Definisikan 11 titik recall 𝑟 𝑗 = 𝑗 10 : 𝑟 0 =0, 𝑟 1 =0.1 … 𝑟 10 =1 Tentukan precision untuk masing-masing titik recall tersebut 𝑃 𝑖 ( 𝑟 𝑗 )

𝑃 𝑖 𝑅=𝑟 dapat diukur Problem: Solusi: Precision pada saat nilai recall-nya berubah (karena pada saat tersebut diperoleh kembali dokumen yang relevan) Problem: Jumlah dokumen yang relevan tidak selalu dapat dibagi dengan 10 sehingga nilai precision untuk 11 titik recall tidak bisa ditentukan Solusi: Interpolasi

Interpolasi 11-point AP 𝑃 𝑖 𝑟 𝑗 = max 𝑟 𝑗 ≤𝑟≤ 𝑟 𝑗+1 𝑃 𝑖 𝑅=𝑟 𝑖𝑓 𝑃 𝑖 𝑅=𝑟 𝑒𝑥𝑖𝑠𝑡 𝑃 𝑖 𝑟 𝑗+1 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 Catatan: 𝑃 𝑖 𝑅=1 selalu dapat dihitung

Contoh Soal

Contoh Interpolasi 11-point AP

Pengukuran Evaluasi Yang Lain

Mean Average Precision (MAP) Rata-rata dari nilai precision pada saat nilai recall-nya naik Mean Average Precision: Rata-rata average precision untuk seluruh query

Contoh MAP 𝑀𝐴𝑃= 0.564+0.623 2 = 0.594

R-Precision Ide : Cara : menghasilkan nilai tunggal untuk perangkingan Menghitung precision pada posisi ke-R dimana R adalah total jumlah dokumen yang relevan.

Precision Histogram Menggunakan R-precision dari dua strategi retrieval RPA/B(i) = RPA(i) - RPB(i)

Sec. 8.3 F-measure Pengukuran kombinasi yg menilai precision/recall secara bersama-sama (weighted harmonic mean): Dimana Biasanya menggunakan F1 measure Misalnya dengan  = 1 atau  = ½

Membuat Koleksi Pengetesan untuk Evaluasi IR

Dari Korpus Menjadi Koleksi untuk Pengujian Diperlukan juga Query untuk pengujian Penilaian kerelevanan Query untuk Pengujian Harus sesuai dengan ketersediaan dokumen Paling baik jika dibuat oleh ahli dibidangnya Kata pada query diperoleh acak dan umumnya sulit untuk dicari Penilai kerelevanan Dinilai manusia sehingga perlu waktu lama Manusia bukan penilai yang sempurna

Pengukuran Kappa Mengukur persetujuan antara penilai 𝐾𝑎𝑝𝑝𝑎= 𝑝 𝐴 −𝑝 𝐸 /[1−𝑝 𝐸 ] 𝑝 𝐴 : proporsi banyaknya penilai yang setuju 𝑝 𝐸 : persetujuan yang merupakan kebetulan 𝐾𝑎𝑝𝑝𝑎=1 berarti persetujuan total 𝐾𝑎𝑝𝑝𝑎>0.8 berarti persetujuan baik

Contoh Jumlah Dok Penilai 1 Penilai 2 300 Relevan 70 Tidak Relevan 20 10 𝑝 𝐴 = 370 400 =0.925 𝑝 𝑇𝑅 = 10+20+70+70 800 =0.2125 𝑝 𝑅 = 10+20+300+300 800 =0.7878 𝑝 𝐸 = 0.2125 2 + 0.7878 2 =0.665 𝐾𝑎𝑝𝑝𝑎= 0.925−0.665 1−0.665 =0.776

Terima kasih