Information Retrieval “Pengenalan Information Retrieval”

Slides:



Advertisements
Presentasi serupa
Peserta mengerti tahap-tahap pada ADC
Advertisements

KIMIA UNSUR-UNSUR TRANSISI
PERTEMUAN 3 Algoritma & Pemrograman
Penyelidikan Operasi 1. Konsep Optimisasi.
KEBIJAKAN PEMERINTAH PROVINSI JAWA TIMUR
Penyusunan Data Baseline dan Perhitungan Capaian Kegiatan Peningkatan Kualitas Permukiman Kumuh Perkotaan DIREKTORAT PENGEMBANGAN KAWASAN PERMUKIMAN DIREKTORAT.
BALTHAZAR KREUTA, SE, M.SI
PENGEMBANGAN KARIR DOSEN Disarikan dari berbagai sumber oleh:
Identitas, persamaan dan pertidaksamaan trigonometri
ANGGOTA KELOMPOK WISNU WIDHU ( ) WILDAN ANUGERAH ( )
METODE PENDUGAAN ALTERNATIF
Dosen Pengampu: Muhammad Zidny Naf’an, M.Kom
GERAK SUGIYO, SPd.M.Kom.
Uji Hipotesis Luthfina Ariyani.
SOSIALISASI PEKAN IMUNISASI NASIONAL (PIN) POLIO 2016
PENGEMBANGAN BUTIR SOAL
Uji mana yang terbaik?.
Analisis Regresi linear berganda
PEERSIAPAN DAN PENERAPAN ISO/IEC 17025:2005 OLEH: YAYAN SETIAWAN
E Penilaian Proses dan Hasil Belajar
b. Kematian (mortalitas)
Ilmu Komputasi BAGUS ADHI KUSUMA
Uji Hipotesis dengan SPSS
OVERVIEW PERUBAHAN PSAK EFFEKTIF 2015
Pengolahan Citra Berwarna
Teori Produksi & Teori Biaya Produksi
Pembangunan Ekonomi dan Pertumbuhan Ekonomi
PERSIAPAN UN MATEMATIKA
Kriptografi.
1 Bab Pembangunan Ekonomi dan Pertumbuhan Ekonomi.
Ekonomi untuk SMA/MA kelas XI Oleh: Alam S..
ANALISIS PENDAPATAN NASIONAL DALAM PEREKONOMIAN TIGA SEKTOR
Dosen: Atina Ahdika, S.Si., M.Si.
Anggaran biaya konversi
Junaidi Fakultas Ekonomi dan Bisnis Universitas Jambi
Pemodelan dan Analisis
Bab 4 Multivibrator By : M. Ramdhani.
Analisis Regresi – (Lanjutan)
Perkembangan teknologi masa kini dalam kaitannya dengan logika fazi
DISTRIBUSI PELUANG KONTINU
FETAL PHASE Embryolgy II
Yusuf Enril Fathurrohman
3D Viewing & Projection.
Sampling Pekerjaan.
Gerbang Logika Dwi Indra Oktoviandy (A )
SUGIYO Fisika II UDINUS 2014
D10K-6C01 Pengolahan Citra PCD-04 Algoritma Pengolahan Citra 1
Perpajakan di Indonesia
Bab 2 Kinerja Perusahaan dan Analisis Laporan Keuangan
Penyusunan Anggaran Bahan Baku
MOMENTUM, IMPULS, HUKUM KEKEKALAN MOMENTUM DAN TUMBUKAN
Theory of Computation 3. Math Fundamental 2: Graph, String, Logic
Strategi Tata Letak.
Theory of Computation 2. Math Fundamental 1: Set, Sequence, Function
METODE PENELITIAN.
(Skewness dan kurtosis)
Departemen Teknik Mesin dan Biosistem INSTITUT PERTANIAN BOGOR
Dasar-dasar piranti photonik
Klasifikasi Dokumen Teks Berbahasa Indonesia
Mekflu_1 Rangkaian Pipa.
Digital to Analog Conversion dan Rekonstruksi Sinyal Tujuan Belajar 1
SEKSI NERACA WILAYAH DAN ANALISIS BPS KABUPATEN TEMANGGUNG
ASPEK KEPEGAWAIAN DALAM PENILAIAN ANGKA KREDIT
RANGKAIAN DIODA TK2092 Elektronika Dasar Semester Ganjil 2015/2016
Ruang Euclides dan Ruang Vektor 1.
Bab Anuitas Aritmetrik dan Geometrik
Penyelidikan Operasi Pemrograman Dinamik Deterministik.
Kesetimbangan Fase dalam sistem sederhana (Aturan fase)
ANALISIS STRUKTUR MODAL
Transcript presentasi:

Information Retrieval “Pengenalan Information Retrieval”

CV I am Ardytha Luthfiarta I am here because I want to share about Information Retrieval. You can find me at http://kulino.dinus.ac.id/

CV I am Junta Zeniarja I am here because I want to share about Information Retrieval. You can find me at http://kulino.dinus.ac.id/ or http://juntazeniarja.com

Course Outline 1. Pengantar Information Retrieval 2. Dokumen Preprocessing 3. Model Information Retrieval 4. Term Weighting

Course Outline 5. Search Engine Concepts 6. Index Ranking 7. Document Classification 8. Document Clustering

Course Outline 9. Validation 10. Evaluation 11. Tool Information Retrieval 12. Sentiment Analysis

Buku Penunjang

Setiap ‘term’ hanya disimbolkan dengan 1 : Muncul dalam dokumen Boolean Model Setiap ‘term’ hanya disimbolkan dengan 1 : Muncul dalam dokumen 0 : Tidak muncul dalam dokumen Belum merepresentasikan informasi tentang frekuensi kemunculan kata, lokasi kata, atau urutan kemunculan kata.

Memodelkan ‘term’ kedalam ruang vektor. Vector Space Model Memodelkan ‘term’ kedalam ruang vektor. Setiap titik memiliki jarak dan arah di dalam ruang vektor

Setiap kata (term) merupakan satu dimensi dalam ruang vektor. Setiap titik merupakan satu dokumen. Nilai vektor merepresentasikan jumlah kemunculan kata tertentu dalam dokumen tersebut

Salah satunya dengan menghitung jarak dengan euclidean distance. Similarity Kemiripan dua vektor bisa dihitung dari seberapa dekat dua titik tersebut dalam ruang vektor. Salah satunya dengan menghitung jarak dengan euclidean distance.

Memiliki kelemahan karena hanya menghitung kemiripan dari jumlah kemunculan kata.

Angular Similarity Contoh penghitungan kemiripan lain adalah berdasarkan sudut diantara 2 vektor.

Contoh perhitungn kemiripan dengan menghitung nilai cos dari sudut diantara dua vektor.

Similarity

Urutkan dokumen berdasarkan nilai kemiripan yang dihasilkan. Document Ranking Misalkan q sebagai vector dari query dan (D1, D2,..., Dn) sebagai dokumen yang akan dibandingkan. Hitung nilai kemiripan kosinus q dengan setiap dokumen (D1, D2, ..., Dn) Urutkan dokumen berdasarkan nilai kemiripan yang dihasilkan.

Pengertian Vector Space Model (VSM) - (1) Vector Space Model (VSM) adalah model Information Retrieval yang berbasis token untuk memungkinkan partial matching dan pemeringkatan dokumen (pengindexan). Atau model yang digunakan untuk mengukur kemiripan antara suatu dokumen dengan suatu query. Dengan prinsip dasar mengubah suatu dokumen menjadi kumpulan token-token. Query menjadi vector token yang berfungsi untuk mencari token yang berhubungan dengan melihat kesamaan vector dokumen dan query berdasarkan jarak vector.

Pengertian Vector Space Model (VSM) - (2) Query dan dokumen dianggap sebagai vector-vector pada ruang n-dimensi 𝑑 𝑖 = (𝑡 𝑖,1 , 𝑡 𝑖,2 , …, 𝑡 𝑖,𝑘 ), dimana t adalah jumlah dari seluruh term yang ada dalam leksikon. Leksikon adalah daftar semua term yang ada dalam indeks. Untuk setiap term tidak hanya dilihat ada atau tidak ada dalam dokumen namun diberi bobot menggunakan scheme TF atau TF-IDF. TF-IDF merupakan skema pembobotan yang sering digunakan dalam Vector Space Model (VSM) bersama dengan cosine similarity untuk menentukan kesamaan antara dua buah dokumen.

Pembobotan Kata (TF-IDF) – (1) TF –IDF mempertimbangakan frekuensi kata- kata yang berbeda dalam semua dokumen dan mampu membedakan dokumen. Dalam Vector Space Model (VSM), setipa vector disusun oleh term dan bobot yang mewakili dokumen. Kesamaan dokumen dapat dinyatakan dengan sudut atau jarak antara vector, semakin kecil sudut atau jarak berarti semakin mirip dua dokumen tersebut.

Pembobotan Kata (TF-IDF) – (2) TF (Term Frequency) merupakan frekuensi kemunculan term (t) pada dokumen (d). DF (Document Frequency) merupakan banyaknya dokumen dimana suatu term (t) muncul. Atau sebuah dokumen yang mengandung term (t). IDF (Inverse Document Frequency)

Pembobotan Kata (TF-IDF) – (3) Rumus dari TF-IDF adalah sebagai berikut :

Perankingan Prangkingan dilakukan untuk mengukur kemiripan antara vector query dan vector document yang akan dibandingkan. Salah satu metode yang biasa digunakan dalam perhitungan kemiripan adalah pengukuran cosine, yang enentukan sudut antara vector document dan vector query yang didefinisikan sebagai : Dimana, 𝑤 𝑞,𝑡 adalah bobot dari term (t), penyebut dalam persamaan ini disebut faktor normalisasi yang berfungsi untuk menghilangkan pengaruh panjang dokumen. Panjang dokumen cenderung memiliki nilai yang lebih besar karena memiliki frekuensi kemunculan kata yang besar pula.

Contoh Perhitungan - (1)

Contoh Perhitungan – (2)

Contoh Perhitungan – (3)

Cosine Similarity – (1) Fungsi similarity adalah fungsi yang menerima dua buah objek dan mengembalikan nilai kemiripan (similarity) antara kedua objek tersebut berupa bilangan riil. Umumnya, nilai yang dihasilkan oleh fungsi similarity berkisar pada interval [0…1]. Namun, ada juga yang menghasilkan nilai yang berada diluar interval tersebut. Maka untuk memetakanya dapat dilakukan normalisasi. Cosine similarity adalah perhitungan kesamaan antara dua vector n dimensi dengan mencari kosinus dari sudut diantara keduanya dan sering digunakan untuk membandingkan dokumen dalam text mining.

Berikut rumus Cosine Similarity :

Cosine Similarity – (3) Semakin besar hasil fungsi similarity, maka kedua objek yang dievaluasi dianggap semakin mirip. Sebaliknya, jika semakin kecil hasil fungsi similarity, maka kedua objek tersebut dianggap semakin berbeda. Pada fungsi yang menghasilkan nilai pada jangkauan [0…1], nilai 1 melambangkan kedua objek persis sama, sedangkan nilai 0 melambangkan kedua objek sama sekali berbeda.

Contoh Perhitungan – (4)

Contoh Perhitungan – (5)

Kelebihan & Kekurangan Vector Space Model (VSM) Adanya peringkat penganbilan informasi Menampilkan referensi yang sesuai kebutuhan Penyocokan secara partial Kekurangan Menganggap informasi adalah independen Bobot permasalahan (istilah) tidak lagi diperlukan

Kesimpulan & Review

Thanks! Any questions ? You can find us at: Website: http://kulino.dinus.ac.id/ or http://juntazen.com Email: ardytha.luthfiarta@dsn.dinus.ac.id or junta@dsn.dinus.ac.id