Sistem Temu Kembali Informasi Dokumen Teks Menggunakan Term Frequency Inverse Document Frequency (TF-IDF) dengan Similarity Cosine Departemen Ilmu Komputer,

Slides:



Advertisements
Presentasi serupa
Peserta mengerti tahap-tahap pada ADC
Advertisements

KIMIA UNSUR-UNSUR TRANSISI
PERTEMUAN 3 Algoritma & Pemrograman
Penyelidikan Operasi 1. Konsep Optimisasi.
KEBIJAKAN PEMERINTAH PROVINSI JAWA TIMUR
Penyusunan Data Baseline dan Perhitungan Capaian Kegiatan Peningkatan Kualitas Permukiman Kumuh Perkotaan DIREKTORAT PENGEMBANGAN KAWASAN PERMUKIMAN DIREKTORAT.
BALTHAZAR KREUTA, SE, M.SI
PENGEMBANGAN KARIR DOSEN Disarikan dari berbagai sumber oleh:
Identitas, persamaan dan pertidaksamaan trigonometri
ANGGOTA KELOMPOK WISNU WIDHU ( ) WILDAN ANUGERAH ( )
METODE PENDUGAAN ALTERNATIF
Dosen Pengampu: Muhammad Zidny Naf’an, M.Kom
GERAK SUGIYO, SPd.M.Kom.
Uji Hipotesis Luthfina Ariyani.
SOSIALISASI PEKAN IMUNISASI NASIONAL (PIN) POLIO 2016
PENGEMBANGAN BUTIR SOAL
Uji mana yang terbaik?.
Analisis Regresi linear berganda
PEERSIAPAN DAN PENERAPAN ISO/IEC 17025:2005 OLEH: YAYAN SETIAWAN
E Penilaian Proses dan Hasil Belajar
b. Kematian (mortalitas)
Ilmu Komputasi BAGUS ADHI KUSUMA
Uji Hipotesis dengan SPSS
OVERVIEW PERUBAHAN PSAK EFFEKTIF 2015
Pengolahan Citra Berwarna
Teori Produksi & Teori Biaya Produksi
Pembangunan Ekonomi dan Pertumbuhan Ekonomi
PERSIAPAN UN MATEMATIKA
Kriptografi.
1 Bab Pembangunan Ekonomi dan Pertumbuhan Ekonomi.
Ekonomi untuk SMA/MA kelas XI Oleh: Alam S..
ANALISIS PENDAPATAN NASIONAL DALAM PEREKONOMIAN TIGA SEKTOR
Dosen: Atina Ahdika, S.Si., M.Si.
Anggaran biaya konversi
Junaidi Fakultas Ekonomi dan Bisnis Universitas Jambi
Pemodelan dan Analisis
Bab 4 Multivibrator By : M. Ramdhani.
Analisis Regresi – (Lanjutan)
Perkembangan teknologi masa kini dalam kaitannya dengan logika fazi
DISTRIBUSI PELUANG KONTINU
FETAL PHASE Embryolgy II
Yusuf Enril Fathurrohman
3D Viewing & Projection.
Sampling Pekerjaan.
Gerbang Logika Dwi Indra Oktoviandy (A )
SUGIYO Fisika II UDINUS 2014
D10K-6C01 Pengolahan Citra PCD-04 Algoritma Pengolahan Citra 1
Perpajakan di Indonesia
Bab 2 Kinerja Perusahaan dan Analisis Laporan Keuangan
Penyusunan Anggaran Bahan Baku
MOMENTUM, IMPULS, HUKUM KEKEKALAN MOMENTUM DAN TUMBUKAN
Theory of Computation 3. Math Fundamental 2: Graph, String, Logic
Strategi Tata Letak.
Theory of Computation 2. Math Fundamental 1: Set, Sequence, Function
METODE PENELITIAN.
(Skewness dan kurtosis)
Departemen Teknik Mesin dan Biosistem INSTITUT PERTANIAN BOGOR
Dasar-dasar piranti photonik
Klasifikasi Dokumen Teks Berbahasa Indonesia
Mekflu_1 Rangkaian Pipa.
Digital to Analog Conversion dan Rekonstruksi Sinyal Tujuan Belajar 1
SEKSI NERACA WILAYAH DAN ANALISIS BPS KABUPATEN TEMANGGUNG
ASPEK KEPEGAWAIAN DALAM PENILAIAN ANGKA KREDIT
RANGKAIAN DIODA TK2092 Elektronika Dasar Semester Ganjil 2015/2016
Ruang Euclides dan Ruang Vektor 1.
Bab Anuitas Aritmetrik dan Geometrik
Penyelidikan Operasi Pemrograman Dinamik Deterministik.
Kesetimbangan Fase dalam sistem sederhana (Aturan fase)
ANALISIS STRUKTUR MODAL
Transcript presentasi:

Sistem Temu Kembali Informasi Dokumen Teks Menggunakan Term Frequency Inverse Document Frequency (TF-IDF) dengan Similarity Cosine Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor, Bogor 16680

Anggota Kelompok M. Dariansyah Lubis G64120002 Ilman Pangeran G64210041 M. Rachmatarramadhan G64120049 Rana Pradipta G64120080 Nuridita Putri Liany G64120097 Ramdhan Abdul Ghifari G64120117

Saat ini sebagian besar Latar Belakang Saat ini sebagian besar informasi tersimpan dalam bentuk digital pada media elektronik

Latar Belakang Informasi yang tersimpan semakin banyak dan membuat sulit untuk mencari dokumen yang relevan

Latar Belakang Sistem temu kembali informasiadalah menemukan suatudokumen yang bersifat tidak tersruktur untuk memenuhi kebutuhan informasi dari sekumpulan dokumen dalam skala besar, biasanya disimpan dalam komputer (Manning 2008)

Latar Belakang Query Kata Kalimat

Urutan menurun mulai dari dokumen yang memiliki Latar Belakang Urutan menurun mulai dari dokumen yang memiliki nilai relevansi tertinggi dengan query yang dimaksud (van rijsbergen 1979)

Latar Belakang 2 tahapan awal dalam teknologi sistem temu kembali dokumen teks adalah pra-pemrosesan teks dan representasi teks

Tujuan Memahami konsep pembobotan dokumen TF-IDF dan membangun perangkat lunak untuk mengimplementasikannya pada sistem temu kembali informasi

Manfaat Memudahkan pengguna mendapatkan dokumen relevan berdasarkan query yang dimasukkan

Ruang Lingkup Pembobotan dokumen menggunakan metode Tf logaritmik, IDF dan similarity cosine Menggunakan bahasa pemrograman python Korpus yang digunakan adalah 60 cerita yang ditulis oleh Haggard Rider

Metode Pengumpulan dokumen Pengindeksan query Pengindeksan dokumen Pembobotan dokumen

Pengindeksan query Tokenizing Stopword Removal Stemming Proses pengolahan query yang di-input oleh pengguna. Proses pengindeksan query memiliki 3 tahapan yaitu: Tokenizing query : tahap pemisahan kata dalam kalimat, paragraf menjadi potongan kata tunggal dan menghilangkan tanda baca serta mengubah term menjadi huruf kecil. Stopword removal query : tahap penghilangan kata yang tidak digunakan dalam proses pencarian dokumen dengan mencocokkan hasil tokenisasi dan stoplist. Kata yang telah dibuang tidak akan diikutsertakan dalam proses selanjutnya. Stemming query : tahap penghilangan imbuhan hingga mendapatkan kata dasar dari query.

Pengindeksan dokumen Tokenizing Stopword Removal Stemming Proses pengolahan dokumen yang dimasukkan ke dalam sistem. Proses pengindeksan dokumen memiliki 3 tahapan yaitu: Tokenizing dokumen : tahap pemisahan term dalam dokumen menjadi potongan kata tunggal dan menghilangkan tanda baca serta mengubah term menjadi huruf kecil. Stopword removal dokumen : tahap penghilangan kata yang tidak digunakan dalam proses pencarian dengan mencocokkan hasil tokenisasi dan stoplist. Kata yang telah dibuang tidak akan diikutsertakan dalam proses selanjutnya. Stemming dokumen : tahap penghilangan imbuhan hingga mendapatkan kata dasar dari term pada dokumen

Pembobotan dokumen 𝑇𝐹.𝐼𝐷𝐹 𝑑,𝑑 = 1+π‘™π‘œπ‘” 𝑇𝐹 𝑑,𝑑 Γ—(π‘™π‘œπ‘” 𝑁 𝐷𝐹 𝑑,𝑑 TFt,d : frekuensi term t pada dokumen d N : banyaknya jumlah dokumen DFt : frekuensi dokumen yang mengandung term t 𝑇𝐹.𝐼𝐷𝐹 𝑑,𝑑 = 1+π‘™π‘œπ‘” 𝑇𝐹 𝑑,𝑑 Γ—(π‘™π‘œπ‘” 𝑁 𝐷𝐹 𝑑,𝑑 Proses penghitungan bobot dokumen menggunakan metode TF logaritmik dan IDF untuk mendapatkan nilai masing-masing dokumen berdasarkan query yang dimasukkan oleh pengguna

Hasil Pembahasan

Kesimpulan & Saran Kesimpulan Sistem Temu Kembali Informasi Dokumen Teks Menggunakan Term Frequency Inverse Document Frequency (TF-IDF) dengan Similarity Cosine digunakan untuk mendapatkan dokumen relevan berdasarkan query berdasarkan pembobotan TF logaritmik dan IDF. Sistem ini diimplementasikan menggunakan bahasa pemrograman python. Korpus yang digunakan oleh sistem ini berupa 60 cerita yang ditulis oleh Haggard Rider. Sistem ini berhasil menampilkan 10 dokumen paling relevan berdasarkan query yang dimasukkan oleh pengguna dengan mengimplementasikan pembobotan TF-IDF pada proses pencariannya dan evaluasi yang dilakukan menggunakan similarity cosine. Saran Β  Program ini masih memiliki kekurangan dan pengembangan program selanjutnya dapat menambahkan jumlah korpus pada sistem atau mengubah fungsi pembobotan TF-IDF menurut SMART notation yang ada sehingga menghasilkan hasil yang lebih baik dan lebih akurat.

Terima Kasih