Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

Sistem Temu Kembali Informasi Dokumen Teks Menggunakan Term Frequency Inverse Document Frequency (TF-IDF) dengan Similarity Cosine Departemen Ilmu Komputer,

Presentasi serupa


Presentasi berjudul: "Sistem Temu Kembali Informasi Dokumen Teks Menggunakan Term Frequency Inverse Document Frequency (TF-IDF) dengan Similarity Cosine Departemen Ilmu Komputer,"β€” Transcript presentasi:

1 Sistem Temu Kembali Informasi Dokumen Teks Menggunakan Term Frequency Inverse Document Frequency (TF-IDF) dengan Similarity Cosine Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor, Bogor 16680

2 Anggota Kelompok M. Dariansyah Lubis G64120002
Ilman Pangeran G M. Rachmatarramadhan G Rana Pradipta G Nuridita Putri Liany G Ramdhan Abdul Ghifari G

3 Saat ini sebagian besar
Latar Belakang Saat ini sebagian besar informasi tersimpan dalam bentuk digital pada media elektronik

4 Latar Belakang Informasi yang tersimpan semakin banyak dan membuat sulit untuk mencari dokumen yang relevan

5 Latar Belakang Sistem temu kembali informasiadalah menemukan suatudokumen yang bersifat tidak tersruktur untuk memenuhi kebutuhan informasi dari sekumpulan dokumen dalam skala besar, biasanya disimpan dalam komputer (Manning 2008)

6 Latar Belakang Query Kata Kalimat

7 Urutan menurun mulai dari dokumen yang memiliki
Latar Belakang Urutan menurun mulai dari dokumen yang memiliki nilai relevansi tertinggi dengan query yang dimaksud (van rijsbergen 1979)

8 Latar Belakang 2 tahapan awal dalam teknologi sistem temu kembali dokumen teks adalah pra-pemrosesan teks dan representasi teks

9 Tujuan Memahami konsep pembobotan dokumen TF-IDF dan membangun perangkat lunak untuk mengimplementasikannya pada sistem temu kembali informasi

10 Manfaat Memudahkan pengguna mendapatkan dokumen relevan berdasarkan query yang dimasukkan

11 Ruang Lingkup Pembobotan dokumen menggunakan metode Tf logaritmik, IDF dan similarity cosine Menggunakan bahasa pemrograman python Korpus yang digunakan adalah 60 cerita yang ditulis oleh Haggard Rider

12 Metode Pengumpulan dokumen Pengindeksan query Pengindeksan dokumen
Pembobotan dokumen

13 Pengindeksan query Tokenizing Stopword Removal Stemming
Proses pengolahan query yang di-input oleh pengguna. Proses pengindeksan query memiliki 3 tahapan yaitu: Tokenizing query : tahap pemisahan kata dalam kalimat, paragraf menjadi potongan kata tunggal dan menghilangkan tanda baca serta mengubah term menjadi huruf kecil. Stopword removal query : tahap penghilangan kata yang tidak digunakan dalam proses pencarian dokumen dengan mencocokkan hasil tokenisasi dan stoplist. Kata yang telah dibuang tidak akan diikutsertakan dalam proses selanjutnya. Stemming query : tahap penghilangan imbuhan hingga mendapatkan kata dasar dari query.

14 Pengindeksan dokumen Tokenizing Stopword Removal Stemming
Proses pengolahan dokumen yang dimasukkan ke dalam sistem. Proses pengindeksan dokumen memiliki 3 tahapan yaitu: Tokenizing dokumen : tahap pemisahan term dalam dokumen menjadi potongan kata tunggal dan menghilangkan tanda baca serta mengubah term menjadi huruf kecil. Stopword removal dokumen : tahap penghilangan kata yang tidak digunakan dalam proses pencarian dengan mencocokkan hasil tokenisasi dan stoplist. Kata yang telah dibuang tidak akan diikutsertakan dalam proses selanjutnya. Stemming dokumen : tahap penghilangan imbuhan hingga mendapatkan kata dasar dari term pada dokumen

15 Pembobotan dokumen 𝑇𝐹.𝐼𝐷𝐹 𝑑,𝑑 = 1+π‘™π‘œπ‘” 𝑇𝐹 𝑑,𝑑 Γ—(π‘™π‘œπ‘” 𝑁 𝐷𝐹 𝑑,𝑑
TFt,d : frekuensi term t pada dokumen d N : banyaknya jumlah dokumen DFt : frekuensi dokumen yang mengandung term t 𝑇𝐹.𝐼𝐷𝐹 𝑑,𝑑 = 1+π‘™π‘œπ‘” 𝑇𝐹 𝑑,𝑑 Γ—(π‘™π‘œπ‘” 𝑁 𝐷𝐹 𝑑,𝑑 Proses penghitungan bobot dokumen menggunakan metode TF logaritmik dan IDF untuk mendapatkan nilai masing-masing dokumen berdasarkan query yang dimasukkan oleh pengguna

16 Hasil Pembahasan

17 Kesimpulan & Saran Kesimpulan
Sistem Temu Kembali Informasi Dokumen Teks Menggunakan Term Frequency Inverse Document Frequency (TF-IDF) dengan Similarity Cosine digunakan untuk mendapatkan dokumen relevan berdasarkan query berdasarkan pembobotan TF logaritmik dan IDF. Sistem ini diimplementasikan menggunakan bahasa pemrograman python. Korpus yang digunakan oleh sistem ini berupa 60 cerita yang ditulis oleh Haggard Rider. Sistem ini berhasil menampilkan 10 dokumen paling relevan berdasarkan query yang dimasukkan oleh pengguna dengan mengimplementasikan pembobotan TF-IDF pada proses pencariannya dan evaluasi yang dilakukan menggunakan similarity cosine. Saran Β  Program ini masih memiliki kekurangan dan pengembangan program selanjutnya dapat menambahkan jumlah korpus pada sistem atau mengubah fungsi pembobotan TF-IDF menurut SMART notation yang ada sehingga menghasilkan hasil yang lebih baik dan lebih akurat.

18 Terima Kasih


Download ppt "Sistem Temu Kembali Informasi Dokumen Teks Menggunakan Term Frequency Inverse Document Frequency (TF-IDF) dengan Similarity Cosine Departemen Ilmu Komputer,"

Presentasi serupa


Iklan oleh Google