Review Jurnal Nasional

Slides:

Advertisements

Presentasi serupa

Praktikum Sistem Temu Balik Informasi

Advertisements

StopList dan Stemming yasmi afrizal

Model Temu-Balik Informasi

Ranked Retrieval Pencarian Boolean Menghasilkan sekumpulan dokumen yang cocok dengan query, yang tidak cocok tidak muncul Pada kasus.

Pertemuan ke-2 Model dalam sistem temu kembali informasi yasmi afrizal

Gambar Kerangka dari sistem temu-kembali informasi sederhana

Latent Semantic Indexing

Temu Balik Informasi Pertemuan Ke – 12 Presentasi Final Project

Final Project Temu Balik Informasi

MATERI PROJECT TI 2014 B Taufik Ari Arnandan ( )

METODE DAN MODEL TEMU BALIK INFORMASI Luthfi Nurrohman ( )

Anggota Kelompok Dian Santosa (KETUA)

TEMU BALIK INFORMASI.

Pertemuan 7 : Latent Semantic Indexing

Temu Balik Informasi Materi Pertemuan Ke – 7 Konsep dan Prinsip Serta Algoritma Latent Semantic Indexing Anggota : Nama Nim Wahyu Septi Anjar

Anggota Kelompok Ikhsan Fauji Irna Oktaviasari Erip Marliana

Konsep dan Model-model Sistem Temu Balik Informasi

Pertemuan 9 : Temu Balik Informasi Multimedia

Konsep dan model temu balik informasi

JUDUL PENELITIAN SISTEM INFORMASI PENGOLAHAN DATA KEJUARAAN DI KOMITE OLAHRAGA NASIONAL INDONESIA (KONI) PROPINSI JAWA BARAT.

Text Mining and Information Retrieval

Implementasi vector space model untuk pencarian dokumen

Natural Language Processing (NLP)

Konsep, Metode dan Model Temu Kembali Informasi

Konsep, Metode dan Model dalam Temu Balik Informasi

Latent Semantic Indexing (LSI)

KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA

IMPLEMENTASI ALGORITME DAMERAU-LEVENSHTEIN UNTUK KOREKSI EJAAN QUERY BAHASA INDONESIA PADA SEARCH ENGINE Oleh: Utis Sutisna G

Review Jurnal Internasional

EFEKTIFITAS SELEKSI FITUR DALAM SISTEM TEMU-KEMBALI INFORMASI

Anggota Kelompok : Kurniawan Novi Pambudi

Review Jurnal Temu Balik Informasi

Stoplist dan Stemming Anggota Kelompok :

STOPLIST DAN STEEMING Temu Balik Informasi.

Text Preprocessing.

TEMU KEMBALI INFORMASI

VECTOR SPACE MODEL.

Temu balik informasi Anggota Kelompok Ikhsan Fauji

TEMU KEMBALI INFORMASI

TEMU BALIK INFORMASI TI 14 A.

Ketua Kelompok Dian Restiani Anggota : Wahyu Septi Anjar

Review Konsep Dasar IRS/ STI

StopList dan Stemming yasmi afrizal

Laten Semantic Indexing

TEMU BALIK INFORMASI CONCEPT, PRINCIPLE & ALGORITHMS OF

Temu Balik Informasi Persentasi Final Project

Ir. Julio Adisantoso, M.Kom.

PENYIMPANAN DAN PENGAMBILAN DATA MULTIMEDIA (LANJUTAN) .

STOPWORDLIST dan STEMMING

Pertemuan 8 : Thesaurus Anggota Kelompok :

Review Information Retrieval Techniques and Applications

Information Retrieval

DOKUMENTASI DAN KEARSIPAN KELAS A Sistem Temu Kembali Informasi

Oleh : Rahmat Robi Waliyansyah, M.Kom.

Oleh : Rahmat Robi Waliyansyah, M.Kom.

Temu Balik Informasi Anggota Kelomopok :

Perancangan Data Logis dan Fisik

for further detail, please visit

TEXT OPERATION Muhammad Yusuf Teknik Multimedia dan Jaringan

Siklus Pengembangan Sistem J

SISTEM INFORMASI PERPUSTAKAAN PADA SMA PASUNDAN 3 BANDUNG

Pengenalan Temu Balik Informasi.

M Ali Fauzi Indriati Sigit Adinugroho

Nugraha Iman Santosa ( )

Model Probabilistic.

Model Perolehan Informasi

Temu Kembali Informasi

Universitas Gunadarma

Intro Algoritma K-Nearest Neighbor (K- NN) adalah sebuah metode klasifikasi terhadap sekumpulan data maupun dokumen berdasarkan pembelajaran data yang.

Transcript presentasi:

Review Jurnal Nasional Anggota Kelompok : Kurniawan Novi Pambudi 14.11.0161 Hijriah Fajar Muhammad Insan 14.11.0162 Raditya Tri Wibowo 14.11.0164 Mei Susanto 14.11.0165 Anggrean Yudistira 14.11.0167 Fanny Tri Pamungkas 14.11.0168 Agus Harianto 14.11.0169

Judul : IMPLEMENTASI METODE GENERALIZED VECTOR SPACE MODEL PADA APLIKASI INFORMATION RETRIEVAL Penulis : Jasman Pardede[1], Mira Musrini Barmawi[2], Wildan Denny Pramono[3] Tempat terbit : Institut Teknologi Nasional Bandung Tahun : 2003

Abstrak Information Retrieval (IR) adalah sebuah metode untuk mengambil data terstruktur yang tersimpan dalam koleksi dokumen, kemudian menyediakan informasi yang diperlukan. Tujuan dari sistem IR adalah untuk mengambil dan menampilkan dokumen yang relevan dengan input pengguna (query). Generalized Vector Space Model (GVSM) adalah salah satu dari model sistem IR yang termasuk dalam model aljabar. Query yang dimasukkan oleh pengguna akan diproses terlebih dahulu. Pengolahan kata meliputi tokenizing, stop word removal, dan stemming. Aplikasi ini melakukan pencarian dokumen seperti pdf (*.pdf) dan Ms Word Doc (*.doc & *.docx.) yang relevan dengan query. Hasil pencarian ini disusun berdasarkan nilai kesamaan GVSM yang tertinggi. Dengan menggunakan Generalized Vector Space Model, hasil pencarian dokumen menjadi lebih relevan berdasarkan nilai perbandingan kemiripan.

Latar Belakang Masalah Bagaimana sistem dapat membaca dokumen berformat *.pdf,*.doc dan *.docx. Bagaimana tahapan preprocessing dapat bekerja pada sistem. Bagaimana faktor normalisasi digunakan untuk menormalkan vektor dokumen sehingga proses retrieval tidak terpengaruh oleh panjang dari suatu dokumen. Bagaimana memperoleh dokumen yang relevan dan sudah terurut sesuai dengan query yang dimasukan pengguna dengan menggunakan metode generalized vector space model. Bagaimana proses multi thread dapat bekerja pada proses stemming untuk mempercepat pencarian dokumen.

Metodologi Sedangkan metodologi yang digunakan pada penelitian ini adalah sebagai berikut. Metodologi Pengumpulan Data Pengumpulan data dilakukan dengan cara studi kepustakaan yaitu dengan mengumpulkan data dan informasi tentang permasalahan yang dibahas. Metodologi Pengembangan Sistem Metodologi pengembangan sistem pada penelitian ini menggunakan Metodologi Prototype. pendekatan ini dipilih karena mempunyai struktur yang sesuai untuk pembangunan sebuah simulasi sistem yang akan dibangun.

Tujuan Penelitian Tujuan dari penelitian ini adalah memenuhi kebutuhan informasi pengguna dengan mendapatkan semua dokumen yang relevan dengan kebutuhan pengguna dan pada waktu yang sama mendapatkan sesedikit mungkin dokumen yang tak relevan. Pengguna dapat menemukan informasi yang relevan dengan membaca seluruh dokumen yang ada pada tempat penyimpanannya, menyimpan dokumendokumen yang relevan, membuang dokumen yang tidak relevan, dan mengurutkan dokumen-dokumen yang sesuai dengan keperluannya

Generalized Vector Space Model (GVSM) merupakan salah satu model sistem Information Retrieval (IR) yang termasuk dalam Algebraic Model yang merupakan perluasan dari Vector Space Model (VSM), proses yang terjadi pada GVSM terbagi menjadi dua: 1. tahapanpreprocessing yang terdiri dari reading text (*.pdf,*.doc,*.docx), tokenizing,filtration, stemming dan parse query. 2. menghitung relevansi antara kumpulan dokumen yang telah di-preprocess dengan query yang diinginkan pengguna.

Langkah Ada beberapa langkah atau proses untuk mendapatkan hasil dari query yang dimasukkan, yang disebut algoritma Generalized Vector Space Model [Baeza,1999]: Membuang kata depan dan kata penghubung. Menggunakan stemmer pada kumpulan dokumen dan query, yaitu aplikasi yang digunakan untuk menghilangkan imbuhan (awalan, akhiran). Contoh : keagungan = agung, keabadian = abadi. Menentukan minterm untuk menentukan kemungkinan pola frekuensi kata. Panjang minterm ini didasarkan pada banyak kata yang dimasukan pada query. Kemudian diubah menjadi vektor ortogonal sesuai dengan pola minterm yang muncul. Kemungkinan pola yang akan muncul adalah : M1= (0,0,0) M2= (1,0,0) ..... Mn= (0,0,0) Menghitung banyaknya frekuensi atau kemunculan kata dalam kumpulan dokumen yang sesuai dengan query

Model IR Model IR adalah model yang digunakan untuk melakukan pencocokan antara termterm (kata) dari query dengan term-term dalam document collection (folder file), model yang terdapat dalam IR terbagi dalam 3 model besar, yaitu: Set-theoritic models Algebraic model Probabilistic model

Set-theoritic models, model merepresentasikan dokumen sebagai himpunan kata atau frase. Contoh model ini ialah Standard Boolean model dan Extended Boolean model. Algebraic model, model merepresentasikan dokumen dan query sebagai vektor similarity antara vektor dokumen dan vektor query yang direpresentasikan sebagai sebuah nilai skalar. Contoh model ini ialah Vektor Space Model (model ruang vektor) , Latent Semantic Indexing (LSI) dan Generalized Vector Space Model(GVSM). Probabilistic model, model memperlakukan proses pengambilan dokumen sebagai sebuah probabilistic inference. Contoh model ini ialah penerapan teorema bayes dalam model probabilistik.

Rancangan Rancangan Sistem Pada perancangan aplikasi ini dilakukan tahap analisis dan desain aplikasi Information Retrieaval menggunakan metoda Generalized Vector Space Model,

Fungsionalitas Berdasarkan analisis, maka didefinisikan kebutuhan fungsionalitasfungsionalitas yang meliputi fungsionalitas pencarian dokumen, fungsionalitas display document, fungsionalitas update kamus kata dasar, fungsionalitas update stop word list, fungsionalitas read document, fungsionalitas tokenizing, fungsionalitas filtration, dan fungsionalitas stemming. Seluruh fungsionalitas aplikasi dinyatakan pada use case

Hasil Pengujian hasil pencarian dan pengurutan aplikasi information retrieaval menggunakan metode generalized vector space model dapat menjalankan semua fungsionalitas pencarian dengan baik dan ketepatan yang tinggi. Selain itu dapat dilihat penggunaan multithread dan tanpa menggunakan multithread memiliki nilai bobot dan perankingan yang sama. Tetapi pada pengujian menggunakan multithread waktu yang dibutuhkan adalah 10,047 detik, sedangkan pengujian tanpa menggunakan multithread waktu yang dibutuhkan adalah 20,299 detik. Hal ini menunjukkan bahwa menggunakan multithread dalam proses pencarian dan perankingan dapat menghemat waktu lebih dari 50%.

Kesimpulan Kesimpulan yang dapat diperoleh dari penelitian ini adalah: Telah berhasil dikembangkan aplikasi IR dengan metode GVSM dalam mengambil dokumen berbahasa Indonesia yang berformat *.doc, *.docx dan *.pdf. Aplikasi IR dengan metode GVSM mampu menemukan kembali dokumen yang relevan dan sudah terurut sesuai dengan query yang dimasukan pengguna dengan nilai precision dan recall sebesar 100%. Aplikasi IR dengan metode GVSM bekerja dengan baik pada jumlah dokumen sedikit maupun pada jumlah dokumen yang banyak. Penggunaan Multi Thread dalam proses pencarian dan pengurutan dapat menghemat waktu proses hingga lebih dari 50%.