Temu Balik Informasi Materi Pertemuan Ke – 7 Konsep dan Prinsip Serta Algoritma Latent Semantic Indexing Anggota : Nama Nim Wahyu Septi Anjar 14.11.0224.

Slides:



Advertisements
Presentasi serupa
Konsep Dasar Sistem Temu Kembali Informasi
Advertisements

Praktikum Sistem Temu Balik Informasi
StopList dan Stemming yasmi afrizal
Model Temu-Balik Informasi
Konsep Dasar Sistem Temu Kembali Informasi
Ranked Retrieval Pencarian Boolean Menghasilkan sekumpulan dokumen yang cocok dengan query, yang tidak cocok tidak muncul Pada kasus.
Pertemuan ke-2 Model dalam sistem temu kembali informasi yasmi afrizal
FUZZY INFORMATION RETRIEVAL
Information Retrieval
oleh Rahmani Dwiastuti
Gambar Kerangka dari sistem temu-kembali informasi sederhana
Temu Balik Informasi Materi Pertemuan Ke – 8 Konsep Thesaurus dalam Information Retrival dan Mengenal Macam Thesaurus Beserta Algoritma Anggota : Nama Nim.
Latent Semantic Indexing
Temu Balik Informasi Pertemuan Ke – 12 Presentasi Final Project
Final Project Temu Balik Informasi
MATERI PROJECT TI 2014 B Taufik Ari Arnandan ( )
Review Jurnal Nasional
Temu Balik Informasi Materi Pertemuan Ke – 1 Materi Dasar TBI
METODE DAN MODEL TEMU BALIK INFORMASI Luthfi Nurrohman ( )
Temu Balik Informasi BY : Taufik Ari Arnandan ( )
Anggota Kelompok Dian Santosa (KETUA)
Konsep dan Prinsip Latent Semantic Indexing (LSI)
TEMU BALIK INFORMASI.
Pertemuan 7 : Latent Semantic Indexing
Anggota Kelompok Ikhsan Fauji Irna Oktaviasari Erip Marliana
Konsep dan Model-model Sistem Temu Balik Informasi
Anggota : Nama Nim Wahyu Septi Anjar Patria Adhyaksa Dian Restiani
Konsep dan model temu balik informasi
Sistem Temu Kembali Informasi
Implementasi vector space model untuk pencarian dokumen
Natural Language Processing (NLP)
TEMU BALIK INFORMASI Multimedia Dalam Temu Balik Informasi.
Konsep, Metode dan Model Temu Kembali Informasi
Temu Balik Informasi Materi Pertemuan Ke – 8 Konsep Thesaurus dalam Information Retrival dan Mengenal Macam Thesaurus Beserta Algoritma Anggota : Nama Nim.
Latent Semantic Indexing (LSI)
IMPLEMENTASI ALGORITME DAMERAU-LEVENSHTEIN UNTUK KOREKSI EJAAN QUERY BAHASA INDONESIA PADA SEARCH ENGINE     Oleh: Utis Sutisna G  
Sistem Temu Balik Informasi Multimedia
EFEKTIFITAS SELEKSI FITUR DALAM SISTEM TEMU-KEMBALI INFORMASI
Temu Balik Informasi Materi Pertemuan Ke – 3 Stoplist dan Stemming
Anggota Kelompok : Kurniawan Novi Pambudi
Sistem Temu-Balik Informasi yasmi afrizal
Review Jurnal Temu Balik Informasi
Temu Balik Informasi Nama Kelompok : Ikhsan Fauji
TEMU KEMBALI INFORMASI
Document Indexing dan Term Weighting
VECTOR SPACE MODEL.
Temu balik informasi Anggota Kelompok Ikhsan Fauji
FINAL PROJECT TEMU BALIK INFORMASI
TEMU BALIK INFORMASI TI 14 A.
Ketua Kelompok Dian Restiani Anggota : Wahyu Septi Anjar
TUJUAN (1) Mahasiswa dapat menjelaskan Ilmu Pengolahan Text dan Informasi. (C2) Mahasiswa dapat menjelaskan Model-model Sistem Temu Balik Informasi. (C2)
Review Konsep Dasar IRS/ STI
StopList dan Stemming yasmi afrizal
Laten Semantic Indexing
TEMU BALIK INFORMASI CONCEPT, PRINCIPLE & ALGORITHMS OF
Temu Balik Informasi Persentasi Final Project
Ir. Julio Adisantoso, M.Kom.
PENYIMPANAN DAN PENGAMBILAN DATA MULTIMEDIA (LANJUTAN) .
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Temu Balik Informasi Anggota Kelomopok :
Sistem TEMU KEMBALI INFORMASI
TEXT OPERATION Muhammad Yusuf Teknik Multimedia dan Jaringan
Pengenalan Temu Balik Informasi.
M Ali Fauzi Indriati Sigit Adinugroho
Nugraha Iman Santosa ( )
Model Boolean dan Advanced Boolean
Pembobotan Kata (Term Weighting)
Pengelompokan Dokumen (Document Clustering)
Temu Kembali Informasi
Universitas Gunadarma
Transcript presentasi:

Temu Balik Informasi Materi Pertemuan Ke – 7 Konsep dan Prinsip Serta Algoritma Latent Semantic Indexing Anggota : Nama Nim Wahyu Septi Anjar 14.11.0224 Patria Adhyaksa 14.11.0225 Dian Restiani 14.11.0226 Afiatur Rohmah 14.11.0231 Indah Dwi Prawitasari 14.11.0234 Faiz Al-Hamidi 14.11.0235 Bela Crista C L 14.11.0236 Ifal Pandu Kiat 14.11.0237 Nandya Tiara N 14.11.0311

Pengertian Latent Semantic Indexing (LSI) Metode Latent Semantic Indexing (LSI) adalah metode yang diimplementasikan di dalam IR system dalam mencari dan menemukan informasi berdasarkan makna keseluruhan (conceptual topic atau meaning) dari sebuah dokumen bukan hanya makna kata per kata. Latent Semantic Indexing (LSI) adalah metode pengindeksan dan pencarian yang menggunakan teknik matematika yang disebut Dekomposisi Nilai Singular (SVD) untuk mengidentifikasi pola hubungan antara istilah dan konsep-konsep yang terkandung dalam sebuah koleksi teks yang tidak terstruktur LSI didasarkan pada prinsip bahwa kata-kata yang digunakan dalam konteks yang sama cenderung memiliki makna yang sama. Fitur utama dari LSI adalah kemampuannya untuk mengekstrak konten konseptual dari suatu tubuh teks dengan mendirikan asosiasi antara istilah-istilah yang terjadi dalam konteks yang serupa

Pengertian Latent Semantic Indexing (LSI) lanjutan... Menurut SEMPO, latent semantic indexing menggunakan asosiasi kata untuk membantu search engine mengetahui apa yang ada di sebuah halaman web dengan lebih akurat. Pada dasarnya LSI adalah sebuah prinsip algoritma yang digunakan search engine untuk memproses persamaan kata atau sinonim dan memahami hubungan topik antar kata.

Tujuan Latent Semantic Indexing (LSI) Tujuan dari LSI adalah mendapatkan suatu pemodelan yang efektif untuk merepresentasikan hubungan antara kata kunci dan dokumen yang dicari. Dari sekumpulan kata kunci, yang tadinya tidak lengkap dan tidak sesuai, menjadi sekumpulan objek yang berhubungan.

Konsep / Alur Metode Latent Semantic Indexing (LSI) Alur proses dari metode Latent Semantic Indexing dibagi 2 (dua) kolom, yaitu kolom sebelah kiri yaitu query dan kolom sebelah kanan kanan yaitu, koleksi dokumen. Pada proses sebelah kiri, query diproses melalui operasi teks, kemudian vektor query dibentuk. Vektor query yang dibentuk dipetakan menjadi vektor query terpeta (mapped query vector). Dalam membentuk query terpeta, diperlukan hasil dekomposisi nilai singular dari koleksi dokumen. Pada koleksi dokumen, dilakukan operasi teks pada koleksi dokumen, kemudian matriks kata dokumen (terms-documents matrix) dibentuk, selanjutnya dilakukan dekomposisi nilai singular (Singular Value Decomposition) pada matriks kata- dokumen. Hasil dekomposisi disimpan dalam collection index. Proses ranking dilakukan dengan menghitung relevansi antara vektor query terpeta dan collection index. Selanjutnya, hasil perhitungan relevansi ditampilkan ke pengguna.

Penjelasan Konsep Latent Semantic Indexing (LSI) Konsep Latent Semantic Indexing (LSI) merupakan metode IR yang membangun struktur koleksi dokumen dalam bentuk ruang vektor dengan menggunakan teknik aljabar linier, yaitu singular value decomposition Secara umum konsep LSI meliputi beberapa point : 1. Text Operations pada Query dan Document Collection. Query dari pengguna dan koleksi dokumen dikenakan proses text operations. Proses text operations meliputi, mem-parsing setiap kata dari koleksi dokumen, membuang kata-kata yang merupakan stop words, mem-stemming kata-kata yang ada untuk proses selanjutnya.

Lanjutan Penjelasan Konsep... 2. Matrix Creation. Hasil text operations yang dikenakan pada koleksi dokumen dikenakan proses matrix creation. Proses matrix creation meliputi, menghitung frekuensi kemunculan dari kata, membangun matriks kata-dokumen. Baris matriks menunjukkan kata dan kolom matriks menunjukkan dokumen. Sebagai contoh, elemen matriks pada baris ke-1 dan kolom ke-2 menunjukkan frekuensi kemunculan kata ke-1 pada dokumen ke-2 3. SVD Decompotion 4. Query Vector Creation Vektor Query, q dibentuk seperti membangun sebuah kolom dari matriks kata-dokumen. Contoh vektor query q : >>>>>>>>> dengan qj, j = 1,2,.....,m adalah frekuensi kemunculan kata Tj pada query

Lanjutan Penjelasan Konsep... 5. Query Vector Mapping. Memberikan nilai r yang merupakan dimensi dari ruang vektor hasil perkalian baru. 6. Ranking Kolom-kolom pada matriks VrT adalah vektor-vektor dokumen yang digunakan dalam menghitung sudut antara vekor dokumen dan vektor query. Ranking dari dokumen relevan ditentukan oleh besar sudut yang dibentuk oleh vektor query dan vektor dokumen. Semakin kecil sudut yang dibentuk, semakin relevan query dengan dokumen. 7. Hasil Akhir Perhitungan cosinus sudut antara query, q dan dokumen diperoleh dan diurutkan berdasarkan dari yang paling besar sampai yang terkecil. Nilai cosinus sudut yang terbesar menunjukkan dokumen yang paling relevan dengan query.

Contoh Mudahnya Query : apple Selain mendapatkan hasil pencarian, pada bagian bawah google juga memberikan saran mengenai kata apa saja yang menurut google terkait dengan kata “apple”. Disini terlihat bahwa sebenarnya google masih tidak “terlalu yakin” dengan maksud kata yang dicari, karena kata-kata Apple itu sendiri bersifat sangat umum dan dapat berarti Apel sebagai buah-buahan (apple fruit), Apel sebagai brand gadget terkenal (apple laptops,apple ipod, apple store locator) ataukah apel sebagai perusahaan besar (apple jobs), dsb.

Algoritma Latent Semantic Indexing (LSI) LSI (Latent Semantic Indexing) dibuat untuk mendukung information retrieval dan memecahkan masalah ketidaksesuaian antara kamus pemakai dengan penulis dokumen. LSI menerima sebuah vektor atau matrik dari sekumpulan dokumen, dimana setiap baris mewakili satu term (bisa kata atau frase), tiap kolom mewakili satu dokumen, dan tiap selnya akan berisi nilai bobot kata terhadap dokumen. Bobot dari kata tiap dokumen dapat berisi Term Frequency atau juga menggunakan TF-IDF (dalam contoh yang akan saya tuliskan mengasumsikan penggunaan TF). LSI menggunakan SVD (Singular-Value Decomposition) untuk memodelkan relasi asosiatif antara term. Ide dasar SVD adalah menerima kumpulan data dengan dimensi dan variabel tinggi serta menguranginya ke dalam ruang dimensi yang berukuran lebih kecil untuk menampakkan lebih jelas sub struktur dari data asli dan mengurutkannya mulai dari paling bervariasi sampai dengan tidak bervariasi. Dalam SVD, sebuah rectangular matrix (matrik yang ukuran n x m tidak sama) terurai ke dalam perkalian (product) tiga matrik yang lain.

Prinsip Latent Semantic Indexing (LSI) Dalam jurnal Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK) Vol. 1, No. 2 prinsip kerja Latent Semantic Indexing (LSI) dan Similarity Based Histogram Clustering (SHC) untuk pembentukan cluster kalimat secara semantik, serta mengkombinasikan fitur Sentence Information Density (SID) dan Sentence Cluster Keyword (SCK) untuk pemilihan kalimat representatif cluster. Pengujian dilakukan pada dataset Document Understanding Conference (DUC) 2004 Task 2 dan hasilnya diukur menggunakan Recall-Oriented Understudy for Gisting Evaluation (ROUGE). Hasil pengujian menunjukkan bahwa metode yang diusulkan mampu mencapai nilai ROUGE-1 rata-rata sebesar 0,395 dan nilai ROUGE-2 rata-rata sebesar 0,106.

Contoh Implementasi Latent Semantic Indexing (LSI) SISTEM PENDETEKSI PLAGIARISME PADA DOKUMEN TEKS BAHASA INDONESIA DENGAN MENGGUNAKAN METODE LATENT SEMANTIC ANALYSIS PENERAPAN METODE LATENT SEMANTIC INDEXING PADA SEARCH ENGINE Pencarian Semantik Dokumen Berita Menggunakan Essential Dimension of Latent Semantic Indexing dengan Memakai Reduksi Fitur Document Frequency dan Information Gain Thresholding.

Referensi Bian, Rian. 2010. Pengertian Latent Semantic Indexing. https://ryanbian.wordpress.com/2010/06/15/pengertian-latent-semantic-indexing diakses 24/5/2017 Bunyamin, Hendra. 2015. Tesis : INFORMATION RETRIEVAL SYSTEM DENGAN METODE LATENT SEMANTIC INDEXING. INSTITUT TEKNOLOGI BANDUNG : Program Studi Rekayasa Perangkat Lunak Ferdian, Edward., Hadisaputra, Rian dan Madjid, Nurkholis. PENERAPAN METODE LATENT SEMANTIC INDEXING PADA SEARCH ENGINE . Laboratorium Ilmu dan Rekayasa Komputasi Departemen Teknik Informatika, Institut Teknologi Bandung. Pasnur,. Santika, Putu Prabu., Syaifuddin, Gus Nanang. 2014. SEMANTIC CLUSTERING DAN PEMILIHAN KALIMAT REPRESENTATIF UNTUK PERINGKASAN MULTI DOKUMEN. Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK) Vol. 1, No. 2, Oktober 2014 hlm. 91-97 Putra, Ida Ayu Suwiprabayanti Putra., Purwitsari, Diana., Siahaan, Daniel Oranova. IMPLEMENTASI ALGORITMA PROBABILISTIC LATENT SEMANTIC ANALYSIS DALAM PENGKLASTERAN DOKUMEN BERBASIS TOPIK. Sari, Yuila Arum., Puspaningrum, Eka Yulia. 2013. Pencarian Semantik Dokumen Berita Menggunakan Essential Dimension of Latent Semantic Indexing dengan Memakai Reduksi Fitur Document Frequency dan Information Gain Thresholding. Seminar Nasional Teknologi Informasi dan Multimedia 2013. STMIK AMIKOM Yogyakarta Tawisa, Jessy., Wirayuda, Tjokorda Agung Budi. 2012. Tugas Akhir. Universitas Telkom : Program Studi S1 Teknik Informatika.