Upload presentasi
Presentasi sedang didownload. Silahkan tunggu
Diterbitkan olehSudomo Irawan Telah diubah "7 tahun yang lalu
1
Temu Balik Informasi Materi Pertemuan Ke – 7 Konsep dan Prinsip Serta Algoritma Latent Semantic Indexing Anggota : Nama Nim Wahyu Septi Anjar Patria Adhyaksa Dian Restiani Afiatur Rohmah Indah Dwi Prawitasari Faiz Al-Hamidi Bela Crista C L Ifal Pandu Kiat Nandya Tiara N
2
Pengertian Latent Semantic Indexing (LSI)
Metode Latent Semantic Indexing (LSI) adalah metode yang diimplementasikan di dalam IR system dalam mencari dan menemukan informasi berdasarkan makna keseluruhan (conceptual topic atau meaning) dari sebuah dokumen bukan hanya makna kata per kata. Latent Semantic Indexing (LSI) adalah metode pengindeksan dan pencarian yang menggunakan teknik matematika yang disebut Dekomposisi Nilai Singular (SVD) untuk mengidentifikasi pola hubungan antara istilah dan konsep-konsep yang terkandung dalam sebuah koleksi teks yang tidak terstruktur LSI didasarkan pada prinsip bahwa kata-kata yang digunakan dalam konteks yang sama cenderung memiliki makna yang sama. Fitur utama dari LSI adalah kemampuannya untuk mengekstrak konten konseptual dari suatu tubuh teks dengan mendirikan asosiasi antara istilah-istilah yang terjadi dalam konteks yang serupa
3
Pengertian Latent Semantic Indexing (LSI) lanjutan...
Menurut SEMPO, latent semantic indexing menggunakan asosiasi kata untuk membantu search engine mengetahui apa yang ada di sebuah halaman web dengan lebih akurat. Pada dasarnya LSI adalah sebuah prinsip algoritma yang digunakan search engine untuk memproses persamaan kata atau sinonim dan memahami hubungan topik antar kata.
4
Tujuan Latent Semantic Indexing (LSI)
Tujuan dari LSI adalah mendapatkan suatu pemodelan yang efektif untuk merepresentasikan hubungan antara kata kunci dan dokumen yang dicari. Dari sekumpulan kata kunci, yang tadinya tidak lengkap dan tidak sesuai, menjadi sekumpulan objek yang berhubungan.
5
Konsep / Alur Metode Latent Semantic Indexing (LSI)
Alur proses dari metode Latent Semantic Indexing dibagi 2 (dua) kolom, yaitu kolom sebelah kiri yaitu query dan kolom sebelah kanan kanan yaitu, koleksi dokumen. Pada proses sebelah kiri, query diproses melalui operasi teks, kemudian vektor query dibentuk. Vektor query yang dibentuk dipetakan menjadi vektor query terpeta (mapped query vector). Dalam membentuk query terpeta, diperlukan hasil dekomposisi nilai singular dari koleksi dokumen. Pada koleksi dokumen, dilakukan operasi teks pada koleksi dokumen, kemudian matriks kata dokumen (terms-documents matrix) dibentuk, selanjutnya dilakukan dekomposisi nilai singular (Singular Value Decomposition) pada matriks kata- dokumen. Hasil dekomposisi disimpan dalam collection index. Proses ranking dilakukan dengan menghitung relevansi antara vektor query terpeta dan collection index. Selanjutnya, hasil perhitungan relevansi ditampilkan ke pengguna.
6
Penjelasan Konsep Latent Semantic Indexing (LSI)
Konsep Latent Semantic Indexing (LSI) merupakan metode IR yang membangun struktur koleksi dokumen dalam bentuk ruang vektor dengan menggunakan teknik aljabar linier, yaitu singular value decomposition Secara umum konsep LSI meliputi beberapa point : 1. Text Operations pada Query dan Document Collection. Query dari pengguna dan koleksi dokumen dikenakan proses text operations. Proses text operations meliputi, mem-parsing setiap kata dari koleksi dokumen, membuang kata-kata yang merupakan stop words, mem-stemming kata-kata yang ada untuk proses selanjutnya.
7
Lanjutan Penjelasan Konsep...
2. Matrix Creation. Hasil text operations yang dikenakan pada koleksi dokumen dikenakan proses matrix creation. Proses matrix creation meliputi, menghitung frekuensi kemunculan dari kata, membangun matriks kata-dokumen. Baris matriks menunjukkan kata dan kolom matriks menunjukkan dokumen. Sebagai contoh, elemen matriks pada baris ke-1 dan kolom ke-2 menunjukkan frekuensi kemunculan kata ke-1 pada dokumen ke-2 3. SVD Decompotion 4. Query Vector Creation Vektor Query, q dibentuk seperti membangun sebuah kolom dari matriks kata-dokumen. Contoh vektor query q : >>>>>>>>> dengan qj, j = 1,2,.....,m adalah frekuensi kemunculan kata Tj pada query
8
Lanjutan Penjelasan Konsep...
5. Query Vector Mapping. Memberikan nilai r yang merupakan dimensi dari ruang vektor hasil perkalian baru. 6. Ranking Kolom-kolom pada matriks VrT adalah vektor-vektor dokumen yang digunakan dalam menghitung sudut antara vekor dokumen dan vektor query. Ranking dari dokumen relevan ditentukan oleh besar sudut yang dibentuk oleh vektor query dan vektor dokumen. Semakin kecil sudut yang dibentuk, semakin relevan query dengan dokumen. 7. Hasil Akhir Perhitungan cosinus sudut antara query, q dan dokumen diperoleh dan diurutkan berdasarkan dari yang paling besar sampai yang terkecil. Nilai cosinus sudut yang terbesar menunjukkan dokumen yang paling relevan dengan query.
9
Contoh Mudahnya Query : apple
Selain mendapatkan hasil pencarian, pada bagian bawah google juga memberikan saran mengenai kata apa saja yang menurut google terkait dengan kata “apple”. Disini terlihat bahwa sebenarnya google masih tidak “terlalu yakin” dengan maksud kata yang dicari, karena kata-kata Apple itu sendiri bersifat sangat umum dan dapat berarti Apel sebagai buah-buahan (apple fruit), Apel sebagai brand gadget terkenal (apple laptops,apple ipod, apple store locator) ataukah apel sebagai perusahaan besar (apple jobs), dsb.
10
Algoritma Latent Semantic Indexing (LSI)
LSI (Latent Semantic Indexing) dibuat untuk mendukung information retrieval dan memecahkan masalah ketidaksesuaian antara kamus pemakai dengan penulis dokumen. LSI menerima sebuah vektor atau matrik dari sekumpulan dokumen, dimana setiap baris mewakili satu term (bisa kata atau frase), tiap kolom mewakili satu dokumen, dan tiap selnya akan berisi nilai bobot kata terhadap dokumen. Bobot dari kata tiap dokumen dapat berisi Term Frequency atau juga menggunakan TF-IDF (dalam contoh yang akan saya tuliskan mengasumsikan penggunaan TF). LSI menggunakan SVD (Singular-Value Decomposition) untuk memodelkan relasi asosiatif antara term. Ide dasar SVD adalah menerima kumpulan data dengan dimensi dan variabel tinggi serta menguranginya ke dalam ruang dimensi yang berukuran lebih kecil untuk menampakkan lebih jelas sub struktur dari data asli dan mengurutkannya mulai dari paling bervariasi sampai dengan tidak bervariasi. Dalam SVD, sebuah rectangular matrix (matrik yang ukuran n x m tidak sama) terurai ke dalam perkalian (product) tiga matrik yang lain.
11
Prinsip Latent Semantic Indexing (LSI)
Dalam jurnal Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK) Vol. 1, No. 2 prinsip kerja Latent Semantic Indexing (LSI) dan Similarity Based Histogram Clustering (SHC) untuk pembentukan cluster kalimat secara semantik, serta mengkombinasikan fitur Sentence Information Density (SID) dan Sentence Cluster Keyword (SCK) untuk pemilihan kalimat representatif cluster. Pengujian dilakukan pada dataset Document Understanding Conference (DUC) Task 2 dan hasilnya diukur menggunakan Recall-Oriented Understudy for Gisting Evaluation (ROUGE). Hasil pengujian menunjukkan bahwa metode yang diusulkan mampu mencapai nilai ROUGE-1 rata-rata sebesar 0,395 dan nilai ROUGE-2 rata-rata sebesar 0,106.
12
Contoh Implementasi Latent Semantic Indexing (LSI)
SISTEM PENDETEKSI PLAGIARISME PADA DOKUMEN TEKS BAHASA INDONESIA DENGAN MENGGUNAKAN METODE LATENT SEMANTIC ANALYSIS PENERAPAN METODE LATENT SEMANTIC INDEXING PADA SEARCH ENGINE Pencarian Semantik Dokumen Berita Menggunakan Essential Dimension of Latent Semantic Indexing dengan Memakai Reduksi Fitur Document Frequency dan Information Gain Thresholding.
13
Referensi Bian, Rian Pengertian Latent Semantic Indexing. diakses 24/5/2017 Bunyamin, Hendra Tesis : INFORMATION RETRIEVAL SYSTEM DENGAN METODE LATENT SEMANTIC INDEXING. INSTITUT TEKNOLOGI BANDUNG : Program Studi Rekayasa Perangkat Lunak Ferdian, Edward., Hadisaputra, Rian dan Madjid, Nurkholis. PENERAPAN METODE LATENT SEMANTIC INDEXING PADA SEARCH ENGINE . Laboratorium Ilmu dan Rekayasa Komputasi Departemen Teknik Informatika, Institut Teknologi Bandung. Pasnur,. Santika, Putu Prabu., Syaifuddin, Gus Nanang SEMANTIC CLUSTERING DAN PEMILIHAN KALIMAT REPRESENTATIF UNTUK PERINGKASAN MULTI DOKUMEN. Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK) Vol. 1, No. 2, Oktober 2014 hlm Putra, Ida Ayu Suwiprabayanti Putra., Purwitsari, Diana., Siahaan, Daniel Oranova. IMPLEMENTASI ALGORITMA PROBABILISTIC LATENT SEMANTIC ANALYSIS DALAM PENGKLASTERAN DOKUMEN BERBASIS TOPIK. Sari, Yuila Arum., Puspaningrum, Eka Yulia Pencarian Semantik Dokumen Berita Menggunakan Essential Dimension of Latent Semantic Indexing dengan Memakai Reduksi Fitur Document Frequency dan Information Gain Thresholding. Seminar Nasional Teknologi Informasi dan Multimedia STMIK AMIKOM Yogyakarta Tawisa, Jessy., Wirayuda, Tjokorda Agung Budi Tugas Akhir. Universitas Telkom : Program Studi S1 Teknik Informatika.
Presentasi serupa
© 2024 SlidePlayer.info Inc.
All rights reserved.