Latent Semantic Indexing

Slides:



Advertisements
Presentasi serupa
RUANG VEKTOR UMUM.
Advertisements

Sistem Persamaan Linier
StopList dan Stemming yasmi afrizal
Model Temu-Balik Informasi
Sistem Persamaan Linier
Ranked Retrieval Pencarian Boolean Menghasilkan sekumpulan dokumen yang cocok dengan query, yang tidak cocok tidak muncul Pada kasus.
MATRIKS.
TRANSFORMASI LINIER.
Pertemuan ke-2 Model dalam sistem temu kembali informasi yasmi afrizal
FUZZY INFORMATION RETRIEVAL
Review Review Aljabar Linear Matrix Operations Transpose
Sistem Persamaan Linier Oleh : Sudaryatno Sudirham
ALJABAR LINEAR DAN MATRIKS
Gambar Kerangka dari sistem temu-kembali informasi sederhana
Final Project Temu Balik Informasi
MATERI PROJECT TI 2014 B Taufik Ari Arnandan ( )
Review Jurnal Nasional
TEMU BALIK INFORMASI ANGGOTA KELOMPOK BAYU ANDRIANTO 21
METODE DAN MODEL TEMU BALIK INFORMASI Luthfi Nurrohman ( )
MATRIKS & TRANSFORMASI LINIER
Anggota Kelompok Dian Santosa (KETUA)
Konsep dan Prinsip Latent Semantic Indexing (LSI)
MATRIKS EGA GRADINI, M.SC.
Pertemuan 7 : Latent Semantic Indexing
Temu Balik Informasi Materi Pertemuan Ke – 7 Konsep dan Prinsip Serta Algoritma Latent Semantic Indexing Anggota : Nama Nim Wahyu Septi Anjar
Anggota Kelompok Ikhsan Fauji Irna Oktaviasari Erip Marliana
TEMU BALIK INFORMASI ANGGOTA KELOMPOK BAYU ANDRIANTO 21
Konsep dan Model-model Sistem Temu Balik Informasi
Widita Kurniasari, SE, ME Universitas Trunojoyo Madura
TEMU BALIK INFORMASI.
Konsep dan model temu balik informasi
Implementasi vector space model untuk pencarian dokumen
Konsep, Metode dan Model Temu Kembali Informasi
Latent Semantic Indexing (LSI)
DETERMINAN DARI MATRIKS Pertemuan - 3
Anggota Kelompok : Kurniawan Novi Pambudi
JENIS-JENIS MATRIKS Lukman Harun, S.Pd.,M.Pd..
dan Transformasi Linear dalam
TEMU KEMBALI INFORMASI
Document Indexing dan Term Weighting
Temu balik informasi Anggota Kelompok Ikhsan Fauji
MATRIKS.
DETERMINAN Pengertian Determinan
TUJUAN (1) Mahasiswa dapat menjelaskan Ilmu Pengolahan Text dan Informasi. (C2) Mahasiswa dapat menjelaskan Model-model Sistem Temu Balik Informasi. (C2)
Review Konsep Dasar IRS/ STI
StopList dan Stemming yasmi afrizal
Kelas XII Program IPA Semester 1
Laten Semantic Indexing
TEMU BALIK INFORMASI CONCEPT, PRINCIPLE & ALGORITHMS OF
PENYIMPANAN DAN PENGAMBILAN DATA MULTIMEDIA (LANJUTAN) .
RUANG VEKTOR.
PENDAHULUAN MATRIKS Lukman Harun, S.Pd.,M.Pd..
MATRIKS dan DETERMINASI
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Temu Balik Informasi Anggota Kelomopok :
OPERASI BARIS ELEMENTER
Oleh : Asthirena D. A ( ) Pmtk 5C.
MATRIKS determinan, invers dan aplikasinya
Widita Kurniasari, SE, ME Universitas Trunojoyo
ARRAY ALGORITMA & PEMROGRAMAN 1B.
Widita Kurniasari, SE, ME Universitas Trunojoyo
OPERASI ALJABAR PADA MATRIKS
Widita Kurniasari, SE, ME Universitas Trunojoyo
Widita Kurniasari, SE, ME Universitas Trunojoyo
Model Boolean dan Advanced Boolean
Review Aljabar Matriks
Temu Kembali Informasi
DETERMINAN 1.Pengertian Determinan 2.Perhitungan Determinan Matriks Bujur Sangkar 3.Sifat-sifat Determinan 4.Menghitung Determinan Menggunakan Sifat-Sifat.
Universitas Gunadarma
Intro Algoritma K-Nearest Neighbor (K- NN) adalah sebuah metode klasifikasi terhadap sekumpulan data maupun dokumen berdasarkan pembelajaran  data yang.
Transcript presentasi:

Latent Semantic Indexing

Anggota Bayu Andrianto = 14.11.0021 Syaeful Hidayat = 14.11.0025 Muhammad Faiz Noeris = 14.11.0027 Rifdhotul Alfiansyah = 14.11.0033 Maskur Al’asad = 14.11.0035 Yogi Hendra Gunawan = 14.11.0032 Yosua Sandi Garsa = 14.11.0034

Latent Semantic Indexing Latent semantic indexing (LSI) adalah teknik pencarian informasi berdasarkan analisis spektral matriks kata-dokumen, yang keberhasilan empirisnya sebelumnya tidak memiliki prediksi dan penjelasan yang ketat. Kami membuktikan bahwa, dalam kondisi tertentu, LSI berhasil meraih semantik dari korpus dan mencapai kinerja pengambilan yang lebih baik. Kami mengusulkan teknik proyeksi acak sebagai cara mempercepat LSI. Kami melengkapi teorema kami dengan hasil eksperimen yang menggembirakan. Kami juga berpendapat bahwa hasil kami dapat dilihat dalam kerangka yang lebih umum, sebagai dasar teoritis untuk penggunaan metode spektral di kelas aplikasi yang lebih luas seperti penyaringan kolaboratif. Latent Semantic Indexing Latent Semantic Indexing adalah sebuah metode baru dalam algoritma search engine yang sedang dikembangkan Google Corporation. Dengan metode ini, Google menganalisis kata kunci dengan cara baru, bukan lagi berdasarkan pencocokkan kata secara leksikal. Kata yang dicari tidak hanya kata kuncinya saja seperti pada algoritma pada umumnya, tetapi kata-kata yang berhubungan dengan kata kunci juga dicari.

Tujuan Mendapatkan suatu pemodelan yang efektif untuk merepresentasikan hubungan antara kata kunci dan dokumen yang dicari. Dari sekumpulan kata kunci, yang tadinya tidak lengkap dan tidak sesuai, menjadi sekunpulan objek yang berhubungan.

Alur Proses Latent Semantic Indexing

Alur Proses Latent Semantic Indexing Alur proses dari metode Latent Semantic Indexing dibagi 2 (dua) kolom, yaitu kolom sebelah kiri yaitu query dan kolom sebelah kanan kanan yaitu, koleksi dokumen. Pada proses sebelah kiri: query diproses melalui operasi teks. kemudian vektor query dibentuk. Vektor query yang dibentuk dipetakan menjadi vektor query terpeta (mapped query vector). Dalam membentuk query terpeta, diperlukan hasil dekomposisi nilai singular dari koleksi dokumen. Pada koleksi dokumen, dilakukan operasi teks pada koleksi dokumen, kemudian matriks kata-dokumen (terms-documents matrix) dibentuk. Selanjutnya dilakukan dekomposisi nilai singular (Singular Value Decomposition) pada matriks kata-dokumen. Hasil dekomposisi disimpan dalam collection index. Proses ranking dilakukan dengan menghitung relevansi antara vektor query terpeta dan collection index. Selanjutnya, hasil perhitungan relevansi ditampilkan ke pengguna.

Text Operations pada Query dan Document Collection. Query dari pengguna dan koleksi dokumen dikenakan proses text operations. Proses text operations meliputi, mem-parsing setiap kata dari koleksi dokumen, membuang kata-kata yang merupakan stop words, mem-stemming kata-kata yang ada untuk proses selanjutnya.

Matrix Creation. Hasil text operations yang dikenakan pada koleksi dokumen dikenakan proses matrix creation. Proses matrix creation meliputi, menghitung frekuensi kemunculan dari kata, membangun matriks kata-dokumen seperti dilustrasikan pada gambar II.4. Baris matriks menunjukkan kata dan kolom matriks menunjukkan dokumen. Sebagai contoh, elemen matriks pada baris ke-1 dan kolom ke-2 menunjukkan frekuensi kemunculan kata ke-1 pada dokumen ke-2.

SVD Decomposition. Matriks kata-dokumen yang terbentuk, A berukuran m x n , selanjutnya dikenakan dekomposisi SVD (singular value decomposition). Hasil SVD berupa 3 (tiga) buah matriks seperti yang dilustrasikan pada gambar III.6. Matriks A dapat ditulis menjadi A= USVT . Untuk mempermudah penjelasan, misalkan u1 , u2 , …. , uk adalah vektor- vektor kolom dari matriks U , adalah entryentry di diagonal utama dari matriks S , dan adalah vektor-vektor kolom dari matriks V , sehingga dapat ditulis

SVD Decomposition. Rank dari matriks A , k adalah banyaknya entry tak nol yang terletak pada diagonal utama matriks S , yaitu juga merupakan banyaknya nilai singular dari A . Dari k buah nilai singular dari A, dipilih r buah nilai singular yang terbesar, yaitu dengan r < k. Diperoleh hasil perkalian baru yaitu :

Query Vector Creation. Vektor query, q dibentuk seperti membangun sebuah kolom dari matriks kata- dokumen. Contoh vektor query, q adalah Dengan qj, j = 1, 2, ....., m adalah frekuensi kemunculan kata Tj pada Query.

Query Vector Mapping. Point (3)(v) di atas telah memberikan nilai r yang merupakan dimensi dari ruang vektor hasil perkalian baru. Selanjutnya, vektor query, q dipetakan ke dalam ruang vektor berdimensi r menjadi Q (subbab III.30), yaitu

Ranking Kolom-kolom pada matriks pada point (3)(v) adalah vektor-vektor dokumen yang digunakan dalam menghitung sudut antara vekor dokumen dan vektor query. Ranking dari dokumen relevan ditentukan oleh besar sudut yang dibentuk oleh vektor query dan vektor dokumen. Semakin kecil sudut yang dibentuk, semakin relevan query dengan dokumen. Misalkan matriks Vr ditulis

Hasil akhir Perhitungan cosinus sudut antara query, Q dan dokumen Dj , j = 1, 2, ....... , n diperoleh dan diurutkan berdasarkan dari yang paling besar sampai yang terkecil. Nilai cosinus sudut yang terbesar menunjukkan dokumen yang paling relevan dengan query.