Latent Semantic Indexing

Slides:

Advertisements

Presentasi serupa

RUANG VEKTOR UMUM.

Advertisements

Sistem Persamaan Linier

StopList dan Stemming yasmi afrizal

Model Temu-Balik Informasi

Sistem Persamaan Linier

Ranked Retrieval Pencarian Boolean Menghasilkan sekumpulan dokumen yang cocok dengan query, yang tidak cocok tidak muncul Pada kasus.

TRANSFORMASI LINIER.

Pertemuan ke-2 Model dalam sistem temu kembali informasi yasmi afrizal

FUZZY INFORMATION RETRIEVAL

Review Review Aljabar Linear Matrix Operations Transpose

Sistem Persamaan Linier Oleh : Sudaryatno Sudirham

ALJABAR LINEAR DAN MATRIKS

Gambar Kerangka dari sistem temu-kembali informasi sederhana

Final Project Temu Balik Informasi

MATERI PROJECT TI 2014 B Taufik Ari Arnandan ( )

Review Jurnal Nasional

TEMU BALIK INFORMASI ANGGOTA KELOMPOK BAYU ANDRIANTO 21

METODE DAN MODEL TEMU BALIK INFORMASI Luthfi Nurrohman ( )

MATRIKS & TRANSFORMASI LINIER

Anggota Kelompok Dian Santosa (KETUA)

Konsep dan Prinsip Latent Semantic Indexing (LSI)

MATRIKS EGA GRADINI, M.SC.

Pertemuan 7 : Latent Semantic Indexing

Temu Balik Informasi Materi Pertemuan Ke – 7 Konsep dan Prinsip Serta Algoritma Latent Semantic Indexing Anggota : Nama Nim Wahyu Septi Anjar

Anggota Kelompok Ikhsan Fauji Irna Oktaviasari Erip Marliana

TEMU BALIK INFORMASI ANGGOTA KELOMPOK BAYU ANDRIANTO 21

Konsep dan Model-model Sistem Temu Balik Informasi

Widita Kurniasari, SE, ME Universitas Trunojoyo Madura

TEMU BALIK INFORMASI.

Konsep dan model temu balik informasi

Implementasi vector space model untuk pencarian dokumen

Konsep, Metode dan Model Temu Kembali Informasi

Latent Semantic Indexing (LSI)

DETERMINAN DARI MATRIKS Pertemuan - 3

Anggota Kelompok : Kurniawan Novi Pambudi

JENIS-JENIS MATRIKS Lukman Harun, S.Pd.,M.Pd..

dan Transformasi Linear dalam

TEMU KEMBALI INFORMASI

Document Indexing dan Term Weighting

Temu balik informasi Anggota Kelompok Ikhsan Fauji

DETERMINAN Pengertian Determinan

TUJUAN (1) Mahasiswa dapat menjelaskan Ilmu Pengolahan Text dan Informasi. (C2) Mahasiswa dapat menjelaskan Model-model Sistem Temu Balik Informasi. (C2)

Review Konsep Dasar IRS/ STI

StopList dan Stemming yasmi afrizal

Kelas XII Program IPA Semester 1

Laten Semantic Indexing

TEMU BALIK INFORMASI CONCEPT, PRINCIPLE & ALGORITHMS OF

PENYIMPANAN DAN PENGAMBILAN DATA MULTIMEDIA (LANJUTAN) .

PENDAHULUAN MATRIKS Lukman Harun, S.Pd.,M.Pd..

MATRIKS dan DETERMINASI

Oleh : Rahmat Robi Waliyansyah, M.Kom.

Temu Balik Informasi Anggota Kelomopok :

OPERASI BARIS ELEMENTER

Oleh : Asthirena D. A ( ) Pmtk 5C.

MATRIKS determinan, invers dan aplikasinya

Widita Kurniasari, SE, ME Universitas Trunojoyo

ARRAY ALGORITMA & PEMROGRAMAN 1B.

Widita Kurniasari, SE, ME Universitas Trunojoyo

OPERASI ALJABAR PADA MATRIKS

Widita Kurniasari, SE, ME Universitas Trunojoyo

Widita Kurniasari, SE, ME Universitas Trunojoyo

Model Boolean dan Advanced Boolean

Review Aljabar Matriks

Temu Kembali Informasi

DETERMINAN 1.Pengertian Determinan 2.Perhitungan Determinan Matriks Bujur Sangkar 3.Sifat-sifat Determinan 4.Menghitung Determinan Menggunakan Sifat-Sifat.

Universitas Gunadarma

Intro Algoritma K-Nearest Neighbor (K- NN) adalah sebuah metode klasifikasi terhadap sekumpulan data maupun dokumen berdasarkan pembelajaran data yang.

Transcript presentasi:

Latent Semantic Indexing

Anggota Bayu Andrianto = 14.11.0021 Syaeful Hidayat = 14.11.0025 Muhammad Faiz Noeris = 14.11.0027 Rifdhotul Alfiansyah = 14.11.0033 Maskur Al’asad = 14.11.0035 Yogi Hendra Gunawan = 14.11.0032 Yosua Sandi Garsa = 14.11.0034

Latent Semantic Indexing Latent semantic indexing (LSI) adalah teknik pencarian informasi berdasarkan analisis spektral matriks kata-dokumen, yang keberhasilan empirisnya sebelumnya tidak memiliki prediksi dan penjelasan yang ketat. Kami membuktikan bahwa, dalam kondisi tertentu, LSI berhasil meraih semantik dari korpus dan mencapai kinerja pengambilan yang lebih baik. Kami mengusulkan teknik proyeksi acak sebagai cara mempercepat LSI. Kami melengkapi teorema kami dengan hasil eksperimen yang menggembirakan. Kami juga berpendapat bahwa hasil kami dapat dilihat dalam kerangka yang lebih umum, sebagai dasar teoritis untuk penggunaan metode spektral di kelas aplikasi yang lebih luas seperti penyaringan kolaboratif. Latent Semantic Indexing Latent Semantic Indexing adalah sebuah metode baru dalam algoritma search engine yang sedang dikembangkan Google Corporation. Dengan metode ini, Google menganalisis kata kunci dengan cara baru, bukan lagi berdasarkan pencocokkan kata secara leksikal. Kata yang dicari tidak hanya kata kuncinya saja seperti pada algoritma pada umumnya, tetapi kata-kata yang berhubungan dengan kata kunci juga dicari.

Tujuan Mendapatkan suatu pemodelan yang efektif untuk merepresentasikan hubungan antara kata kunci dan dokumen yang dicari. Dari sekumpulan kata kunci, yang tadinya tidak lengkap dan tidak sesuai, menjadi sekunpulan objek yang berhubungan.

Alur Proses Latent Semantic Indexing

Alur Proses Latent Semantic Indexing Alur proses dari metode Latent Semantic Indexing dibagi 2 (dua) kolom, yaitu kolom sebelah kiri yaitu query dan kolom sebelah kanan kanan yaitu, koleksi dokumen. Pada proses sebelah kiri: query diproses melalui operasi teks. kemudian vektor query dibentuk. Vektor query yang dibentuk dipetakan menjadi vektor query terpeta (mapped query vector). Dalam membentuk query terpeta, diperlukan hasil dekomposisi nilai singular dari koleksi dokumen. Pada koleksi dokumen, dilakukan operasi teks pada koleksi dokumen, kemudian matriks kata-dokumen (terms-documents matrix) dibentuk. Selanjutnya dilakukan dekomposisi nilai singular (Singular Value Decomposition) pada matriks kata-dokumen. Hasil dekomposisi disimpan dalam collection index. Proses ranking dilakukan dengan menghitung relevansi antara vektor query terpeta dan collection index. Selanjutnya, hasil perhitungan relevansi ditampilkan ke pengguna.

Text Operations pada Query dan Document Collection. Query dari pengguna dan koleksi dokumen dikenakan proses text operations. Proses text operations meliputi, mem-parsing setiap kata dari koleksi dokumen, membuang kata-kata yang merupakan stop words, mem-stemming kata-kata yang ada untuk proses selanjutnya.

Matrix Creation. Hasil text operations yang dikenakan pada koleksi dokumen dikenakan proses matrix creation. Proses matrix creation meliputi, menghitung frekuensi kemunculan dari kata, membangun matriks kata-dokumen seperti dilustrasikan pada gambar II.4. Baris matriks menunjukkan kata dan kolom matriks menunjukkan dokumen. Sebagai contoh, elemen matriks pada baris ke-1 dan kolom ke-2 menunjukkan frekuensi kemunculan kata ke-1 pada dokumen ke-2.

SVD Decomposition. Matriks kata-dokumen yang terbentuk, A berukuran m x n , selanjutnya dikenakan dekomposisi SVD (singular value decomposition). Hasil SVD berupa 3 (tiga) buah matriks seperti yang dilustrasikan pada gambar III.6. Matriks A dapat ditulis menjadi A= USVT . Untuk mempermudah penjelasan, misalkan u1 , u2 , …. , uk adalah vektor- vektor kolom dari matriks U , adalah entryentry di diagonal utama dari matriks S , dan adalah vektor-vektor kolom dari matriks V , sehingga dapat ditulis

SVD Decomposition. Rank dari matriks A , k adalah banyaknya entry tak nol yang terletak pada diagonal utama matriks S , yaitu juga merupakan banyaknya nilai singular dari A . Dari k buah nilai singular dari A, dipilih r buah nilai singular yang terbesar, yaitu dengan r < k. Diperoleh hasil perkalian baru yaitu :

Query Vector Creation. Vektor query, q dibentuk seperti membangun sebuah kolom dari matriks kata- dokumen. Contoh vektor query, q adalah Dengan qj, j = 1, 2, ....., m adalah frekuensi kemunculan kata Tj pada Query.

Query Vector Mapping. Point (3)(v) di atas telah memberikan nilai r yang merupakan dimensi dari ruang vektor hasil perkalian baru. Selanjutnya, vektor query, q dipetakan ke dalam ruang vektor berdimensi r menjadi Q (subbab III.30), yaitu

Ranking Kolom-kolom pada matriks pada point (3)(v) adalah vektor-vektor dokumen yang digunakan dalam menghitung sudut antara vekor dokumen dan vektor query. Ranking dari dokumen relevan ditentukan oleh besar sudut yang dibentuk oleh vektor query dan vektor dokumen. Semakin kecil sudut yang dibentuk, semakin relevan query dengan dokumen. Misalkan matriks Vr ditulis

Hasil akhir Perhitungan cosinus sudut antara query, Q dan dokumen Dj , j = 1, 2, ....... , n diperoleh dan diurutkan berdasarkan dari yang paling besar sampai yang terkecil. Nilai cosinus sudut yang terbesar menunjukkan dokumen yang paling relevan dengan query.