KONSEP DAN PRINSIP SERTA ALGORITMA DALAM MODEL LATENT SEMANTIC INDEXING Anggota Kelompok Ikhsan Fauji 14.11.0010 Irna Oktaviasari 14.11.0018 Erip Marliana 14.11.0019 Egi Firmansyah 14.11.0045 Aditia Fabiola Anggraheni 14.11.0117 Aditiya Pratama 14.11.0145 Ni’am Habibiy Sahid (Ketua) 14.11.0185 Moushawi Almahi (Angkatan 12)
Pengertian latent semantic indexing (LSI) LSI berarti bahwa search engine mencoba mengaitkan sebuah istilah dengan suatu konsep saat mengindeks halaman situs. Misal, Paris dan Hilton dihubungkan dengan nama seorang perempuan, alih-alih nama kota atau hotel, dan Andre dan Agassi diasosiasikan dengan raket tennis.
Pada umumnya, dokumen dikatakan relevan dengan query apabila dokumen (1) Memuat kata atau kalimat yang sama dengan query atau (2) Memuat kata atau kalimat yang bermakna sama dengan query.
Sebagai contoh, terdapat query satu kata yaitu “sulit” Sebagai contoh, terdapat query satu kata yaitu “sulit”. Pada point 1, informasi yang memuat kata “susah” atau “sukar” dinilai tidak relevan karena informasi yang relevan adalah informasi yang memuat kata “sulit”. Sedangkan pada point 2, informasi yang memuat kata “susah” atau “sukar” dinilai relevan karena “susah” atau “sukar” bermakna sama dengan “sulit”.
Metode latent semantic indexing
Pada proses sebelah kiri, query diproses melalui operasi teks, kemudian vektor query dibentuk. Vektor query yang dibentuk dipetakan menjadi vektor query terpeta (mapped query vector). Dalam membentuk query terpeta, diperlukan hasil dekomposisi nilai singular dari koleksi dokumen.
Pada koleksi dokumen, dilakukan operasi teks pada koleksi dokumen, kemudian matriks katadokumen (terms- documents matrix) dibentuk, selanjutnya dilakukan dekomposisi nilai singular (Singular Value Decomposition) pada matriks kata-dokumen. Hasil dekomposisi disimpan dalam collection index. Proses ranking dilakukan dengan menghitung relevansi antara vektor query terpeta dan collection index. Selanjutnya, hasil perhitungan relevansi ditampilkan ke pengguna.
Pada koleksi dokumen: 1. Dilakukan operasi teks pada koleksi dokumen. 2. Kemudian matriks katadokumen (terms-documents matrix) dibentuk. 3. Selanjutnya dilakukan dekomposisi nilai singular (Singular Value Decomposition) pada matriks kata-dokumen. 4. Hasil dekomposisi disimpan dalam collection index. 5. Proses ranking dilakukan dengan menghitung relevansi antara vektor query terpeta dan collection index. 6. Selanjutnya, hasil perhitungan relevansi ditampilkan ke pengguna.
Algoritma latent semantic indexing Lakukan proses tokenizing dan lowercase pada masing-masing kalimat dan query Setiap kata akan dijadikan huruf kecil semua, dan kemudian dilakukan proses penghilangan tanda baca.. Tanda baca yang diperhitungkan adalah: titik ,koma, titik koma, titik dua, hubung -, tanda tanya, tanda seru, kurung biasa (), kurung kotak [], kurung kurawal {}, tanda petik satu, tanda petik ganda, garis miring. Susun matriks A dan q sesuai dengan masing-masing kata yang ditemukan dalam semua kalimat (poin 2a – 2c). Lakukan perulangan pada masing-masing kalimat. Lakukan pemisahan masing-masing kata berdasarkan karakter spasi, Kemudian catat semua kata unik yang belum terdapat pada daftar kata. Lakukan pengurutan kata berdasarkan urutan alfabet hal ini hanya dilakukan untuk memudahkan pembacaan saja. Lakukan perhitungan pada masing-masing kata yang ditemukan. Catat jumlah dari masing-masing kata yang terdapat dalam masing-masing kalimat. Kemudian lakukan proses yang sama untuk query yang digunakan.
3. Lakukan proses dekomposisi matriks menggunakan metode dekomposisi Singular. Lakukan aproksimasi derajat 2 dari masing-masing matriks U, S, dan V. Nilai yang disimpan adalah semua baris pada 2 kolom pertama U dan V, dan 2 baris pertama x 2 kolom pertama S Hitung nilai matriks q pada aproksimasi derajat 2 dengan rumus new q = qT * Uk * (1/Sk). 6. Hitung nilai similarity masing-masing kalimat menggunakan teknik kosinus dan urutkan berdasarkan nilai tertinggi. Nilai similarity dihitung dengan rumus: sim = (newq(0) * vk(0) + newq(1) * vk(1)) / (sqrt(newq(0) ^ 2 + newq(1) ^ 2) * sqrt(vk(0) ^ 2 + vk(1) ^ 2))
REFERENSI http://hbunyamin.itmaranatha.org/Papers/TESIS_hendra_final.pdf http://www.kompasiana.com/kensiah/apa-itu-latent-semantic-indexing- lsi_55001155a333111d7250f9c7 https://piptools.net/algoritma-lsa-latent-semantic-analysis/