Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

Laten Semantic Indexing

Presentasi serupa


Presentasi berjudul: "Laten Semantic Indexing"— Transcript presentasi:

1 Laten Semantic Indexing
TBI Laten Semantic Indexing (LSI)

2 Apa itu LSI Latent Semantic Analysis( LSA ) metode yang dipatenkan pada tahun 1988 (US Patent 4,839,853) oleh Scott Deerwester, Susan Dumai, George Furnas, Richard Harshman, Thomas Landauer, Karen Lochbaum dan Lynn Streeter. Dalam konteks aplikasinya ke pencarian informasi, metode LSA ini juga disebut sebagai Laten Semantic Indexing (LSI). LSA dapat ditafsirkan sebagai cara yang cepat dan praktis untuk mendapatkan perkiraan perkiraan substitutability kontekstual penggunaan kata-kata dalam segmen teks yang besar yang belum ditentukan makna kesamaan antara kata-kata dan segmen teks yang mungkin mencerminkan suatu hubungan tertentu.

3 Konsep LSI Cara kerja LSA ialah dengan menghasilkan sebuah model yang didapat dengan mencatat kemunculan-kemunculan kata dari tiaptiap dokumen yang direpresentasikan dalam sebuah matriks yang dinamakan term-document matrix, setelah itu dilakukan proses Singular Value Decomposition (SVD) yang akan digunakan untuk mendapatkan Cosine Similarity (nilai kemiripan) antara satu dokumen dengan dokumen yang lain (Landauer, Foltz, & Laham, 1998).

4 Prinsip LSI Metode latent semantic analysis (LSA) menggunakan analisis statistik dan teori aljabar linear untuk mencari suatu latent semantic space dalam sekumpulan teks (corpus), disamping itu LSA dapat merepsentasikan suatu dokumen dan term/konteks dalam suatu vector spacel dengan jumlah dimensi yang lebih sedikit, karena dengan jumlah dimensi yang besar pada analisis teks akan menyebabkan kesulitan dalam membuat kategorisasi (cluster) teks (Dumais, 1995), pada prakteknya proses pereduksian dimensi dalam suatu vector space menggunakan prinsip Singular Value Decomposition (SVD) (Dumais, 1998).

5

6 Alur LSI Pada Gambar 2.2 kita dapat melihat alur proses dari metode latent semantic indexing dibagi 2 (dua) kolom, yaitu kolom sebelah kiri yaitu query dan kolom sebelah kanan yaitu koleksi dokumen.

7 Algoritma LSI Algoritma Singular Value Decomposition (SVD)
Termasuk algoritma teknik pengurangan dimensi yang paling cepat proses kerjanya dibanding teknik pengurangan dimensi lainnya seperti PCA, ICA dan fastICA (extensionICA) [15] merupakan metode matematis untuk menguraikan matriks tunggal [16], dengan mengkompres menjadi tiga matriks yang lebih kecil dengan ukuran yang sama [17]. Cara kerjanya mengurangi data pada kolom dan baris. Vector Space Model (VSM) Vector Space Model (VSM) adalah cara model algoritma konvensional yang biasa digunakan dalam proses temu kembali informasi. Prosesnya dengan menghitung kemiripan dua buah vektor, yaitu antara vektor dari corpus dan vektor dari query (Kontostathis 2007). Untuk melakukan perhitungan terhadap kemiripan antar vektor digunakan rumus Cosine Similarity pada persamaan (Parsons 2009): Mean Average Precision (MAP) Average Precission (AP) hanya mengambil nilai presisi dari dokumen-dokumen yang relevan dan kemudian hasilnya dibagi dengan jumlah dokumen yang dilibatkan (Strehl 2000). Pengukuran dari MAP merupakan hasil perhitungan rata-rata dokumen relevan yang retrieved dari setiap query yang terlibat di dalam sistem, sedangkan dokumen yang tidak relevan nilainya adalah 0 (Blanken 2007) K-Nearest Neighbor (KNN) Adalah algoritma pendekatan untuk mencari kasus dengan menghitung kedekatan antara kasus baru dengan kasus lama, yaitu berdasarkan pada pencocokan bobot dari sejumlah fitur yang ada.[10] Menurut Olivas [11], k-Nearest Neighbor Imputation termasuk dalam Machine Learning

8 Implementasi


Download ppt "Laten Semantic Indexing"

Presentasi serupa


Iklan oleh Google