Laten Semantic Indexing

Slides:



Advertisements
Presentasi serupa
Matriks Definisi Matriks adalah kelompok bilangan yang disusun dalam suatu jajaran berbentuk persegi atau persegi panjang yang terdiri dari baris dan kolom.
Advertisements

StopList dan Stemming yasmi afrizal
Model Temu-Balik Informasi
DATA MINING 1.
MULTIVARIATE ANALYSIS
Ranked Retrieval Pencarian Boolean Menghasilkan sekumpulan dokumen yang cocok dengan query, yang tidak cocok tidak muncul Pada kasus.
SISTEM PERSAMAAN ALJABAR TAK-LINEAR
MATRIKS.
Operasi Aljabar Matriks Pertemuan 02
LINEAR PROGRAMMING Pertemuan 05
ALJABAR LINEAR DAN MATRIKS
Latent Semantic Indexing
Temu Balik Informasi Pertemuan Ke – 12 Presentasi Final Project
Final Project Temu Balik Informasi
MATERI PROJECT TI 2014 B Taufik Ari Arnandan ( )
V. PENYELESAIAN PERSAMAAN Ax = b Dengan A adalah MBS (I)
Review Jurnal Nasional
METODE DAN MODEL TEMU BALIK INFORMASI Luthfi Nurrohman ( )
Anggota Kelompok Dian Santosa (KETUA)
Konsep dan Prinsip Latent Semantic Indexing (LSI)
V. PENYELESAIAN PERSAMAAN Ax = b Dengan A adalah MBS (I)
Pertemuan 7 : Latent Semantic Indexing
Temu Balik Informasi Materi Pertemuan Ke – 7 Konsep dan Prinsip Serta Algoritma Latent Semantic Indexing Anggota : Nama Nim Wahyu Septi Anjar
Anggota Kelompok Ikhsan Fauji Irna Oktaviasari Erip Marliana
Konsep dan Model-model Sistem Temu Balik Informasi
Konsep dan model temu balik informasi
K-SUPPORT VECTOR NEAREST NEIGHBOR UNTUK KLASIFIKASI BERBASIS K-NN
Implementasi vector space model untuk pencarian dokumen
Natural Language Processing (NLP)
TEMU BALIK INFORMASI Multimedia Dalam Temu Balik Informasi.
Konsep, Metode dan Model Temu Kembali Informasi
Latent Semantic Indexing (LSI)
Review Jurnal Internasional
EFEKTIFITAS SELEKSI FITUR DALAM SISTEM TEMU-KEMBALI INFORMASI
Anggota Kelompok : Kurniawan Novi Pambudi
dan Transformasi Linear dalam
TEMU KEMBALI INFORMASI
VECTOR SPACE MODEL.
Temu balik informasi Anggota Kelompok Ikhsan Fauji
TEMU BALIK INFORMASI TI 14 A.
Ketua Kelompok Dian Restiani Anggota : Wahyu Septi Anjar
StopList dan Stemming yasmi afrizal
TEMU BALIK INFORMASI CONCEPT, PRINCIPLE & ALGORITHMS OF
PENYIMPANAN DAN PENGAMBILAN DATA MULTIMEDIA (LANJUTAN) .
4. INVERS SUATU MATRIKS : Pendahuluan
Algoritma kNN (k-Nearest Neighbor)
Information Retrieval
KULIAH TEORI SISTEM DISKRIT MINGGU 5 Dosen Pengampu: Dr. Salmah, M.Si
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
ALJABAR LINEAR DAN MATRIKS
Oleh : Rahmat Robi Waliyansyah, M.Kom.
DASAR ANALISIS MULTIVARIATE.
KONVOLUSI DAN TRANSFORMASI FOURIER
OPERASI BARIS ELEMENTER
CLUSTERING.
Penilaian Relevansi Penilaian relevansi bertujuan untuk menentukan dokumen yang relevan (sesuai; cocok) dari antara sejumlah dokumen yang ditemukan (terpanggil)
Pengertian dan notasi matriks Ordo matriks Jenis-jenis matriks
Algoritma kNN (k-Nearest Neighbor)
MULTIVARIATE ANALYSIS
Similarity Analisis.
KLASIFIKASI.
Nugraha Iman Santosa ( )
Aljabar Linier TIF 206 Mohammad Nasucha, S.T., M.Sc.
Pembobotan Kata (Term Weighting)
Pengelompokan Dokumen (Document Clustering)
Temu Kembali Informasi
Universitas Gunadarma
Intro Algoritma K-Nearest Neighbor (K- NN) adalah sebuah metode klasifikasi terhadap sekumpulan data maupun dokumen berdasarkan pembelajaran  data yang.
Algoritma kNN (k-Nearest Neighbor)
RUMUS mencari Nilai Rata-rata : =AVERAGE(…,…,…,).
Transcript presentasi:

Laten Semantic Indexing TBI Laten Semantic Indexing (LSI)

Apa itu LSI Latent Semantic Analysis( LSA ) metode yang dipatenkan pada tahun 1988 (US Patent 4,839,853) oleh Scott Deerwester, Susan Dumai, George Furnas, Richard Harshman, Thomas Landauer, Karen Lochbaum dan Lynn Streeter. Dalam konteks aplikasinya ke pencarian informasi, metode LSA ini juga disebut sebagai Laten Semantic Indexing (LSI). LSA dapat ditafsirkan sebagai cara yang cepat dan praktis untuk mendapatkan perkiraan perkiraan substitutability kontekstual penggunaan kata-kata dalam segmen teks yang besar yang belum ditentukan makna kesamaan antara kata-kata dan segmen teks yang mungkin mencerminkan suatu hubungan tertentu.

Konsep LSI Cara kerja LSA ialah dengan menghasilkan sebuah model yang didapat dengan mencatat kemunculan-kemunculan kata dari tiaptiap dokumen yang direpresentasikan dalam sebuah matriks yang dinamakan term-document matrix, setelah itu dilakukan proses Singular Value Decomposition (SVD) yang akan digunakan untuk mendapatkan Cosine Similarity (nilai kemiripan) antara satu dokumen dengan dokumen yang lain (Landauer, Foltz, & Laham, 1998).

Prinsip LSI Metode latent semantic analysis (LSA) menggunakan analisis statistik dan teori aljabar linear untuk mencari suatu latent semantic space dalam sekumpulan teks (corpus), disamping itu LSA dapat merepsentasikan suatu dokumen dan term/konteks dalam suatu vector spacel dengan jumlah dimensi yang lebih sedikit, karena dengan jumlah dimensi yang besar pada analisis teks akan menyebabkan kesulitan dalam membuat kategorisasi (cluster) teks (Dumais, 1995), pada prakteknya proses pereduksian dimensi dalam suatu vector space menggunakan prinsip Singular Value Decomposition (SVD) (Dumais, 1998).

Alur LSI Pada Gambar 2.2 kita dapat melihat alur proses dari metode latent semantic indexing dibagi 2 (dua) kolom, yaitu kolom sebelah kiri yaitu query dan kolom sebelah kanan yaitu koleksi dokumen.

Algoritma LSI Algoritma Singular Value Decomposition (SVD) Termasuk algoritma teknik pengurangan dimensi yang paling cepat proses kerjanya dibanding teknik pengurangan dimensi lainnya seperti PCA, ICA dan fastICA (extensionICA) [15] merupakan metode matematis untuk menguraikan matriks tunggal [16], dengan mengkompres menjadi tiga matriks yang lebih kecil dengan ukuran yang sama [17]. Cara kerjanya mengurangi data pada kolom dan baris. Vector Space Model (VSM) Vector Space Model (VSM) adalah cara model algoritma konvensional yang biasa digunakan dalam proses temu kembali informasi. Prosesnya dengan menghitung kemiripan dua buah vektor, yaitu antara vektor dari corpus dan vektor dari query (Kontostathis 2007). Untuk melakukan perhitungan terhadap kemiripan antar vektor digunakan rumus Cosine Similarity pada persamaan (Parsons 2009): Mean Average Precision (MAP) Average Precission (AP) hanya mengambil nilai presisi dari dokumen-dokumen yang relevan dan kemudian hasilnya dibagi dengan jumlah dokumen yang dilibatkan (Strehl 2000). Pengukuran dari MAP merupakan hasil perhitungan rata-rata dokumen relevan yang retrieved dari setiap query yang terlibat di dalam sistem, sedangkan dokumen yang tidak relevan nilainya adalah 0 (Blanken 2007) K-Nearest Neighbor (KNN) Adalah algoritma pendekatan untuk mencari kasus dengan menghitung kedekatan antara kasus baru dengan kasus lama, yaitu berdasarkan pada pencocokan bobot dari sejumlah fitur yang ada.[10] Menurut Olivas [11], k-Nearest Neighbor Imputation termasuk dalam Machine Learning

Implementasi