Final Project Temu Balik Informasi TI 14 D
Kelompok Nama Nim Latif Nur Hidayat 14.11.0209 Retno Dwi K.K. 14.11.0211 Aqit Malinzda 14.11.0213 Deni priyadi 14.11.0214 Nur Rahmat Dwi Riyanto 14.11.0216 Laelatul Badriyah 14.11.0217 Arif Setiawan 14.11.0218 Aditya Wahyu Kurniawan 14.11.0219
Pengertian Temu Balik Informasi (“Temu Balik Informasi Umumnya dianggap sebagai sub bidang dari ilmu komputer yang menawarkan bagian dengan representasi, penyimpanan, dan akses informasi”) Akram Roshdi and Akram Roohparvar “Review: Information Retrieval Techniques and Applications”.
Fungsi Temu Balik Informasi Adapun fungsi utama Sistem Temu Kembali Informasi seperti dikemukakan oleh Lancaster (1979) dan Kent (1971) adalah sebagai berikut: Mengidentifikasi sumber informasi yang relevan dengan minat masyarakat pengguna yang ditargetkan. Menganalisis isi sumber informasi (dokumen) Merepresentasikan isi sumber informasi dengan cara tertentu yang memungkinkan untuk dipertemukan dengan pertanyaan (query) pengguna. Merepresentasikan pertanyaan (query) pengguna dengan cara tertentu yang memungkinkan untuk dipertemukan sumber informasi yang terdapat dalam basis data.
Konsep Temu balik informasi Representation Matching Function Query Representation merupakan sekumpulandari dokumen, data dan informasi. Query merupakan pertanyaan pengguna. Matching function merupakan komponen yang mencocokan data dan informasi dokumen dengan query.
Metode Pembobotan TF-IDF TF (Term Frequency) adalah frekuensi dari kemunculan sebuah term dalam dokumen yang bersangkutan. Semakin besar jumlah kemunculan suatu term (TF tinggi) dalam dokumen, semakin besar pula bobotnya atau akan memberikan nilai kesesuaian yang semakin besar. IDF (Inverse Document Frequency) merupakan sebuah perhitungan dari bagaimana term didistribusikan secara luas pada koleksi dokumen yang bersangkutan. IDF menunjukkan hubungan ketersediaan sebuah term dalam seluruh dokumen. Semakin sedikit jumlah dokumen yang mengandung term yang dimaksud, maka nilai IDF semakin besar.
Bobot kata tf * idf
Bobot kata tf * idf (tf.idf) Ket: tft,d = frekuensi kata t pada dokumen d N = jumlah seluruh dokumen dft = jumlah dokumen yang mengandung kata t
vector space Model Merupakan model sistem temu kembali informasi yang mempresentasikan dokumen dan query dalam bentuk vektor dimensional. Semua(dokumen, query, kata) merupakan vektor pada space berdimensi tiga. Pencocokan dengan memilih yang terbaik (best match). Query mendeskripsiskan dokumen paling baik atau paling cocok. Hasilnya daftar dokumen yang diurutkan Hasil perolehan dokumen dapat memberi petunjuk mengenai dokumen. Model pencocokan berdasarkan yang terbaik biasanya memperlihatkan yang lebih baik. Dokumen yang relevan muncul di urutan teratas.
Model Vector Space Asumsi : Dokumen yang berdekatan pada vector space mempunyai isi yang sama
Memetakan basis vektor : dokumen dan query
Model Vector Space Query (teks bebas) sebagai vektor: Kita anggap query sebagai dokumen pendek. Dokumen diurutkan sesuai dengan kedekatan antara vektor query.
Koefisien Vektor Koefisien (elemen vektor, bobot kata) merepresentasikan adanya kata (seberapa pentingnya kata tersebut). Model tidak memberi petunjuk mengenai cara memberi bobot kata. Beberapa pilihan Biner : 1- ada kata; 0 – tidak ada kata; TF : frekuensi kata di dokumen. TF*IDF (IDF mengindikasikan kekuatan pembeda dari kata)
Vector Space Similarity
Cosine Similarity
Cosine Similarity
Vector Space Model
DEMO PROJECT temu kembali informasi Pada project kelompok kami, menggunakan platform Android sebagai Front End (Tampilan Awal). Sedangkan untuk Back End nya (API nya) kami menggunakan PHP.
Tampilan Utama Menampilkan artikel dari web www.hirupmotekar.com dalam bentuk data JSON.
Menu buat index Pada menu ini artikel di proses Tokenizing (penghilangan tanda baca), Filtering(Stoplist dan Stemming), dan kemudian di indeks ke dalalm database. Stoplist adalah penghilangan Stop Word(kata yang tidak memiliki makna). Stemming adalah proses tranformasi kata-kata yang terdapat dalam suatu dokumen ke dalam kata akarnya / kata dasarnya. Pada Project kami menggunakan Algoritma Stemming Arifin Setiono.
Algoritma Stemming arifin setiono
Menu hitung bobot Menu yang digunakan untuk menghitung Bobot berdasarkan pembobotan metode TF-IDF.
Menu hitung Panjang vektor Menu yang digunakan untuk menghitung Panjang Vektor berdasarkan rumus model VSM(Vector Space Model) setelah dihitung bobot dari masing-masing Term pada dokumen.
Menu Tampil Index Menu yang digunakan untuk menampilkan tabel data indexing dokumen yang diindex ke dalam database.
Menu Tampil panjang vektor Menu yang digunakan untuk menampilkan tabel data panjang vektor dokumen yang di hitung panjang vektornya setelah di hitung bobotnya.
Menu Retrieval Menu yang digunakan untuk mencari dokumen berdasarkan Similarity(kedekatan) query dengan dokumen yang dicari menggunakan model Vector Space Model dan metode pembobotan Tf-Idf.
Menu Tampil Chace Menu yang digunakan untuk menampilkan query-query yang pernah digunakan untuk mencari dokumen, dan menampilkan Id Dokumen yang terdekat dengan query tersebut .
SEKian TERIMAKASIH