Nugraha Iman Santosa (10109797) Implementasi TF-IDF Untuk Pencarian Dokumen (Studi Kasus Di PT. eBdesk Indonesia) Nugraha Iman Santosa (10109797)
Abstrak Mesin pencarian dokumen Aplikasi eBdesk Collaboration Proses penentuan indeks dan pencarian Metode tf-idf
Latar Belakang Masalah Dalam aplikasi eBdesk Collaboration terdapat fasilitas untuk menyimpan dokumen Ingin ditambahkan fungsi pencarian dokumen dalam aplikasi eBdesk Collaboration
Identifikasi Masalah Permasalahan yang akan diangkat adalah : Bagaimana membuat aplikasi pencarian dokumen yang bisa menelusuri query ke dalam isi teks dokumen ? Bagaimana mengimplementasikan algoritma tf-idf pada aplikasi pencarian dokumen tersebut ?
Maksud Maksud dari pembuatan skripsi ini yaitu untuk membuat sebuah aplikasi pencarian dokumen yang mengimplementasikan penggunaan algoritma tf-idf.
Tujuan Tujuan yang akan dicapai dalam pembuatan skripsi ini adalah : Membuat aplikasi yang bisa mencari dokumen dari koleksi dokumen berdasarkan query yang diinputkan pengguna, dan memberikan peringkat terhadap hasil pencarian tersebut supaya menghasilkan dokumen yang relevan terhadap query. Membuat aplikasi pencarian dokumen berbasis web yang mengimplementasikan algoritma tf-idf dan akan menampilkan pencarian dokumen dari seluruh dokumen yang ada dalam aplikasi.
Batasan Masalah Membuat aplikasi pencarian dokumen yang diletakkan di dalam aplikasi eBdesk Collaboration Menambahkan proses penentuan indeks pada aplikasi upload dokumen dalam eBdesk Collaboration Pencarian berupa teks berbahasa Inggris dan pengujian dilakukan terhadap dokumen teks yang berisi kata (term) Pengideks-an dan pencarian dilakukan terhadap dokumen yang berekstensi *.txt dan *.doc
Landasan Teori
Text Mining Text mining adalah salah satu bidang khusus dari data mining. Text mining dapat didefinisikan sebagai suatu proses menggali informasi dari data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen. [Khodra, Masayu Leylia. 2003]
Text Mining 5 Tahapan dalam text mining yaitu : Tokenizing Filtering Stemming Tagging Analyzing
Pencarian Dokumen Tahap dalam pencarian dokumen : Proses penentuan indeks Proses pencarian dokumen
Metode TF-IDF Algoritma tf*idf adalah suatu algoritma atau formula yang digunakan untuk menghitung bobot masing masing dokumen terhadap kata kunci. [Harlian, Milkha. 2006]. Term frequency * inverse document frequency atau biasa disingkat dengan tf·idf. Term frequency (tf) adalah frekuensi dari kemunculan sebuah term dalam dokumen yang bersangkutan Inverse document frequency (idf) adalah suatu statistik yang mengkarakteristikkan sebuah term dalam keseluruhan koleksi dokumen.
Metode TF-IDF – Rumus Keterangan N : Jumlah dokumen dft Jumlah dokumen yang mengandung term yang bersangkutan tfd,t frekuensi dari kemunculan sebuah term dalam dokumen yang bersangkutan
Analisis Dan Perancangan
Gambaran Umum Perangkat Lunak
Use Case Diagram
Sequence Diagram
Sequence Diagram Upload Dokumen
Sequence Diagram Pencarian File
Sequence Diagram Download File
Class Diagram
Class Diagram Upload Dokumen
Class Diagram Pencarian File
Activity Diagram
Activity Diagram Upload Dokumen
Activity Diagram Pencarian File
ER Diagram
Terima Kasih