Arlisa Yuliawati 5107100090
Document Summarization Aplikasi Desktop Input aplikasi : file PDF (Portable Document Format) Metode : Nonnegative Matrix Factorization Output : ringkasan dokumen sepanjang kurang lebih 20% dari dokumen asli.
Nonnegative Matrix Factorization
Membangun Matrix A Pada preprocessing, dilakukan pembangunan matrix A yang berisi term-frequency dari term j pada kalimat ke-i Perhitungan wgt(j,i) : No Weight (recall) Binary Weight (precission) Modified Binary Weight (F-measure)
Penerapan NMF NMF digunakan untuk memperoleh nilai matrix W, sedangkan nilai H diperoleh dari Nilai W dan H terus diperbaharui.
Generic Relevance of Sentence Proses pemberian bobot untuk setiap kolom matriks (setiap kalimat), dengan persamaan: Dimana weight(Hi*) diperoleh dari: Ekstraksi kalimat Diambil k kalimat yang memiliki bobot GRS tertinggi, k adalah jumlah kalimat yang ditentukan untuk proses summarization.
Portable Document Format PDF File Structure Struktur PDF terdiri dari 4 bagian, yaitu; Header Berisi informasi tentang spesifikasi-file PDF melekat. Contoh : % PDF-1.2 Body area / Object Berisi deskripsi dari berbagai elemen yang ditempatkan pada halaman. Cross Reference Table Mengacu pada semua elemen dari bagian yang digunakan pada halaman-file PDF Trailer Bagian ini bertugas memberitahu aplikasi tentang dimana letak Cross Reference Table dan selalu berakhir dengan '%% EOF'. Jika baris ini tidak ada, PDF-file tidak lengkap dan mungkin tidak bisa diproses aplikasi
PDFBox, Java PDF Library Merupakan library untuk java, untuk dapat bekerja dengan dokumen PDF, dalam hal pembuatan dokumen PDF baru, manipulasi, dan ekstraksi isi dokumen. Fitur-fitur PDFBox: Ekstraksi PDF ke teks Merge dokumen PDF Enkripsi/Dekripsi dokumen PDF Integrasi Lucene Search Engine Isi data form FDF dan XFDF Membuat PDF dari file teks Membuat gambar dari halaman PDF