Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

Arlisa Yuliawati 5107100090. Document Summarization  Aplikasi Desktop  Input aplikasi : file PDF (Portable Document Format)  Metode : Nonnegative Matrix.

Presentasi serupa


Presentasi berjudul: "Arlisa Yuliawati 5107100090. Document Summarization  Aplikasi Desktop  Input aplikasi : file PDF (Portable Document Format)  Metode : Nonnegative Matrix."— Transcript presentasi:

1 Arlisa Yuliawati

2 Document Summarization  Aplikasi Desktop  Input aplikasi : file PDF (Portable Document Format)  Metode : Nonnegative Matrix Factorization  Output : ringkasan dokumen sepanjang kurang lebih 20% dari dokumen asli.

3 Nonnegative Matrix Factorization

4  Membangun Matrix A  Pada preprocessing, dilakukan pembangunan matrix A yang berisi term-frequency dari term j pada kalimat ke-i  Perhitungan wgt(j,i) :  No Weight (recall)  Binary Weight (precission)  Modified Binary Weight (F-measure)

5  Penerapan NMF  NMF digunakan untuk memperoleh nilai matrix W, sedangkan nilai H diperoleh dari  Nilai W dan H terus diperbaharui.

6  Generic Relevance of Sentence  Proses pemberian bobot untuk setiap kolom matriks (setiap kalimat), dengan persamaan:  Dimana weight(H i* ) diperoleh dari:  Ekstraksi kalimat  Diambil k kalimat yang memiliki bobot GRS tertinggi, k adalah jumlah kalimat yang ditentukan untuk proses summarization.

7 Portable Document Format  PDF File Structure  Struktur PDF terdiri dari 4 bagian, yaitu;  Header  Berisi informasi tentang spesifikasi-file PDF melekat.  Contoh : % PDF-1.2  Body area / Object  Berisi deskripsi dari berbagai elemen yang ditempatkan pada halaman.  Cross Reference Table  Mengacu pada semua elemen dari bagian yang digunakan pada halaman-file PDF  Trailer  Bagian ini bertugas memberitahu aplikasi tentang dimana letak Cross Reference Table dan selalu berakhir dengan '% EOF'. Jika baris ini tidak ada, PDF-file tidak lengkap dan mungkin tidak bisa diproses aplikasi

8

9

10  PDFBox, Java PDF Library  Merupakan library untuk java, untuk dapat bekerja dengan dokumen PDF, dalam hal pembuatan dokumen PDF baru, manipulasi, dan ekstraksi isi dokumen.  Fitur-fitur PDFBox:  Ekstraksi PDF ke teks  Merge dokumen PDF  Enkripsi/Dekripsi dokumen PDF  Integrasi Lucene Search Engine  Isi data form FDF dan XFDF  Membuat PDF dari file teks  Membuat gambar dari halaman PDF


Download ppt "Arlisa Yuliawati 5107100090. Document Summarization  Aplikasi Desktop  Input aplikasi : file PDF (Portable Document Format)  Metode : Nonnegative Matrix."

Presentasi serupa


Iklan oleh Google