Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA

Presentasi serupa


Presentasi berjudul: "KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA"— Transcript presentasi:

1 KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA
Oleh: Yudha Permadi Dibimbing oleh: Ir. Julio Adisantoso, M.Kom. Firman Ardiansyah, S.Kom., M.Si.

2 Latar Belakang Berkembangnya Internet Bermacamnya Sumber Dokumen
Kesalahan Bentuk Kata Kesalahan Pengetikan Kesalahan Pengenalan Hasil pemindaian (Optical Character Recognition (OCR)) Hasil Pembacaan Dibutuhkan Sistem Pemrosesan Dokumen

3 Tujuan Penelitian Mengimplementasikan dan menganalisis beberapa metode N-Gram untuk kategorisasi teks Mengetahui metode N-Gram yang terbaik dalam proses kategorisasi teks

4 Ruang Lingkup Dokumen yang digunakan adalah dokumen berbahasa Indonesia Metode N-Gram yang akan dibahas adalah dengan nilai n = 2, 3, dan 4

5 Tinjauan Pustaka Temu Kembali Informasi (Baeza-Yates & Ribeiro-Neto 1999) Kategorisasi Teks (Attardi 2004) N-gram (Cavnar 1994)

6 Temu Kembali Informasi
Proses untuk membantu pengguna menemukan objek informasi yang relevan dengan suatu tujuan atau masalah Tujuan: mengembalikan informasi yang relevan dan sesedikit mungkin mengembalikan informasi yang tidak relevan terhadap yang diinginkan oleh pengguna (Baeza-Yates & Ribeiro-Neto 1999)

7 Kategorisasi Teks Mengklasifikasikan topik atau tema dari sebuah dokumen (Attardi 2004) Metode yang menjumlahkan petunjuk dari banyak atau semua ciri khas tersebut cenderung bekerja lebih baik dari pada metode yang mencoba mengisolasikan hanya beberapa ciri khas yang relevan (Mooney 2001)

8 N-gram Pemotongan dari string yang lebih panjang
Timbulnya pengertian dari seperangkat N-gram yang bertumpang tindih Contoh: untuk kata “teks” adalah Bi-gram : _t, te, ek, ks, s_ Trigram : _te, tek, eks, ks_, s_ _ Quad-gram: _tek, teks, eks_, ks_ _, s_ _ _

9 Metodologi Penelitian
Kategorisasi Teks Menggunakan Frekuensi Statistik N-Gram Menyusun Frekuensi N-Gram Membandingkan dan Merangking Frekuensi N-Gram Menguji Kategorisasi Teks Pada Klasifikasi Subjek

10 Kategorisasi Teks Menggunakan Frekuensi Statistik N-gram
Kata ke-n yang paling umum pada teks bahasa manusia muncul dengan frekuensi secara proporsional berbalik ke-n

11 Menyusun Frekuensi N-Gram
Parsing atau Tokenizing dan penambahan blank Menyusun N-gram PemotonganToken dengan counter Menampilkan N-gram dan nilai counter Mengurutkan Counter dari yang terbanyak

12 Membandingkan dan Merangking Frekuensi N-gram

13 Menguji Kategorisasi pada Klasifikasi Subjek

14 Lingkungan Pengembangan
Perangkat Lunak: Windows XP Professional Visual Basic .NET 2005 Microsoft Access 2003 Perangkat Keras: AMD Athlon XP GHz 512 MB RAM

15 Koleksi Dokumen Corpus Adisantoso (2004): 953 dokumen 30 kategori
Penelitian: 463 dokumen 10 kategori Kategori Ukuran Profil (KB) Jumlah Dokumen Bencana Kekeringan 40.9 7 Gagal Panen 61.3 9 Harga Komoditas Pertanian 140 11 Impor Beras 66.7 8 Institut Pertanian Bogor 58.8 Musim Panen 50.3 Pembangunan Pertanian 107.4 Penerapan Bioteknologi 72.9 Riset Pertanian 130.7 13 Tanaman Pangan 51.4 Total 780.8 89

16 Kategori Dokumen Kategori Jumlah Dokumen Bencana Kekeringan 32
Gagal Panen 39 Harga Komoditas Pertanian 44 Impor Beras 33 Institut Pertanian Bogor Musim Panen Pembangunan Pertanian 37 Penerapan Bioteknologi 34 Riset Pertanian 56 Tanaman Pangan 35 Total 374

17 Pembuatan Profil Proses tokenizing, stopword, penambahan blank, pemotongan N-gram, susun tabel, pengurutan tiap tabel Profil kategori: 4 tabel (2gram, 3gram, 4gram, dan Ngram) Profil dokumen: 1 tabel (2gram, 3gram, 4gram atau Ngram)

18 Jumlah N-gram tiap Kategori
Bencana Kekeringan 475 2205 4696 7376 Gagal Panen 524 2616 5906 9046 Harga Komoditas Pertanian 567 3108 7720 11395 Impor Beras 501 2455 5588 8544 Institut Pertanian Bogor 514 2510 5774 8798 Musim Panen 483 2292 5113 7888 Pembangunan Pertanian 545 2852 6809 10206 Penerapan Bioteknologi 537 2861 6860 10258 Riset Pertanian 605 3396 8825 12826 Tanaman Pangan 521 2501 5420 8442

19 Grafik Jumlah N-gram dengan Ukuran Profil tiap Kategori

20 Evaluasi Klasifikasi Dokumen Berdasarkan Jenis N-gram
Klasifikasi Bigram Klasifikasi Trigram Klasifikasi Quadgram Klasifikasi Ngram

21 Klasifikasi Bigram Impor Beras 2 6.061% Penerapan Bioteknologi 32.353%
Kategori Jumlah Benar Prosentase Benar Bencana Kekeringan 9 28.125% Gagal Panen 8 20.513% Harga Komoditas Pertanian 18.182% Impor Beras 2 6.061% Institut Pertanian Bogor Musim Panen 25% Pembangunan Pertanian 11 29.73% Penerapan Bioteknologi 32.353% Riset Pertanian 17 30.357% Tanaman Pangan 25.714% TOTAL 92 24.416%

22 Klasifikasi Trigram Bencana Kekeringan 26 81.25% Riset Pertanian 3
Kategori Jumlah Benar Prosentase Benar Bencana Kekeringan 26 81.25% Gagal Panen 4 10.256% Harga Komoditas Pertanian 6 13.636% Impor Beras 12.121% Institut Pertanian Bogor 12 37.5% Musim Panen 13 40.625% Pembangunan Pertanian 8 21.622% Penerapan Bioteknologi 10 29.412% Riset Pertanian 3 5.357% Tanaman Pangan 8.571% TOTAL 89 26.035%

23 Klasifikasi Quadgram Bencana Kekeringan 31 96.875% Riset Pertanian 0%
Kategori Jumlah Benar Prosentase Benar Bencana Kekeringan 31 96.875% Gagal Panen 1 2.564% Harga Komoditas Pertanian 2 4.545% Impor Beras 4 12.121% Institut Pertanian Bogor 12 37.5% Musim Panen 8 25% Pembangunan Pertanian 10.811% Penerapan Bioteknologi 5.882% Riset Pertanian 0% Tanaman Pangan 11.429% TOTAL 68 20.673%

24 Klasifikasi Ngram Bencana Kekeringan 29 90.625% Riset Pertanian 0%
Kategori Jumlah Benar Prosentase Benar Bencana Kekeringan 29 90.625% Gagal Panen 1 2.564% Harga Komoditas Pertanian 4 9.091% Impor Beras 6 18.182% Institut Pertanian Bogor 17 53.125% Musim Panen 9 28.125% Pembangunan Pertanian 5 13.514% Penerapan Bioteknologi 7 20.588% Riset Pertanian 0% Tanaman Pangan 3 8.571% TOTAL 81 24.439%

25 Kesimpulan Klasifikasi Trigram paling sesuai untuk dokumen berbahasa Indonesia (26.035%) Trigram dapat diandalkan dengan kinerja antara 5.357% % Trigram dapat mengelompokkan token dengan lebih baik

26 Kesimpulan (lanj.) Pendekatan “kategorisasi menggunakan contoh”
Kesalahan pengejaan kata karena pengetikan dan pengenalan kata tidak berpengaruh keseluruhan Akurasi rata-rata semua jenis N-gram adalah %

27 Saran Penggunaan dokumen untuk profil kategori Jenis N-gram lain
Metode mempresentasikan dokumen Metode penghitungan jarak

28 Daftar Pustaka [UMBC] University of Maryland Baltimore County Performance and Scalability of A Large-Scale N-Gram Based Information Retrieval System. Attardi G Text Categorization Baeza-Yates R, Ribeiro-Neto B Modern Information Retrieval. Addison-Wesley.

29 Daftar Pustaka (lanj.) Mooney, Raymond Intelligent Information Retrieval and Web Search. Trenkle JM, Cavnar WB N-Gram-Based Text Categorization. Zipf GK Human Behavior and The Principle of Least Effort, An Introduction To Human Ecology.

30 TERIMA KASIH

31 Klasifikasi Bigram 2 kategori
Impor Beras Penerapan Bioteknologi Bencana Kekeringan 1 Gagal Panen 4 3 Harga Komoditas Pertanian 7 2 Institut Pertanian Bogor Musim Panen 10 Pembangunan Pertanian 5 11 Riset Pertanian Tanaman Pangan TOTAL 33 34

32 Klasifikasi Trigram 2 kategori
Bencana Kekeringan Riset Pertanian 26 5 Gagal Panen 3 Harga Komoditas Pertanian 4 Impor Beras Institut Pertanian Bogor 6 Musim Panen 18 Pembangunan Pertanian Penerapan Bioteknologi 10 Tanaman Pangan 2 TOTAL 32 56

33 Klasifikasi Quadgram 2 kategori
Bencana Kekeringan Riset Pertanian 31 16 Gagal Panen 1 Harga Komoditas Pertanian Impor Beras 4 Institut Pertanian Bogor 3 Musim Panen 28 Pembangunan Pertanian Penerapan Bioteknologi Tanaman Pangan 2 TOTAL 32 56

34 Klasifikasi Quadgram tanpa kategori Musim Panen
Riset Pertanian Bencana Kekeringan 34 Gagal Panen 1 Harga Komoditas Pertanian 2 Impor Beras 6 Institut Pertanian Bogor 4 Pembangunan Pertanian Penerapan Bioteknologi 3 Tanaman Pangan TOTAL 56

35 Klasifikasi Ngram 2 kategori
Bencana Kekeringan Riset Pertanian 29 9 Gagal Panen 1 Harga Komoditas Pertanian 2 Impor Beras 3 Institut Pertanian Bogor 6 Musim Panen 27 Pembangunan Pertanian Penerapan Bioteknologi 4 Tanaman Pangan TOTAL 32 56

36 Klasifikasi Ngram tanpa kategori Musim Panen
Riset Pertanian Bencana Kekeringan 19 Gagal Panen 2 Harga Komoditas Pertanian 3 Impor Beras 5 Institut Pertanian Bogor 8 Pembangunan Pertanian 1 Penerapan Bioteknologi 12 Tanaman Pangan 6 TOTAL 56

37 Kategorisasi Menggunakan Bigram
Bencana Kekeringan Gagal Panen Harga Komoditas Pertanian Impor Beras Institut Pertanian Bogor Musim Panen Pembangunan Pertanian Penerapan Bioteknologi Riset Pertanian Tanaman Pangan 9 12 3 1 2 5 6 8 4 7 10 11 17 Total Dokumen 32 39 44 33 37 34 56 35

38 Kategorisasi Menggunakan Trigram
Bencana Kekeringan Gagal Panen Harga Komoditas Pertanian Impor Beras Institut Pertanian Bogor Musim Panen Pembangunan Pertanian Penerapan Bioteknologi Riset Pertanian Tanaman Pangan 26 30 4 1 11 5 13 3 2 6 8 12 18 17 10 9 Total Dokumen 32 39 44 33 37 34 56 35

39 Kategorisasi Menggunakan Quadgram
Bencana Kekeringan Gagal Panen Harga Komoditas Pertanian Impor Beras Institut Pertanian Bogor Musim Panen Pembangunan Pertanian Penerapan Bioteknologi Riset Pertanian Tanaman Pangan 31 34 8 7 14 20 10 5 16 1 3 2 12 4 19 17 28 6 Total Dokumen 32 39 44 33 37 56 35

40 Kategorisasi Menggunakan Ngram
Bencana Kekeringan Gagal Panen Harga Komoditas Pertanian Impor Beras Institut Pertanian Bogor Musim Panen Pembangunan Pertanian Penerapan Bioteknologi Riset Pertanian Tanaman Pangan 29 34 7 3 17 4 9 1 2 5 10 6 19 18 16 27 8 Total Dokumen 32 39 44 33 37 56 35

41 Metode Kategorisasi Teks
Decision Tree Maximum Entropies Modeling k-Nearest Neighbor Classification Naïve Bayes Support Vector Machines Vector Space Classifiers Regularized Regression

42 Decision Tree Berguna untuk klasifikasi sederhana (Problem=method)
Memecah dokumen menjadi makin kecil sehingga sulit dimengerti Sangat volatile sehingga perubahan data yang kecil sangat berpengaruh

43 Maximum Entropies Model klasifikasi: logaritma linear
Cukup lama dikomputasi untuk mencari titik temu (Konvergensi) Dapat menentukan semua kemungkinan informasi yang relevan

44 K-Nearest Neighbour Tanpa training set
Membutuhkan similarity measurement yang efektif Computationally expensive Metode yang sederhana dan cukup dapat diandalkan

45 Naïve Bayes Berdasarkan Teori Probabilitas Metode: Maximum Likelihood
Kelemahan: Peluang kosong tidak dapat dihilangkan Contoh: AutoYahoo!

46 Support Vector Machines
Metode dengan kinerja yang cukup optimal Expensive to train (quadratic programming) Perbedaan hasil tidak signifikan secara statistik Terdapat metode yang lebih baik: Regularized Regression

47 Vector Space Tiap dokumen adalah sebuah vektor
Klasifikasi dengan pembobotan Dokumen dan kueri direpresentasikan sebagai sebuah vektor Similarity measurement adalah fungsi yang mengkalkulasi tingkat kemiripan (degree of similarity) antara dua vektor


Download ppt "KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA"

Presentasi serupa


Iklan oleh Google