KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA

Slides:



Advertisements
Presentasi serupa
Konsep Dasar Sistem Temu Kembali Informasi
Advertisements

Praktikum Sistem Temu Balik Informasi
PANDUAN PENULISAN LAPORAN TEKNIS
DATA MINING 1.
Usulan Proyek Pertemuan 1 & 2
1 Pertemuan 8 Klasifikasi dan Rekognisi Pola (2) Matakuliah: T0283 – Computer Vision Tahun: 2005 Versi: Revisi 1.
Temu Balik Informasi Pertemuan Ke – 12 Presentasi Final Project
Final Project Temu Balik Informasi
Review Jurnal Nasional
oleh: Yusman Syaukat Departemen Ekonomi Sumberdaya dan Lingkungan
METODE DAN MODEL TEMU BALIK INFORMASI Luthfi Nurrohman ( )
IMPLEMENTASI QUESTION ANSWERING SYSTEM DENGAN METODE RULE-BASED PADA TERJEMAHAN AL QUR’AN SURAT AL BAQARAH Meynar Dwi Anggraeny G Dibimbing Oleh:
ALHURIYAH :Aplikasi Pengenalan Huruf Hijaiyah Berbasis speech recognition Menggunakan Mel Frequency Cepstral Coefficients (MFCC) Kelompok 10 Dian.
Pertemuan 7 : Latent Semantic Indexing
Rizki Pebuardi G Pembimbing : 1. Ir. Agus Buono, M.Si., M.Kom.
Konsep dan Model-model Sistem Temu Balik Informasi
MANAJEMEN PEMANTAUAN PERANGKAT JARINGAN KOMPUTER KAMPUS IPB DARMAGA
Fernissa .F. (G ) Dosen Pembimbing : Shelvie Nidya Neyman S.Kom, M.Si
K-SUPPORT VECTOR NEAREST NEIGHBOR UNTUK KLASIFIKASI BERBASIS K-NN
Implementasi vector space model untuk pencarian dokumen
Natural Language Processing (NLP)
TEMU BALIK INFORMASI Multimedia Dalam Temu Balik Informasi.
Konsep, Metode dan Model Temu Kembali Informasi
Oleh: Aditya Nugroho G Dibimbing Oleh: Ir. Agus Buono, M.Si., M.Kom.
Oleh: Ineza Nur Oktabroni (G )
IMPLEMENTASI ALGORITME DAMERAU-LEVENSHTEIN UNTUK KOREKSI EJAAN QUERY BAHASA INDONESIA PADA SEARCH ENGINE     Oleh: Utis Sutisna G  
Penambahan Operasi OLAP dan Fungsi Agregat pada Temporal Data Warehouse Tanaman Pangan Kabupaten Karo Oleh : Karina Gusriani – G Pembimbing : Ibu.
MUHAMMAD RAFI MUTTAQIN G
Review Jurnal Internasional
Metode Cluster Self-Organizing Map untuk Temu Kembali Citra
EFEKTIFITAS SELEKSI FITUR DALAM SISTEM TEMU-KEMBALI INFORMASI
Anggota Kelompok : Kurniawan Novi Pambudi
Martin Budi G Di Bawah Bimbingan Rindang Karyadin, S.T., M.Kom.
Mata kuliah : A Proyek Minor Informasi Akuntansi
PEMBUATAN POHON KEPUTUSAN
Sistem Temu-Balik Informasi yasmi afrizal
Review Jurnal Temu Balik Informasi
TEMU BALIK INFORMASI MULTIMEDIA
Perkenalan Pertemuan ke-1 Sistem Temu-Balik Informasi.
TEMU KEMBALI INFORMASI
Konsep Data Mining Ana Kurniawati.
TEMU BALIK INFORMASI TI 14 A.
Nama Anggota Kelompok: Erna Fatayati (G ) Dirman Hafiz (G )
Firman Ardiansyah, S.Kom, M.Si. Imas S. Sitanggang, S.Si., M.Kom
TUJUAN (1) Mahasiswa dapat menjelaskan Ilmu Pengolahan Text dan Informasi. (C2) Mahasiswa dapat menjelaskan Model-model Sistem Temu Balik Informasi. (C2)
StopList dan Stemming yasmi afrizal
Laten Semantic Indexing
Ir. Julio Adisantoso, M.Kom.
Information Retrieval
Road Map Penelitian Data Mining
Manajemen Resiko Dalam Pengembangan SI
(Teknik Penulisan Karya Ilmiah) A
Classification Supervised learning.
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Temu Balik Informasi Anggota Kelomopok :
Oleh : Rahmat Robi Waliyansyah, M.Kom.
KLASIFIKASI.
Presentasi Penelitian Tugas Akhir
Firman Ardiansyah S.Komp, M.Si.
Perancangan Sistem Klasifikasi Masa Studi Mahasiswa Menggunakan Data Mining Berbasis Algoritma ID3 (Studi Kasus:Jurusan Teknik Komputer –Unikom) Oleh:
Pembimbing : Aziz Kustiyo, S.Si., M.Kom. Endang Purnama Giri, S.Kom.
Oleh: Wahyu Dwi Suryanto G
M Ali Fauzi Indriati Sigit Adinugroho
IMPLEMENTASI QUESTION ANSWERING SYSTEM DENGAN METODE RULE-BASED PADA BANYAK DOKUMEN BERBAHASA INDONESIA Disusun Oleh : Romaida Dolarosa S G
Konsep Data Mining Ana Kurniawati.
Information Retrieval “Document Classification dengan Naive Bayes”
DECISION SUPPORT SYSTEM [MKB3493]
Universitas Gunadarma
Cross-Language Information Retrieval (CLIR)
Intro Algoritma K-Nearest Neighbor (K- NN) adalah sebuah metode klasifikasi terhadap sekumpulan data maupun dokumen berdasarkan pembelajaran  data yang.
Transcript presentasi:

KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA Oleh: Yudha Permadi Dibimbing oleh: Ir. Julio Adisantoso, M.Kom. Firman Ardiansyah, S.Kom., M.Si.

Latar Belakang Berkembangnya Internet Bermacamnya Sumber Dokumen Kesalahan Bentuk Kata Kesalahan Pengetikan Kesalahan Pengenalan Hasil pemindaian (Optical Character Recognition (OCR)) Hasil Pembacaan Dibutuhkan Sistem Pemrosesan Dokumen

Tujuan Penelitian Mengimplementasikan dan menganalisis beberapa metode N-Gram untuk kategorisasi teks Mengetahui metode N-Gram yang terbaik dalam proses kategorisasi teks

Ruang Lingkup Dokumen yang digunakan adalah dokumen berbahasa Indonesia Metode N-Gram yang akan dibahas adalah dengan nilai n = 2, 3, dan 4

Tinjauan Pustaka Temu Kembali Informasi (Baeza-Yates & Ribeiro-Neto 1999) Kategorisasi Teks (Attardi 2004) N-gram (Cavnar 1994)

Temu Kembali Informasi Proses untuk membantu pengguna menemukan objek informasi yang relevan dengan suatu tujuan atau masalah Tujuan: mengembalikan informasi yang relevan dan sesedikit mungkin mengembalikan informasi yang tidak relevan terhadap yang diinginkan oleh pengguna (Baeza-Yates & Ribeiro-Neto 1999)

Kategorisasi Teks Mengklasifikasikan topik atau tema dari sebuah dokumen (Attardi 2004) Metode yang menjumlahkan petunjuk dari banyak atau semua ciri khas tersebut cenderung bekerja lebih baik dari pada metode yang mencoba mengisolasikan hanya beberapa ciri khas yang relevan (Mooney 2001)

N-gram Pemotongan dari string yang lebih panjang Timbulnya pengertian dari seperangkat N-gram yang bertumpang tindih Contoh: untuk kata “teks” adalah Bi-gram : _t, te, ek, ks, s_ Trigram : _te, tek, eks, ks_, s_ _ Quad-gram: _tek, teks, eks_, ks_ _, s_ _ _

Metodologi Penelitian Kategorisasi Teks Menggunakan Frekuensi Statistik N-Gram Menyusun Frekuensi N-Gram Membandingkan dan Merangking Frekuensi N-Gram Menguji Kategorisasi Teks Pada Klasifikasi Subjek

Kategorisasi Teks Menggunakan Frekuensi Statistik N-gram Kata ke-n yang paling umum pada teks bahasa manusia muncul dengan frekuensi secara proporsional berbalik ke-n

Menyusun Frekuensi N-Gram Parsing atau Tokenizing dan penambahan blank Menyusun N-gram PemotonganToken dengan counter Menampilkan N-gram dan nilai counter Mengurutkan Counter dari yang terbanyak

Membandingkan dan Merangking Frekuensi N-gram

Menguji Kategorisasi pada Klasifikasi Subjek

Lingkungan Pengembangan Perangkat Lunak: Windows XP Professional Visual Basic .NET 2005 Microsoft Access 2003 Perangkat Keras: AMD Athlon XP 1700+ 1.46 GHz 512 MB RAM

Koleksi Dokumen Corpus Adisantoso (2004): 953 dokumen 30 kategori Penelitian: 463 dokumen 10 kategori Kategori Ukuran Profil (KB) Jumlah Dokumen Bencana Kekeringan 40.9 7 Gagal Panen 61.3 9 Harga Komoditas Pertanian 140 11 Impor Beras 66.7 8 Institut Pertanian Bogor 58.8 Musim Panen 50.3 Pembangunan Pertanian 107.4 Penerapan Bioteknologi 72.9 Riset Pertanian 130.7 13 Tanaman Pangan 51.4 Total 780.8 89

Kategori Dokumen Kategori Jumlah Dokumen Bencana Kekeringan 32 Gagal Panen 39 Harga Komoditas Pertanian 44 Impor Beras 33 Institut Pertanian Bogor Musim Panen Pembangunan Pertanian 37 Penerapan Bioteknologi 34 Riset Pertanian 56 Tanaman Pangan 35 Total 374

Pembuatan Profil Proses tokenizing, stopword, penambahan blank, pemotongan N-gram, susun tabel, pengurutan tiap tabel Profil kategori: 4 tabel (2gram, 3gram, 4gram, dan Ngram) Profil dokumen: 1 tabel (2gram, 3gram, 4gram atau Ngram)

Jumlah N-gram tiap Kategori Bencana Kekeringan 475 2205 4696 7376 Gagal Panen 524 2616 5906 9046 Harga Komoditas Pertanian 567 3108 7720 11395 Impor Beras 501 2455 5588 8544 Institut Pertanian Bogor 514 2510 5774 8798 Musim Panen 483 2292 5113 7888 Pembangunan Pertanian 545 2852 6809 10206 Penerapan Bioteknologi 537 2861 6860 10258 Riset Pertanian 605 3396 8825 12826 Tanaman Pangan 521 2501 5420 8442

Grafik Jumlah N-gram dengan Ukuran Profil tiap Kategori

Evaluasi Klasifikasi Dokumen Berdasarkan Jenis N-gram Klasifikasi Bigram Klasifikasi Trigram Klasifikasi Quadgram Klasifikasi Ngram

Klasifikasi Bigram Impor Beras 2 6.061% Penerapan Bioteknologi 32.353% Kategori Jumlah Benar Prosentase Benar Bencana Kekeringan 9 28.125% Gagal Panen 8 20.513% Harga Komoditas Pertanian 18.182% Impor Beras 2 6.061% Institut Pertanian Bogor Musim Panen 25% Pembangunan Pertanian 11 29.73% Penerapan Bioteknologi 32.353% Riset Pertanian 17 30.357% Tanaman Pangan 25.714% TOTAL 92 24.416%

Klasifikasi Trigram Bencana Kekeringan 26 81.25% Riset Pertanian 3 Kategori Jumlah Benar Prosentase Benar Bencana Kekeringan 26 81.25% Gagal Panen 4 10.256% Harga Komoditas Pertanian 6 13.636% Impor Beras 12.121% Institut Pertanian Bogor 12 37.5% Musim Panen 13 40.625% Pembangunan Pertanian 8 21.622% Penerapan Bioteknologi 10 29.412% Riset Pertanian 3 5.357% Tanaman Pangan 8.571% TOTAL 89 26.035%

Klasifikasi Quadgram Bencana Kekeringan 31 96.875% Riset Pertanian 0% Kategori Jumlah Benar Prosentase Benar Bencana Kekeringan 31 96.875% Gagal Panen 1 2.564% Harga Komoditas Pertanian 2 4.545% Impor Beras 4 12.121% Institut Pertanian Bogor 12 37.5% Musim Panen 8 25% Pembangunan Pertanian 10.811% Penerapan Bioteknologi 5.882% Riset Pertanian 0% Tanaman Pangan 11.429% TOTAL 68 20.673%

Klasifikasi Ngram Bencana Kekeringan 29 90.625% Riset Pertanian 0% Kategori Jumlah Benar Prosentase Benar Bencana Kekeringan 29 90.625% Gagal Panen 1 2.564% Harga Komoditas Pertanian 4 9.091% Impor Beras 6 18.182% Institut Pertanian Bogor 17 53.125% Musim Panen 9 28.125% Pembangunan Pertanian 5 13.514% Penerapan Bioteknologi 7 20.588% Riset Pertanian 0% Tanaman Pangan 3 8.571% TOTAL 81 24.439%

Kesimpulan Klasifikasi Trigram paling sesuai untuk dokumen berbahasa Indonesia (26.035%) Trigram dapat diandalkan dengan kinerja antara 5.357% - 81.25% Trigram dapat mengelompokkan token dengan lebih baik

Kesimpulan (lanj.) Pendekatan “kategorisasi menggunakan contoh” Kesalahan pengejaan kata karena pengetikan dan pengenalan kata tidak berpengaruh keseluruhan Akurasi rata-rata semua jenis N-gram adalah 23.891%

Saran Penggunaan dokumen untuk profil kategori Jenis N-gram lain Metode mempresentasikan dokumen Metode penghitungan jarak

Daftar Pustaka [UMBC] University of Maryland Baltimore County. 2000. Performance and Scalability of A Large-Scale N-Gram Based Information Retrieval System. Attardi G. 2004. Text Categorization Baeza-Yates R, Ribeiro-Neto B. 1999. Modern Information Retrieval. Addison-Wesley.

Daftar Pustaka (lanj.) Mooney, Raymond. 2001. Intelligent Information Retrieval and Web Search. Trenkle JM, Cavnar WB. 1994. N-Gram-Based Text Categorization. Zipf GK. 1949. Human Behavior and The Principle of Least Effort, An Introduction To Human Ecology.

TERIMA KASIH

Klasifikasi Bigram 2 kategori Impor Beras Penerapan Bioteknologi Bencana Kekeringan 1 Gagal Panen 4 3 Harga Komoditas Pertanian 7 2 Institut Pertanian Bogor Musim Panen 10 Pembangunan Pertanian 5 11 Riset Pertanian Tanaman Pangan TOTAL 33 34

Klasifikasi Trigram 2 kategori Bencana Kekeringan Riset Pertanian 26 5 Gagal Panen 3 Harga Komoditas Pertanian 4 Impor Beras Institut Pertanian Bogor 6 Musim Panen 18 Pembangunan Pertanian Penerapan Bioteknologi 10 Tanaman Pangan 2 TOTAL 32 56

Klasifikasi Quadgram 2 kategori Bencana Kekeringan Riset Pertanian 31 16 Gagal Panen 1 Harga Komoditas Pertanian Impor Beras 4 Institut Pertanian Bogor 3 Musim Panen 28 Pembangunan Pertanian Penerapan Bioteknologi Tanaman Pangan 2 TOTAL 32 56

Klasifikasi Quadgram tanpa kategori Musim Panen Riset Pertanian Bencana Kekeringan 34 Gagal Panen 1 Harga Komoditas Pertanian 2 Impor Beras 6 Institut Pertanian Bogor 4 Pembangunan Pertanian Penerapan Bioteknologi 3 Tanaman Pangan TOTAL 56

Klasifikasi Ngram 2 kategori Bencana Kekeringan Riset Pertanian 29 9 Gagal Panen 1 Harga Komoditas Pertanian 2 Impor Beras 3 Institut Pertanian Bogor 6 Musim Panen 27 Pembangunan Pertanian Penerapan Bioteknologi 4 Tanaman Pangan TOTAL 32 56

Klasifikasi Ngram tanpa kategori Musim Panen Riset Pertanian Bencana Kekeringan 19 Gagal Panen 2 Harga Komoditas Pertanian 3 Impor Beras 5 Institut Pertanian Bogor 8 Pembangunan Pertanian 1 Penerapan Bioteknologi 12 Tanaman Pangan 6 TOTAL 56

Kategorisasi Menggunakan Bigram Bencana Kekeringan Gagal Panen Harga Komoditas Pertanian Impor Beras Institut Pertanian Bogor Musim Panen Pembangunan Pertanian Penerapan Bioteknologi Riset Pertanian Tanaman Pangan 9 12 3 1 2 5 6 8 4 7 10 11 17 Total Dokumen 32 39 44 33 37 34 56 35

Kategorisasi Menggunakan Trigram Bencana Kekeringan Gagal Panen Harga Komoditas Pertanian Impor Beras Institut Pertanian Bogor Musim Panen Pembangunan Pertanian Penerapan Bioteknologi Riset Pertanian Tanaman Pangan 26 30 4 1 11 5 13 3 2 6 8 12 18 17 10 9 Total Dokumen 32 39 44 33 37 34 56 35

Kategorisasi Menggunakan Quadgram Bencana Kekeringan Gagal Panen Harga Komoditas Pertanian Impor Beras Institut Pertanian Bogor Musim Panen Pembangunan Pertanian Penerapan Bioteknologi Riset Pertanian Tanaman Pangan 31 34 8 7 14 20 10 5 16 1 3 2 12 4 19 17 28 6 Total Dokumen 32 39 44 33 37 56 35

Kategorisasi Menggunakan Ngram Bencana Kekeringan Gagal Panen Harga Komoditas Pertanian Impor Beras Institut Pertanian Bogor Musim Panen Pembangunan Pertanian Penerapan Bioteknologi Riset Pertanian Tanaman Pangan 29 34 7 3 17 4 9 1 2 5 10 6 19 18 16 27 8 Total Dokumen 32 39 44 33 37 56 35

Metode Kategorisasi Teks Decision Tree Maximum Entropies Modeling k-Nearest Neighbor Classification Naïve Bayes Support Vector Machines Vector Space Classifiers Regularized Regression

Decision Tree Berguna untuk klasifikasi sederhana (Problem=method) Memecah dokumen menjadi makin kecil sehingga sulit dimengerti Sangat volatile sehingga perubahan data yang kecil sangat berpengaruh

Maximum Entropies Model klasifikasi: logaritma linear Cukup lama dikomputasi untuk mencari titik temu (Konvergensi) Dapat menentukan semua kemungkinan informasi yang relevan

K-Nearest Neighbour Tanpa training set Membutuhkan similarity measurement yang efektif Computationally expensive Metode yang sederhana dan cukup dapat diandalkan

Naïve Bayes Berdasarkan Teori Probabilitas Metode: Maximum Likelihood Kelemahan: Peluang kosong tidak dapat dihilangkan Contoh: AutoYahoo!

Support Vector Machines Metode dengan kinerja yang cukup optimal Expensive to train (quadratic programming) Perbedaan hasil tidak signifikan secara statistik Terdapat metode yang lebih baik: Regularized Regression

Vector Space Tiap dokumen adalah sebuah vektor Klasifikasi dengan pembobotan Dokumen dan kueri direpresentasikan sebagai sebuah vektor Similarity measurement adalah fungsi yang mengkalkulasi tingkat kemiripan (degree of similarity) antara dua vektor