Klasifikasi Dokumen Teks Berbahasa Indonesia

Slides:



Advertisements
Presentasi serupa
Peserta mengerti tahap-tahap pada ADC
Advertisements

KIMIA UNSUR-UNSUR TRANSISI
PERTEMUAN 3 Algoritma & Pemrograman
Penyelidikan Operasi 1. Konsep Optimisasi.
KEBIJAKAN PEMERINTAH PROVINSI JAWA TIMUR
Penyusunan Data Baseline dan Perhitungan Capaian Kegiatan Peningkatan Kualitas Permukiman Kumuh Perkotaan DIREKTORAT PENGEMBANGAN KAWASAN PERMUKIMAN DIREKTORAT.
BALTHAZAR KREUTA, SE, M.SI
PENGEMBANGAN KARIR DOSEN Disarikan dari berbagai sumber oleh:
Identitas, persamaan dan pertidaksamaan trigonometri
ANGGOTA KELOMPOK WISNU WIDHU ( ) WILDAN ANUGERAH ( )
METODE PENDUGAAN ALTERNATIF
Dosen Pengampu: Muhammad Zidny Naf’an, M.Kom
GERAK SUGIYO, SPd.M.Kom.
Uji Hipotesis Luthfina Ariyani.
SOSIALISASI PEKAN IMUNISASI NASIONAL (PIN) POLIO 2016
PENGEMBANGAN BUTIR SOAL
Uji mana yang terbaik?.
Analisis Regresi linear berganda
PEERSIAPAN DAN PENERAPAN ISO/IEC 17025:2005 OLEH: YAYAN SETIAWAN
E Penilaian Proses dan Hasil Belajar
b. Kematian (mortalitas)
Ilmu Komputasi BAGUS ADHI KUSUMA
Uji Hipotesis dengan SPSS
OVERVIEW PERUBAHAN PSAK EFFEKTIF 2015
Pengolahan Citra Berwarna
Teori Produksi & Teori Biaya Produksi
Pembangunan Ekonomi dan Pertumbuhan Ekonomi
PERSIAPAN UN MATEMATIKA
Kriptografi.
1 Bab Pembangunan Ekonomi dan Pertumbuhan Ekonomi.
Ekonomi untuk SMA/MA kelas XI Oleh: Alam S..
ANALISIS PENDAPATAN NASIONAL DALAM PEREKONOMIAN TIGA SEKTOR
Dosen: Atina Ahdika, S.Si., M.Si.
Anggaran biaya konversi
Junaidi Fakultas Ekonomi dan Bisnis Universitas Jambi
Pemodelan dan Analisis
Bab 4 Multivibrator By : M. Ramdhani.
Analisis Regresi – (Lanjutan)
Perkembangan teknologi masa kini dalam kaitannya dengan logika fazi
DISTRIBUSI PELUANG KONTINU
FETAL PHASE Embryolgy II
Yusuf Enril Fathurrohman
3D Viewing & Projection.
Sampling Pekerjaan.
Gerbang Logika Dwi Indra Oktoviandy (A )
SUGIYO Fisika II UDINUS 2014
D10K-6C01 Pengolahan Citra PCD-04 Algoritma Pengolahan Citra 1
Perpajakan di Indonesia
Bab 2 Kinerja Perusahaan dan Analisis Laporan Keuangan
Penyusunan Anggaran Bahan Baku
MOMENTUM, IMPULS, HUKUM KEKEKALAN MOMENTUM DAN TUMBUKAN
Theory of Computation 3. Math Fundamental 2: Graph, String, Logic
Strategi Tata Letak.
Theory of Computation 2. Math Fundamental 1: Set, Sequence, Function
METODE PENELITIAN.
PENGUJIAN HIPOTESIS.
(Skewness dan kurtosis)
Departemen Teknik Mesin dan Biosistem INSTITUT PERTANIAN BOGOR
Dasar-dasar piranti photonik
Mekflu_1 Rangkaian Pipa.
Digital to Analog Conversion dan Rekonstruksi Sinyal Tujuan Belajar 1
SEKSI NERACA WILAYAH DAN ANALISIS BPS KABUPATEN TEMANGGUNG
ASPEK KEPEGAWAIAN DALAM PENILAIAN ANGKA KREDIT
RANGKAIAN DIODA TK2092 Elektronika Dasar Semester Ganjil 2015/2016
Ruang Euclides dan Ruang Vektor 1.
Bab Anuitas Aritmetrik dan Geometrik
Penyelidikan Operasi Pemrograman Dinamik Deterministik.
Kesetimbangan Fase dalam sistem sederhana (Aturan fase)
ANALISIS STRUKTUR MODAL
Transcript presentasi:

Klasifikasi Dokumen Teks Berbahasa Indonesia Menggunakan Minor Component Analysis Oleh : Indra Juniawan G64051546 Dibimbing Oleh : Ahmad Ridha, S.Kom, M.S DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2008

PENDAHULUAN

Latar Belakang Kebutuhan informasi yang cepat dan tepat. Perkembangan Informasi yang pesat. Solusi : Pengelompokan dokumen. Minor Component Analysis.

Tujuan Implementasi dan analisis kinerja MCA dalam klasifikasi dokumen teks berbahasa Indonesia Analisis pengaruh perlakuan praproses pada hasil akurasi klasifikasi

Ruang Lingkup Pendidikan Ekonomi Kriminal Lingkungan Bulutangkis MCA Klasifikasi dokumen teks Menggunakan MCA pada korpus berita digital berbahasa Indonesia Data terdiri atas 750 dokumen berita dari Media Indonesia Online Terdapat lima kelas dokumen Pendidikan MCA Ekonomi Kriminal Lingkungan Bulutangkis

TINJAUAN PUSTAKA

Minor Component Analysis Mendapatkan komponen minor dari data input dengan melakukan update bobot secara adaptive. (Chen & Amari 2001) Komponen minor adalah arah data dengan nilai ragam terkecil. (Peng & Yi 2006)

x Algoritme MCA (cont..) Matriks input x(t) Hitung matriks autokorelasi R= x(t)x(t)T x

Algoritme MCA (cont..) Vektor bobot w(0) η > 0 Update bobot Learning Rate η > 0 Update bobot

Tokenisasi Unit pemrosesan token  term Kegagalan tim bulutangkis Indonesia mencapai target merebut Piala Sudirman 2009 membuat PBSI harus melakukan regenerasi total. Indonesia harus membuat tim yang … Piala regenerasi Sudirman total 2009 Indonesia Indonesia membuat harus harus mencapai PBSI membuat target harus harus tim merebut melakukan yang yang (Manning 2008)

Stop Words Kata –kata yang tidak digunakan, terlalu umum, tidak bermakna. Stoplist  daftar kata buang. Contoh : ada adalah memang tapi (Manning 2008)

Stemming Cari Stemming  Memotong kata Kata dasar Mendapatkan makna yang sama Contoh : Mencari Cari Carilah Cari (Manning 2008)

Pembobotan tf.idf idf bernilai log N hingga 0 Inverse document frequency (idf) idf bernilai log N hingga 0

K- Folds Cross Validation Membagi data ke sub-sub set data Melakukan k kali pengujian Data Latih Data Uji (Han & Kamber 2005)

Uji Cochran Uji Non-Parametrik Uji signifikansi tiga sampel atau lebih Reaksi hasil bersifat nominal Hipotesis: H0 = Semua perlakuan mempunyai efektivitas sama H1 = Terdapat perbedaan efektivitas antar-perlakuan

Uji Cochran (Cont..) Percobaan Perlakuan 1 2 … c X11 X12 X1c R1 X21 Xr1 Xr2 Xrc Rr C1 = 𝚺 Xi1 C2 = 𝚺 Xi2 Cc= 𝚺 Xic N=𝚺Ri

Uji Cochran (Cont..) Kriteria Uji : Terima H0 jika Q < Tolak H0 jika Q >

METODOLOGI

Implementasi DATA Modul tokensiasi Modul Stopword 750 Dokumen PHP Pendidikan Ekonomi Lingkungan Bulutangkis Kriminal Klasifikasi MCA Matlab 7.01

Klasifikasi Perlakuan - 1 Algoritme klasifikasi: Proyeksikan dokumen terhadap MCA setiap Kelas Hitung norm setiap vektor proyeksi Urutkan nilai norm Nilai norm terkecil  kelas dokumen Tokenisasi minimal 3 karakter White space Koma (,) Titik (.) Titik dua (:) Data Latih Data Uji Perlakuan - 2 Stop Word  263 kata (Ahmad Ridha 2002) 66,67% 33,33% Perlakuan - 3 Stemming Indonesian Stemmer Perlakuan - 4 Stop Word + Stemming

HASIL DAN PEMBAHASAN

Akurasi perlakuan ke- (%) Praproses Perlakuan Jumlah Term Pertama 14145 Kedua 13932 Ketiga 10149 Keempat 10046 Jumlah Term Akurasi perlakuan ke- (%) 1 2 3 4 600 93,6 94 93,2 800 95,2 96,4 96 1000 94,4 97,2 1200 96,8 97,6 1400 Top – n term

Praproses (Cont…)

Praproses (cont..) Perlakuan ke- Waktu Praproses (s) 1 298,33 2 2 545,00 3 8 738,33 4 10 115,33 Vektor 1200 x 1 Pendidikan Ekonomi Lingkungan Bulutangkis Kriminal

Pelatihan Rata-rata waktu pelatihan = 25 440,75 detik Vektor 1200 x 1 Pendidikan Ekonomi Lingkungan Bulutangkis Kriminal

100% Akurasi Setiap Kelas Lingkungan Ekonomi Pendidikan Bulutangkis Kriminal 100%

Akurasi Setiap Perlakuan Perlakuan Pertama Kelas Prediksi 1 2 3 4 5 Kelas Aktual 46 50 49 = 96.4% Perlakuan Kedua Kelas Prediksi 1 2 3 4 5 Kelas Aktual 46 50 47 = 96.8%

Akurasi Setiap Perlakuan (cont..) Perlakuan Ketiga Kelas Prediksi 1 2 3 4 5 Kelas Aktual 47 50 = 97.6% Perlakuan Keempat Kelas Prediksi 1 2 3 4 5 Kelas Aktual 46 50 48 = 97.6%

Uji Cochran Hipotesis : 𝚺Ri2 = 3859 α = 5% Akurasi Perlakuan ke- 1 2 3 4 96.4% 96.8% 97.6% Hipotesis : H0 : Keempat perlakuan memberikan hasil akurasi yang identik. H1 : Keempat perlakuan berbeda dalam hal akurasi klasifikasi.

3 – Folds Cross Validation

PENUTUP

Kesimpulan Penerapan klasifikasi MCA untuk dokumen teks berhasil dilakukan. Akurasi model klasifikasi yang terbentuk > 90%. Perbedaan perlakuan praroses tidak memberi pengaruh yang signifikan. Algoritme tahan terhadap perubahan data set.

Saran Gunakan algoritme MCA yang mampu mengambil lebih dari satu komponen minor Gunakan data yang lebih besar dan kelas data yang lebih banyak untuk melihat konsistensi efektivitas MCA

Terima kasih Selesai

Perkembangan Informasi World Wide Web Akhir pertengahan tahun 1996 60 juta dokumen 12 juta host 600.000 server. Awal tahun 1996 9 juta host 250.000 server. (Li 1998) 

Algoritme Klasifikasi Naïve Bayes Classifier Nearest Neighbour Single Pass Clustering Principal Component Analysis Minor Component Analysis 

Minor Component Analysis (MCA) Penerapan MCA pada klasifikasi citra dapat mempercepat waktu pencarian dan efisiensi dalam pengelompokan citra. (Jancovic 2006) 

Query 

Non-Parametrik Tidak perlu sebaran normal Tidak perlu data kuantitatif

Non-Parametrik (cont…) Friedman Test kuantitatif Uji Konkordansi Kendall Ordinal Cochran Test Nominal