PENGEMBANGAN SISTEM PENGENALAN HURUF ARAB

Slides:



Advertisements
Presentasi serupa
KAJIAN PUSTAKA Oleh: Trisakti Handayani
Advertisements

PENGENALAN POLA Dr. Kusrini, M.Kom.
CARA PENYAJIAN HAL-HAL DASAR
PRESENTASI HASIL DISKUSI KELOMPOK 3
UNSUR PENILAIAN MAKALAH
Isikan Password untuk mengaktifkan program dengan huruf g kecil Klik di sini bila membuat Proyek Baru.
Isikan Password untuk mengaktifkan program dengan huruf g kecil Klik di sini bila membuat Proyek Baru.
PERANCANGAN ANTARMUKA - 2
TEKNIK PENULISAN PENELITIAN
Model Sistem Pengenalan Pola
CS3204 Pengolahan Citra - UAS
Algoritma Thinning dan Aplikasinya
Morphologi.
ANATOMI KARYA ILMIAH Pendahuluan Format Pengetikan
Pengolahan Citra Berwarna
Pengolahan Citra (TIF05)
VISION.
Pengolahan Citra Digital: Morfologi Citra
Operasi Layar.
Interaksi Manusia Dan Komputer
MORFOLOGI CITRA.
Interaksi Manusia Dan Komputer
BAB 5 MENGGUNAKAN PERANGKAT LUNAK PENGOLAH KATA
TATA TULIS BUKU TUGAS AKHIR
CITRA BINER.
PENULISAN DOKUMEN SPESIFIKASI PATEN
2.2 Operasi Dasar Citra : Lokal dan Objek Operasi Ketetanggaan Pixel
MODUL KULIAH 10 Ekstraksi Fitur Bentuk
PENULISAN LAPORAN TEKNIK (PLT) Pertemuan 6 & 7
Pertemuan 12 ARTIFICIAL NEURAL NETWORKS (ANN) - JARINGAN SYARAF TIRUAN - Betha Nurina Sari, M.Kom.
Implementasi Steganografi pada Media Teks dengan Metode Line-Shift Coding dan Metode Centroid Oleh: Indri Andiniarti G Pembimbing : Shelvie.
CARA PENGETIKAN KE-3 Dwiyati Pujimulyani Fakultas Agroindustri
Pertemuan 1 Introduction
CARA PENGETIKAN MI KE-6 Dwiyati Pujimulyani Fakultas Agroindustri
CARA PENGETIKAN Komunikasi Ilmiah KE-4
CS3204 Pengolahan Citra - UAS
MODUL16 Aplikasi Fitur Bentuk
Pengolahan Citra Digital: Morfologi Citra
Tanda Baca Materi 4.
Penggunaan tanda baca.
RESEARCH FIELDS BIDANG PENELITIAN.
PANDUAN PEMBUATAN PRESENTASI
Pengolahan Citra Pertemuan 11
Penyajian Data dan Distribusi Frekuensi
Membuat Dokumen dengan Software Pengolah Angka
Microsoft Excel Dasar-Dasar Excel Memasukkan Data
Analisis Tekstur.
UNIVERSITAS LAMBUNG MANGKURAT PROGRAM STUDI S-1 TEKNIK MESIN
OPERASI PADA CITRA BINER
OLEH : SONIA RUKMARDI SARI KELAS : X2
PENGEMBANGAN SISTEM PENGENALAN HURUF ARAB
Deteksi Tepi Pengolahan Citra Danar Putra Pamungkas, M.Kom
Metode Penelitian Hukum
PENINGKATAN KUALITAS CITRA (Image Enhancement)
KUTIPAN Nama : Astin Ria Npm :
Digital Image Processing
14. MENARIK KESIMPULAN DAN MENYUSUN LAPORAN
Fast Fourier Transform (FFT)
Konsep Dasar Pengolahan Citra
CARA PENGETIKAN Komunikasi Ilmiah KE-4
Operasi Pixel dan Histogram
Segmentasi Gambar Pertemuan 10
IMPLEMENTASI PERBAIKAN CITRA METODE CONTRAST STRETCHING PADA KAMERA CMUCAM3 DAN HISTOGRAM EQUALIZATION PADA GROUND STATION UNTUK KOMURINDO 2012 Oleh: Dede.
PENGENALAN PEMROSESAN TRANSAKSI
IMAGE ENHANCEMENT.
SISTEM INFORMASI GEOGRAFIS
Pertemuan 10 Mata Kuliah Pengolahan Citra
KEMENTERIAN PENDIDIKAN NASIONAL
TATA TULIS LAPORAN PENYAJIAN KUTIPAN. Disusun oleh : RIYANTO MUTTAKIM ( ) ABDI GUSTI( ) SUHARTI RUMANAMA( ) RYSTI DWI ANUGERAH(162.
Templat gambar media sosial
Transcript presentasi:

PENGEMBANGAN SISTEM PENGENALAN HURUF ARAB M. ALBADR LUTAN NASUTION 13508011

Latar Belakang OCR sangat praktikal 50 bahasa 200 juta jiwa Tertinggal vs latin Segmentasi minim OCR Praktikal: sortir surat, pengenalan plat otomatis, atau pencarian di dokumen cetakan Bahasa Arab sendiri cenderung tertinggal dengan latin dan Asia padahal dipakai di 50 bahasa oleh 200 juta jiwa.

Rumusan Masalah Skema hubungan komponen Segmentasi yg mendukung Kinerja Bagaimana proses OCR diimplementasikan dan digabung satu sama lain? Bagaimana segmentasi yang diimplementasikan bisa mendukung? Kinerja perangkat lunak yang dibangun?

citra teks alih aksara, terjemah, pencarian, suara, ... Tujuan piksel sulit diolah huruf dapat disunting dapat dicari OCR Tujuan TA: membuat prototipe PL konversi citra jadi teks. Setelah jadi, ada banyak lahan garapan lain.

Pelatihan dan Pengenalan Studi Literatur Tulisan Arab: 31 huruf, kursif, 4 bentuk, titik Akuisisi Data: Online vs Offline Tahapan Umum OCR: Piksel Fitur Huruf Kata Kalimat Makna Tantangan Arab vs lain. Online: data realtime misal pakai smartphone. Offline: sudah jadi citra. Tahap umum: Pada implementasinya, tahap ini bisa dipecah/ digabung/ dihapus sesuai skema yg. diinginkan. Praproses Segmentasi Representasi Pelatihan dan Pengenalan Pascaproses

Penelitian Terkait Sarfraz, dkk (2003): Pengenalan nomor plat kendaraan dg. pencocokan templat Al-Taani dan Al-Haj (2010): Pengenalan huruf online dg. pohon keputusan Sarhan dan Al-Helalat (2007): Pengenalan huruf dg. JST dan fitur standar devisasi dan piksel Zidouri (2010): Metode segmentasi baru dan pengenalan dua tingkat: templat dan JST Abandah,dkk (2009): Ragam fitur huruf dan kombinasi pengenaan statistik Berikut beberapa penelitian terkait. Dari daftar tersebut, jarang yang melakukan segmentasi.

Alur Proses Praolah Segmentasi Penipisan Ekstraksi Fitur Klasifikasi Tampilkan sebentar, kemudian next.

Praolah Binerisasi Median Filter Tinggi Baris Deteksi Kemiringan 64 Piksel P1’ = median (P1..P9) Sekilas saja (1 menit lah) Deteksi miring: cari segitiga miring vs momen citra. Median filter: setiap piksel dikumpulkan tetangganya dan diganti dengan nilai tengah. Untuk penghilangan derau. Binerisasi: Warna jadi hitam putih, dengan threshold Tinggi: Citra baris disamakan tingginya 64 piksel BLACK if RG||GB||RB 64 piksel lini basis

Templat Cowell Hussain Penipisan Algoritma Hilditch Templat Cowell Hussain Templat Ketebalan Cepat saja, jangan lebih dari 30 detik 2 < = B(p1) < = 6 A(p1)=1 p2.p4.p8=0 or A(p2)!= 1 p2.p4.p6=0 or A(p4)!= 1

Segmentasi Baris Upakata Huruf Proyeksi horizontal Verifikasi tinggi dgn. standar deviasi Upakata Analisis piksel bersambung Pengelompokan menurut ukuran Huruf Algoritma Zidouri (2010) Skip, jelaskan di slide berikutnya.

Segmentasi Baris Dengan ambang. Verifikasi populasi tinggi dengan standar deviasi.

Segmentasi Upakata Tiap sangkar digolongkan ke: Amin (2000) Latin: kata dipisahkan spasi. Bahkan, bisa memisahkan huruf. Arab: ada huruf yg hanya tersambung kanan. Satu gabungan adalah subkata. Upakata dicari dengan komponen piksel terhubung 8 arah. Penggolongan menurut ukuran. Bisa karena ada praolah penyesuaian tinggi baris. Tiap sangkar digolongkan ke: “badan utama”, “objek sekunder”, dan “derau”

Segmentasi Huruf Zidouri (2010) Tipiskan Cari deretan piksel Masukkan fitur ke rule Ekstrak fitur setiap kandidat Masukkan sebagai pita kandidat Cek panjang deretan dan piksel atas bawah Cari deretan piksel Tipiskan Inti: cari rentetan piksel horizontal < threshold. Ekstrak fitur! Aturan: Pilih pita jika lebar relatifnya paling besar dan F4 = 1 Pilih pita jika F2 > Ls dan F4 = 1 Pilih pita jika F2 < Ls dan F3 > Lsa dan pita bukan pita terakhir Pilih pita jika F1 lebih dari Lm dan F4 = 1 Zidouri (2010)

Ekstraksi Fitur Badan Utama Tulang & Keliling Komponen Sekunder Rasio aspek Proyeksi Distribusi piksel Jumlah lubang Badan Utama Titik minat Rantai kode Panjang keliling Diag/keliling Rasio kekompakan Tulang & Keliling Jumlah Posisi Jenis komponen Komponen Sekunder Jangan disebut satu-satu. Sekilas saja lalu lewatkan.

Klasifikasi Pohon Keputusan C4.5 (J48) Badan Utama Weka ++ Objek Sekunder

Data Uji Teks Arab 37 Halaman Sumber: ar.wikipedia Total 37 dokumen. Citra dari pindaian dan ekspor Corel.

Prosedur Pengujian Fungsional Cek sampel citra hasil setiap proses Hingga fungsi dianggap cukup baik Segmentasi Data uji: seluruh citra dokumen Simpan citra hasil tiap segmentasi Hitung citra hasil (manual) Benar, Undersegmentasi, Oversegmentasi Klasifikasi Pembelajaran dari citra huruf tunggal manual tiap font Kinerja komponen: validasi silang Kinerja sistem: hitung tebakan huruf dari citra dokumen Sekilas saja. Tekankan di manual dan validasi silang. Undersegmentasi: yang tidak berhasil dipotong. Oversegmentasi: satu baris yang terpotong menjadi dua.

Skrinsyut Uji Fungsionalitas Citra asli Setelah praolah Penipisan Iterasi satu-satu, lalu skip. Pengotakan Seg. huruf

Antarmuka Sebentar saja, sebagai spoiler untuk demo.

Hasil Uji: Seg. Baris

dengan Verifikasi Standar Deviasi Hasil Uji: Seg. Baris dengan Verifikasi Standar Deviasi Meningkat!!!

Hasil Uji: Seg. Huruf MS Sans Serif dan Traditional Arabic: kecil hurufnya, jadi sulit dipotong. Traditiona Arabic: banyak ligatur pula. SegoeUI dan Tahoma: besar jadi undersegmentasi kecil, cuma oversegmentasi juga meningkat.

Hasil Uji: Seg. Huruf Jika font kecil diabaikan, hasil segmentasi huruf cukup menjanjikan: 87%. Skip! Hanya 10 detik.

Hasil Uji: Klasifikasi Simpel saja: bilang hasil benarnya.

Hasil Uji: Umum Perbandingan ekspektasi dan perolehan hasil.

Simpulan Skema sistem terbukti berhasil. Seg. baris proyeksi horizontal baik untuk dokumen cetak. Verifikasi standar deviasi + proyeksi horizontal. Seg. huruf algoritma Zidouri baik untuk jenis huruf berjarak renggang.

Terima kasih. Demo...