PENGEMBANGAN SISTEM PENGENALAN HURUF ARAB M. ALBADR LUTAN NASUTION 13508011
Latar Belakang OCR sangat praktikal 50 bahasa 200 juta jiwa Tertinggal vs latin Segmentasi minim
Rumusan Masalah Segmentasi yg mendukung Skema hubungan komponen Kinerja Proses segmentasi yang mendukung Fitur dan pohon klasifikasi Skema penggabungan antar komponen pengenalan Kinerja perangkat lunak yang dibangun
citra teks alih aksara, terjemah, pencarian, suara, ... Tujuan piksel sulit diolah huruf dapat disunting dapat dicari OCR
Pelatihan dan Pengenalan Studi Literatur Tulisan Arab: 31 huruf, kursif, 4 bentuk, titik Akuisisi Data: Online vs Offline Tahapan Umum OCR: Piksel Fitur Huruf Kata Kalimat Makna Praproses Segmentasi Representasi Pelatihan dan Pengenalan Pascaproses
Penelitian Terkait Sarfraz, dkk (2003): Pengenalan nomor plat kendaraan dg. pencocokan templat Al-Taani dan Al-Haj (2010): Pengenalan huruf online dg. pohon keputusan Sarhan dan Al-Helalat (2007): Pengenalan huruf dg. JST dan fitur standar devisasi dan piksel Zidouri (2010): Metode segmentasi baru dan pengenalan dua tingkat: templat dan JST Abandah,dkk (2009): Ragam fitur huruf dan kombinasi pengenaan statistik
Alur Proses Praolah Segmentasi Penipisan Ekstraksi Fitur Klasifikasi
Praolah Median Filter Binerisasi Tinggi 64 Piksel Lini Basis 64 piksel Sekilas saja (1 menit lah) Median filter: setiap piksel dikumpulkan tetangganya dan diganti dengan nilai tengah. Untuk penghilangan derau. Binerisasi: Warna jadi hitam putih, dengan threshold Tinggi: Citra baris disamakan tingginya 64 piksel P1’ = median (P1..P9) BLACK if RG||GB||RB 64 piksel lini basis
Templat Cowell Hussain Penipisan Algoritma Hilditch Templat Cowell Hussain Templat Ketebalan Cepat saja, jangan lebih dari 30 detik 2 < = B(p1) < = 6 A(p1)=1 p2.p4.p8=0 or A(p2)!= 1 p2.p4.p6=0 or A(p4)!= 1
Segmentasi Baris Upakata Huruf Proyeksi horizontal Analisis piksel bersambung Badan utama vs objek sekunder Huruf Algoritma Zidouri (2010)
Segmentasi Baris
Segmentasi Upakata Tiap sangkar digolongkan ke: Amin (2000) Tiap sangkar digolongkan ke: “badan utama”, “objek sekunder”, dan “derau”
Segmentasi Huruf Zidouri (2010) Tipiskan Cari deretan piksel Masukkan fitur ke rule Ekstrak fitur setiap kandidat Masukkan sebagai pita kandidat Cek panjang deretan dan piksel atas bawah Cari deretan piksel Tipiskan Zidouri (2010)
Ekstraksi Fitur Badan Utama Tulang & Keliling Komponen Sekunder Rasio aspek Proyeksi Distribusi piksel Jumlah lubang Badan Utama Titik minat Rantai kode Panjang keliling Diag/keliling Rasio kekompakan Tulang & Keliling Jumlah Posisi Jenis komponen Komponen Sekunder
Klasifikasi Pohon Keputusan C4.5 (J48) Badan Utama Weka ++ Objek Sekunder
Data Uji Teks Arab 37 Halaman Sumber: Wikipedia Total 37 dokumen. Citra dari scanan dan ekspor Corel.
Prosedur Pengujian Fungsional Cek sampel hasil setiap proses Hingga fungsi dianggap cukup baik Segmentasi Data uji: seluruh citra dokumen Simpan citra hasil tiap segmentasi Hitung citra hasil (manual) Benar, Undersegmentasi, Oversegmentasi Klasifikasi Pembelajaran dari citra huruf tunggal manual tiap font Kinerja komponen: validasi silang setiap font pada data latih Kinerja sistem: cek dan hitung tebakan seluruh huruf pada data uji citra dokumen
Skrinsyut Citra asli Setelah praolah Penipisan Pengotakan Seg. huruf
Antarmuka
Hasil Uji: Seg. Baris Benar 98%. Under 0%. Over 2%. Jenis Huruf B O K Arial 99% 1% 21% Arial Unicode MS 9% Microsoft Sans Serif 98% 2% Segoe UI 27% Tahoma 13% Traditional Arabic 97% 3% 33% Benar 98%. Under 0%. Over 2%.
Hasil Uji: Seg. Huruf Benar 86%. Under 8%. Over 6%. Jenis Huruf B U O Arial 84% 11% 5% Arial Unicode MS 79% 17% 4% Microsoft Sans Serif 54% 43% 3% Segoe UI 91% 2% 7% Tahoma 92% 6% Traditional Arabic 46% 50% Benar 74%. Under 21%. Over 5%. Benar 86%. Under 8%. Over 6%.
demo?
Terima kasih.