Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

PENGEMBANGAN SISTEM PENGENALAN HURUF ARAB

Presentasi serupa


Presentasi berjudul: "PENGEMBANGAN SISTEM PENGENALAN HURUF ARAB"— Transcript presentasi:

1 PENGEMBANGAN SISTEM PENGENALAN HURUF ARAB
M. ALBADR LUTAN NASUTION

2 Latar Belakang OCR sangat praktikal 50 bahasa 200 juta jiwa
Tertinggal vs latin Segmentasi minim

3 Rumusan Masalah Segmentasi yg mendukung Skema hubungan komponen
Kinerja Proses segmentasi yang mendukung Fitur dan pohon klasifikasi Skema penggabungan antar komponen pengenalan Kinerja perangkat lunak yang dibangun

4 citra teks alih aksara, terjemah, pencarian, suara, ... Tujuan piksel
sulit diolah huruf dapat disunting dapat dicari OCR

5 Pelatihan dan Pengenalan
Studi Literatur Tulisan Arab: 31 huruf, kursif, 4 bentuk, titik Akuisisi Data: Online vs Offline Tahapan Umum OCR: Piksel Fitur Huruf Kata Kalimat Makna Praproses Segmentasi Representasi Pelatihan dan Pengenalan Pascaproses

6 Penelitian Terkait Sarfraz, dkk (2003): Pengenalan nomor plat kendaraan dg. pencocokan templat Al-Taani dan Al-Haj (2010): Pengenalan huruf online dg. pohon keputusan Sarhan dan Al-Helalat (2007): Pengenalan huruf dg. JST dan fitur standar devisasi dan piksel Zidouri (2010): Metode segmentasi baru dan pengenalan dua tingkat: templat dan JST Abandah,dkk (2009): Ragam fitur huruf dan kombinasi pengenaan statistik

7 Alur Proses Praolah Segmentasi Penipisan Ekstraksi Fitur Klasifikasi

8 Praolah Median Filter Binerisasi Tinggi 64 Piksel Lini Basis 64 piksel
Sekilas saja (1 menit lah) Median filter: setiap piksel dikumpulkan tetangganya dan diganti dengan nilai tengah. Untuk penghilangan derau. Binerisasi: Warna jadi hitam putih, dengan threshold Tinggi: Citra baris disamakan tingginya 64 piksel P1’ = median (P1..P9) BLACK if RG||GB||RB 64 piksel lini basis

9 Templat Cowell Hussain
Penipisan Algoritma Hilditch Templat Cowell Hussain Templat Ketebalan Cepat saja, jangan lebih dari 30 detik 2 < = B(p1) < = 6 A(p1)=1 p2.p4.p8=0 or A(p2)!= 1 p2.p4.p6=0 or A(p4)!= 1

10 Segmentasi Baris Upakata Huruf Proyeksi horizontal
Analisis piksel bersambung Badan utama vs objek sekunder Huruf Algoritma Zidouri (2010)

11 Segmentasi Baris

12 Segmentasi Upakata Tiap sangkar digolongkan ke:
Amin (2000) Tiap sangkar digolongkan ke: “badan utama”, “objek sekunder”, dan “derau”

13 Segmentasi Huruf Zidouri (2010) Tipiskan Cari deretan piksel
Masukkan fitur ke rule Ekstrak fitur setiap kandidat Masukkan sebagai pita kandidat Cek panjang deretan dan piksel atas bawah Cari deretan piksel Tipiskan Zidouri (2010)

14 Ekstraksi Fitur Badan Utama Tulang & Keliling Komponen Sekunder
Rasio aspek Proyeksi Distribusi piksel Jumlah lubang Badan Utama Titik minat Rantai kode Panjang keliling Diag/keliling Rasio kekompakan Tulang & Keliling Jumlah Posisi Jenis komponen Komponen Sekunder

15 Klasifikasi Pohon Keputusan C4.5 (J48) Badan Utama Weka ++
Objek Sekunder

16 Data Uji Teks Arab 37 Halaman Sumber: Wikipedia Total 37 dokumen.
Citra dari scanan dan ekspor Corel.

17 Prosedur Pengujian Fungsional Cek sampel hasil setiap proses
Hingga fungsi dianggap cukup baik Segmentasi Data uji: seluruh citra dokumen Simpan citra hasil tiap segmentasi Hitung citra hasil (manual) Benar, Undersegmentasi, Oversegmentasi Klasifikasi Pembelajaran dari citra huruf tunggal manual tiap font Kinerja komponen: validasi silang setiap font pada data latih Kinerja sistem: cek dan hitung tebakan seluruh huruf pada data uji citra dokumen

18 Skrinsyut Citra asli Setelah praolah Penipisan Pengotakan Seg. huruf

19 Antarmuka

20 Hasil Uji: Seg. Baris Benar 98%. Under 0%. Over 2%. Jenis Huruf B O K
Arial 99% 1% 21% Arial Unicode MS 9% Microsoft Sans Serif 98% 2% Segoe UI 27% Tahoma 13% Traditional Arabic 97% 3% 33% Benar 98%. Under 0%. Over 2%.

21 Hasil Uji: Seg. Huruf Benar 86%. Under 8%. Over 6%.
Jenis Huruf B U O Arial 84% 11% 5% Arial Unicode MS 79% 17% 4% Microsoft Sans Serif 54% 43% 3% Segoe UI 91% 2% 7% Tahoma 92% 6% Traditional Arabic 46% 50% Benar 74%. Under 21%. Over 5%. Benar 86%. Under 8%. Over 6%.

22 demo?

23 Terima kasih.


Download ppt "PENGEMBANGAN SISTEM PENGENALAN HURUF ARAB"

Presentasi serupa


Iklan oleh Google