Dokumen Digital Firman Ardiansyah Departemen Ilmu Komputer

Dokumen Digital Firman Ardiansyah Departemen Ilmu Komputer
Bogor Agricultural University (IPB)

Apa itu dokumen digital
Dokumen kertas, dokumen lontar, dokumen microfilm.  bermakna jelas “ Dokumen digital” ???  Segala sesuatu yang dapat diberikan nama file dan disimpan dalam media elektronik  koleksi data dan propertinya yang dipilih oleh pengguna untuk mengacu pada suatu unit logis ?

Representasi Dokumen Digital
Karakter Dokumen dasar Bahasa deskripsi halaman (PostScript & PDF) Dokumen Word-Processor Images Audio dan Video

Digitasi Dokumen Apakah diperlukan mendigitasi dokumen yang ada?
Digitasi : proses mengambil materi perpustakaan tradisional – biasa dalam bentuk buku dan kertas – dan mengubahnya ke dalam bentuk elektronik yang dapat disimpan dan dimanipulasi oleh komputer

Tahapan Digitasi Ada 2 tahapan
1. menghasilkan imej terdigitasi dari tiap halaman  scanning 2. menghasilkan representasi digital dari isi tekstual halaman menggunakan OCR 1 banyak digunakan tp tdk sesuai OCR menarik jika masih dapat mempertahankan layout dokumen

Scanning Digitasi tiap halaman menghasilkan imej digital.
Terkadang suatu dokumen tidak hanya teks, tp juga gambar yang memiliki warna/grayscale Teks paling baik hitam putih, namun jika terdapat gambar?

Scanning Pada saat digitasi imej, harus diputuskan apakah menggunakan black&white, grayscale, color? Penggunaan resolusi dari imej terdigitasi (jumlah piksel per unit linear) Mis : layar 1024x768, 14”  92x92 Scanner: 300x300

Scanning Lebih banyak bit/pixel akan menyebabkan lack dalam resolusi linear dan sebaliknya Riset membuktikan : jika suatu titik cukup kecil, kecerahan dan ukurannya bersifat berlawanan. Titik kecil cerah tidak dapat dibedakan dengan titik yang lebih besar tapi lebih gelap. Ukuran kritis sangat tergantung pada kontras antara titik dan latar belakangnya

Scanning Ketika mendigitasi dokumen untuk perpustakaan digital, fikirkan tentang apa yang dapat dilihat oleh pengguna Seberapa dekat apa yang didapat di digilib jika dibandingkan dengan dokumen orisinilnya Apakah anda mencoba menampilak artefak? Bagaimana dengan gambar dalam teks? Apakah pengguna akan melihat satu halaman dalam layar dalam satu waktu? Apakah pengguna diperbolehkan memperbesar imej?

scanning Anda akan memerlukan beberapa versi scan dari beberapa contoh halaman. Memilih halaman uji yang dapat merangkum semua jenis dan kualitas dalam koleksi Mendigitasi dalam cakupan kualitas yang berbeda-beda – beda resolusi, gray level, color, monochrome

scanning Diusahan agar kulitas harus sebaik mungkin Kendala : biaya
Segi penyimpanan Waktu akses oleh pengguna, terutama remote user Dapat disiasati dengan kompresi Untuk pengujian gunakan komputer dan jaringan standar Dapat digunakan thumbnails/imej pada beberapa resolusi/progressive refinement- yang pengguna dapat menentukan sendiri

Optical character recognition
Tahapan kedua yang mentransformasikan imej terpindai ke dalam representasi digital dari isi halaman Dpl : representasi per karakter dibandingakan per piksel Proses ini dapat seluruhnya otomatis Terkadang diperlukan tindakan manual  mahal & time-consuming

OCR Secara umum diperlukan resolusi imej sebesar 300dpi untuk mendukung OCR mengenali font reguler berukuran 10pt/lebih 400/600dpi untuk ukuran font yg lebih kecil Scanner terkadang membutuhkan waktu 4x lebih lama untuk memindai 600dpi dibanding 300dpi

OCR OCR program dapat mengubah kecerahan imej grayscale agar teks dapat dikenali  greyscale menghasilkan kualitas yang baik dibanding b/w scanning Namun harus diperhatikan ukuran file, jika proses scanning dilakukan secara offline

OCR Kualitas output sangat tergantung pada kualitas input.
Jelas, tercetak benar, halaman bersih, font umum, terdigitasi pada resolusi yang tepat, meletakkan dokumen dengan cara normal, tanpa tabel, imej atau meteri nontekstual lain  mencapai 99.9% atau 1-4 error/2000 karakter

OCR Akurasi akan meningkat seiring dengan perkembangan teknologi.
Mereplikasi dokumen secara tepat lebih susah, meski dilakukan berbagai pendekatan Sayangnya, di dunia nyata sering terjadi masalah bahasa, font aneh, lambang matematis yang kecil dan tercetak smudgy, overdark/overlight character, keragaman format, hand annotation, bekas air/kopi/kelembaban, multiple columns yang dekat, beragam imej (terutama yang didalamnya terdapt teks), terlipat saat scanning

Solusi Pada saat OCR accuracy rate di bawah 95% lebih efisien jika digunakan manual ‘keying’ Menerapkan tahapan yang benar Pelatihan Penerapan interactive OCR

Interactive OCR Diperlukan intervensi manusia baik sesudah/sebelum proses pengenalan Time consuming 6 tahapan : Image acquisition Cleanup Page analysis Recognition Checking saving

Acqusition Pada tahap inisial, imej didapat dari scanner atau membaca file yang merupakan imej terdigitasi Cara pertama langsung melibatkan hardware Dan bisa dilakukan langsung secara interaktif Lebih efektif jika menggunakan document feeder

Cleanup Menggunakan opersi pengolahan imej tertentu terhadap seluruh/sebagian imej Mis : despeckle filter membersihkan noise. Terkadang dibutuhkan rotasi/skew beberapa derajat untuk pelurusan Perubahan warna, mis dari white on black  black on white Halaman ganda dipisahkan menjadi satu halaman Membuang bagian yang tidak diinginkan : bekas jilidan Manual/automatis

Page analysis Mengamati layout halaman dan menentukan bagian mana yang harus diproses dan dalam susunan apa. Hasilnya adl segmen/blok halaman dalam berbagai tipe Text block, table block – yang akan dianalisa layout tablenya sebelum dibaca isi selnya, picture block – yang akan ditidakacuhkan dalam tahapan pengenalan

Dapat setup manual layout untuk proses batch
Multikolom akan dideteksi dan diurutkan berdasarkan susunan pembacaan yang benar Dapat setup manual layout untuk proses batch Mis : mendefiniskan header/footer region, multikolom Tabel memiliki tingkat kesusahan tertinggi

Recognition Tahap pembacaan
Tipe font : regular, fixed width, dot matrix Bahasa Ligature Melakukan training untuk berbagai karakter

Checking Cek hasil keluaran
Hasil OCR ditampilkan di layar dengan masalah yang di-highlight, Tidak dikenali/karakter tidak dikenali secara pasti/kata yang tidak ada dalam kamus Biasanya diacukan terhadap dokumen

Saving Save ke dalam format dokumen lain
HTML, rttf, word, pdf Perlu diperhatikan kelemahan dan kekurangan dari format-format tertentu

Page handling Melepas jilidan Menggunakan scanner khusus
Menggunakan microfilm/microfich

Proyek digitasi Outsourcing Pay per page
Memperpendek jalan, menegakkan aturan

Dokumen Digital Firman Ardiansyah Departemen Ilmu Komputer

Presentasi serupa

Presentasi berjudul: "Dokumen Digital Firman Ardiansyah Departemen Ilmu Komputer"— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan

Masuk

Otorisasi melalui jaringan sosial:

Dokumen Digital Firman Ardiansyah Departemen Ilmu Komputer

Presentasi serupa

Presentasi berjudul: "Dokumen Digital Firman Ardiansyah Departemen Ilmu Komputer"— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan