Dokumen Digital Firman Ardiansyah Departemen Ilmu Komputer Bogor Agricultural University (IPB)
Apa itu dokumen digital Dokumen kertas, dokumen lontar, dokumen microfilm. bermakna jelas “ Dokumen digital” ??? Segala sesuatu yang dapat diberikan nama file dan disimpan dalam media elektronik koleksi data dan propertinya yang dipilih oleh pengguna untuk mengacu pada suatu unit logis ?
Representasi Dokumen Digital Karakter Dokumen dasar Bahasa deskripsi halaman (PostScript & PDF) Dokumen Word-Processor Images Audio dan Video
Digitasi Dokumen Apakah diperlukan mendigitasi dokumen yang ada? Digitasi : proses mengambil materi perpustakaan tradisional – biasa dalam bentuk buku dan kertas – dan mengubahnya ke dalam bentuk elektronik yang dapat disimpan dan dimanipulasi oleh komputer
Tahapan Digitasi Ada 2 tahapan 1. menghasilkan imej terdigitasi dari tiap halaman scanning 2. menghasilkan representasi digital dari isi tekstual halaman menggunakan OCR 1 banyak digunakan tp tdk sesuai OCR menarik jika masih dapat mempertahankan layout dokumen
Scanning Digitasi tiap halaman menghasilkan imej digital. Terkadang suatu dokumen tidak hanya teks, tp juga gambar yang memiliki warna/grayscale Teks paling baik hitam putih, namun jika terdapat gambar?
Scanning Pada saat digitasi imej, harus diputuskan apakah menggunakan black&white, grayscale, color? Penggunaan resolusi dari imej terdigitasi (jumlah piksel per unit linear) Mis : layar 1024x768, 14” 92x92 Scanner: 300x300
Scanning Lebih banyak bit/pixel akan menyebabkan lack dalam resolusi linear dan sebaliknya Riset membuktikan : jika suatu titik cukup kecil, kecerahan dan ukurannya bersifat berlawanan. Titik kecil cerah tidak dapat dibedakan dengan titik yang lebih besar tapi lebih gelap. Ukuran kritis sangat tergantung pada kontras antara titik dan latar belakangnya
Scanning Ketika mendigitasi dokumen untuk perpustakaan digital, fikirkan tentang apa yang dapat dilihat oleh pengguna Seberapa dekat apa yang didapat di digilib jika dibandingkan dengan dokumen orisinilnya Apakah anda mencoba menampilak artefak? Bagaimana dengan gambar dalam teks? Apakah pengguna akan melihat satu halaman dalam layar dalam satu waktu? Apakah pengguna diperbolehkan memperbesar imej?
scanning Anda akan memerlukan beberapa versi scan dari beberapa contoh halaman. Memilih halaman uji yang dapat merangkum semua jenis dan kualitas dalam koleksi Mendigitasi dalam cakupan kualitas yang berbeda-beda – beda resolusi, gray level, color, monochrome
scanning Diusahan agar kulitas harus sebaik mungkin Kendala : biaya Segi penyimpanan Waktu akses oleh pengguna, terutama remote user Dapat disiasati dengan kompresi Untuk pengujian gunakan komputer dan jaringan standar Dapat digunakan thumbnails/imej pada beberapa resolusi/progressive refinement- yang pengguna dapat menentukan sendiri
Optical character recognition Tahapan kedua yang mentransformasikan imej terpindai ke dalam representasi digital dari isi halaman Dpl : representasi per karakter dibandingakan per piksel Proses ini dapat seluruhnya otomatis Terkadang diperlukan tindakan manual mahal & time-consuming
OCR Secara umum diperlukan resolusi imej sebesar 300dpi untuk mendukung OCR mengenali font reguler berukuran 10pt/lebih 400/600dpi untuk ukuran font yg lebih kecil Scanner terkadang membutuhkan waktu 4x lebih lama untuk memindai 600dpi dibanding 300dpi
OCR OCR program dapat mengubah kecerahan imej grayscale agar teks dapat dikenali greyscale menghasilkan kualitas yang baik dibanding b/w scanning Namun harus diperhatikan ukuran file, jika proses scanning dilakukan secara offline
OCR Kualitas output sangat tergantung pada kualitas input. Jelas, tercetak benar, halaman bersih, font umum, terdigitasi pada resolusi yang tepat, meletakkan dokumen dengan cara normal, tanpa tabel, imej atau meteri nontekstual lain mencapai 99.9% atau 1-4 error/2000 karakter
OCR Akurasi akan meningkat seiring dengan perkembangan teknologi. Mereplikasi dokumen secara tepat lebih susah, meski dilakukan berbagai pendekatan Sayangnya, di dunia nyata sering terjadi masalah bahasa, font aneh, lambang matematis yang kecil dan tercetak smudgy, overdark/overlight character, keragaman format, hand annotation, bekas air/kopi/kelembaban, multiple columns yang dekat, beragam imej (terutama yang didalamnya terdapt teks), terlipat saat scanning
Solusi Pada saat OCR accuracy rate di bawah 95% lebih efisien jika digunakan manual ‘keying’ Menerapkan tahapan yang benar Pelatihan Penerapan interactive OCR
Interactive OCR Diperlukan intervensi manusia baik sesudah/sebelum proses pengenalan Time consuming 6 tahapan : Image acquisition Cleanup Page analysis Recognition Checking saving
Acqusition Pada tahap inisial, imej didapat dari scanner atau membaca file yang merupakan imej terdigitasi Cara pertama langsung melibatkan hardware Dan bisa dilakukan langsung secara interaktif Lebih efektif jika menggunakan document feeder
Cleanup Menggunakan opersi pengolahan imej tertentu terhadap seluruh/sebagian imej Mis : despeckle filter membersihkan noise. Terkadang dibutuhkan rotasi/skew beberapa derajat untuk pelurusan Perubahan warna, mis dari white on black black on white Halaman ganda dipisahkan menjadi satu halaman Membuang bagian yang tidak diinginkan : bekas jilidan Manual/automatis
Page analysis Mengamati layout halaman dan menentukan bagian mana yang harus diproses dan dalam susunan apa. Hasilnya adl segmen/blok halaman dalam berbagai tipe Text block, table block – yang akan dianalisa layout tablenya sebelum dibaca isi selnya, picture block – yang akan ditidakacuhkan dalam tahapan pengenalan
Dapat setup manual layout untuk proses batch Multikolom akan dideteksi dan diurutkan berdasarkan susunan pembacaan yang benar Dapat setup manual layout untuk proses batch Mis : mendefiniskan header/footer region, multikolom Tabel memiliki tingkat kesusahan tertinggi
Recognition Tahap pembacaan Tipe font : regular, fixed width, dot matrix Bahasa Ligature Melakukan training untuk berbagai karakter
Checking Cek hasil keluaran Hasil OCR ditampilkan di layar dengan masalah yang di-highlight, Tidak dikenali/karakter tidak dikenali secara pasti/kata yang tidak ada dalam kamus Biasanya diacukan terhadap dokumen
Saving Save ke dalam format dokumen lain HTML, rttf, word, pdf Perlu diperhatikan kelemahan dan kekurangan dari format-format tertentu
Page handling Melepas jilidan Menggunakan scanner khusus Menggunakan microfilm/microfich
Proyek digitasi Outsourcing Pay per page Memperpendek jalan, menegakkan aturan