Dokumen Digital Firman Ardiansyah Departemen Ilmu Komputer

Slides:



Advertisements
Presentasi serupa
Melakukan Entry Data dengan OCR (Optical Character Recognition)
Advertisements

PRAKTIKUM PENGENALAN APLIKASI KOMPUTER
Pengoperasian Perangkat Lunak Pengolah Kata
INPUT & OUTPUT SISTEM AHMAD SON ARIF ( )
MENGOPERASIKAN PERIFERAL
PERTEMUAN KEENAM Printer HARDWARE.
KANTOR MAYA (VIRTUAL OFFICE)
Apakah Otomatisasi Kantor ?
Manual Tercetak, Petunjuk Online dan Tutorial
Pengertian grafis Desain Grafis adalah salah satu bentuk seni lukis (gambar) terapan yang memberikan kebebasan pada sang desainer (perancang) untuk memilih,
Pengaturan Pencetakan Dokumen
MENGOPERASIKAN APLIKASI PRESENTASI
Chapter 8 Desain Web.
Peripheral Multimedia
PENGOLAHAN CITRA DIGITAL
Pengoperasian Perangkat Lunak Pengolah Kata
Rama Lesmana Pendidikan Matematika
MENANGANI aplikasi perangkat lunak
Pengantar Teknologi Informasi
Praktikum PTI Sekolah Tinggi Ilmu Statistik Oleh : SIS - BPS
Operasi-operasi dasar Pengolahan Citra Digital~3
Pengolahan Citra Pertemuan 14.
Pengolahan Data Elektronik
IMAGE ENHANCEMENT (PERBAIKAN CITRA)
CITRA BINER.
Implementasi Steganografi pada Media Teks dengan Metode Line-Shift Coding dan Metode Centroid Oleh: Indri Andiniarti G Pembimbing : Shelvie.
Konsep sistem informasi a
MENERAPKAN FUNGSI PERIPHERAL DAN INSTALASI PC
Modul 1 PENGANTAR PENGOLAHAN CITRA
SISTEM OPERASI INPUT / OUTPUT
DASAR DESAIN GRAFIS.
pengolahan citra References:
Alat Bantu Eksplorasi Informasi
MODUL KULIAH 2 FORMASI CITRA
Pengantar Teknologi Informasi
Desain User Interface dan Input
MENERAPKAN FUNGSI PERIPHERAL DAN INSTALASI PC
Pengoperasian Perangkat Lunak Pengolah Kata
EDY WINARNO fti-unisbank-smg 31 maret 2009
Interaksi Manusia dan Komputer
Pengertian grafis Desain Grafis adalah salah satu bentuk seni lukis (gambar) terapan yang memberikan kebebasan pada sang desainer (perancang) untuk memilih,
Pemrogaman Multimedia : Dasar Multimedia
MENGOPERASIKAN PERIFERAL
Perancangan Formulir Elektronik
Teks, Gambar dan hypertext
Loading…… Please wait.
DESAIN INFORMASI DAN NAVIGASI
Lucia Dwi Krisnawati, MA
PERANGKAT INPUT DAN OUTPUT
RESOLUSI Pengertian resolusi dan pemanfaatanya
Yorika Indah Pratiwi Nababan Zaida Kumala
Teks, Gambar dan hypertext
PENGOLAHAN CITRA DAN POLA CITRA DIGITAL
Pertemuan 10 (Lanjutan) F. Menaikkan Kapasitas Penyimpanan Data
PENINGKATAN KUALITAS CITRA (Image Enhancement)
Darmawan satyananda Mathematics department State university of malang
Konsep Dasar Pengolahan Citra
Pengantar teknologi informasi
Pengertian Pixel Pixel :
PERANGKAT OUTPUT KOMPUTER KELOMPOK 1: MUSTIKA ( ) TAHRIM WARA WARIN ( MUH.IRSAN ( )
Apakah Otomatisasi Kantor ?
MENGOPERASIKAN PERIFERAL
PENGOLAHAN CITRA DIGITAL. URAIAN MATERI PCD Pemberian Evek Pada Gambar Vektor dan Bitmap Penggabungan Teks & Citra Bitmap Penggabungan Teks & Citra Vektor.
PENGENALAN CITRA DIGITAL
KONSEP DASAR CITRA DIGITAL (2) dan SISTEM PEREKAMAN CITRA
Apakah Otomatisasi Kantor ?
Apakah Otomatisasi Kantor ?
Apakah Otomatisasi Kantor ?
Pengolahan citra digital
PENGANTAR PENGOLAHAN CITRA
Transcript presentasi:

Dokumen Digital Firman Ardiansyah Departemen Ilmu Komputer Bogor Agricultural University (IPB)

Apa itu dokumen digital Dokumen kertas, dokumen lontar, dokumen microfilm.  bermakna jelas “ Dokumen digital” ???  Segala sesuatu yang dapat diberikan nama file dan disimpan dalam media elektronik  koleksi data dan propertinya yang dipilih oleh pengguna untuk mengacu pada suatu unit logis ?

Representasi Dokumen Digital Karakter Dokumen dasar Bahasa deskripsi halaman (PostScript & PDF) Dokumen Word-Processor Images Audio dan Video

Digitasi Dokumen Apakah diperlukan mendigitasi dokumen yang ada? Digitasi : proses mengambil materi perpustakaan tradisional – biasa dalam bentuk buku dan kertas – dan mengubahnya ke dalam bentuk elektronik yang dapat disimpan dan dimanipulasi oleh komputer

Tahapan Digitasi Ada 2 tahapan 1. menghasilkan imej terdigitasi dari tiap halaman  scanning 2. menghasilkan representasi digital dari isi tekstual halaman menggunakan OCR 1 banyak digunakan tp tdk sesuai OCR menarik jika masih dapat mempertahankan layout dokumen

Scanning Digitasi tiap halaman menghasilkan imej digital. Terkadang suatu dokumen tidak hanya teks, tp juga gambar yang memiliki warna/grayscale Teks paling baik hitam putih, namun jika terdapat gambar?

Scanning Pada saat digitasi imej, harus diputuskan apakah menggunakan black&white, grayscale, color? Penggunaan resolusi dari imej terdigitasi (jumlah piksel per unit linear) Mis : layar 1024x768, 14”  92x92 Scanner: 300x300

Scanning Lebih banyak bit/pixel akan menyebabkan lack dalam resolusi linear dan sebaliknya Riset membuktikan : jika suatu titik cukup kecil, kecerahan dan ukurannya bersifat berlawanan. Titik kecil cerah tidak dapat dibedakan dengan titik yang lebih besar tapi lebih gelap. Ukuran kritis sangat tergantung pada kontras antara titik dan latar belakangnya

Scanning Ketika mendigitasi dokumen untuk perpustakaan digital, fikirkan tentang apa yang dapat dilihat oleh pengguna Seberapa dekat apa yang didapat di digilib jika dibandingkan dengan dokumen orisinilnya Apakah anda mencoba menampilak artefak? Bagaimana dengan gambar dalam teks? Apakah pengguna akan melihat satu halaman dalam layar dalam satu waktu? Apakah pengguna diperbolehkan memperbesar imej?

scanning Anda akan memerlukan beberapa versi scan dari beberapa contoh halaman. Memilih halaman uji yang dapat merangkum semua jenis dan kualitas dalam koleksi Mendigitasi dalam cakupan kualitas yang berbeda-beda – beda resolusi, gray level, color, monochrome

scanning Diusahan agar kulitas harus sebaik mungkin Kendala : biaya Segi penyimpanan Waktu akses oleh pengguna, terutama remote user Dapat disiasati dengan kompresi Untuk pengujian gunakan komputer dan jaringan standar Dapat digunakan thumbnails/imej pada beberapa resolusi/progressive refinement- yang pengguna dapat menentukan sendiri

Optical character recognition Tahapan kedua yang mentransformasikan imej terpindai ke dalam representasi digital dari isi halaman Dpl : representasi per karakter dibandingakan per piksel Proses ini dapat seluruhnya otomatis Terkadang diperlukan tindakan manual  mahal & time-consuming

OCR Secara umum diperlukan resolusi imej sebesar 300dpi untuk mendukung OCR mengenali font reguler berukuran 10pt/lebih 400/600dpi untuk ukuran font yg lebih kecil Scanner terkadang membutuhkan waktu 4x lebih lama untuk memindai 600dpi dibanding 300dpi

OCR OCR program dapat mengubah kecerahan imej grayscale agar teks dapat dikenali  greyscale menghasilkan kualitas yang baik dibanding b/w scanning Namun harus diperhatikan ukuran file, jika proses scanning dilakukan secara offline

OCR Kualitas output sangat tergantung pada kualitas input. Jelas, tercetak benar, halaman bersih, font umum, terdigitasi pada resolusi yang tepat, meletakkan dokumen dengan cara normal, tanpa tabel, imej atau meteri nontekstual lain  mencapai 99.9% atau 1-4 error/2000 karakter

OCR Akurasi akan meningkat seiring dengan perkembangan teknologi. Mereplikasi dokumen secara tepat lebih susah, meski dilakukan berbagai pendekatan Sayangnya, di dunia nyata sering terjadi masalah bahasa, font aneh, lambang matematis yang kecil dan tercetak smudgy, overdark/overlight character, keragaman format, hand annotation, bekas air/kopi/kelembaban, multiple columns yang dekat, beragam imej (terutama yang didalamnya terdapt teks), terlipat saat scanning

Solusi Pada saat OCR accuracy rate di bawah 95% lebih efisien jika digunakan manual ‘keying’ Menerapkan tahapan yang benar Pelatihan Penerapan interactive OCR

Interactive OCR Diperlukan intervensi manusia baik sesudah/sebelum proses pengenalan Time consuming 6 tahapan : Image acquisition Cleanup Page analysis Recognition Checking saving

Acqusition Pada tahap inisial, imej didapat dari scanner atau membaca file yang merupakan imej terdigitasi Cara pertama langsung melibatkan hardware Dan bisa dilakukan langsung secara interaktif Lebih efektif jika menggunakan document feeder

Cleanup Menggunakan opersi pengolahan imej tertentu terhadap seluruh/sebagian imej Mis : despeckle filter membersihkan noise. Terkadang dibutuhkan rotasi/skew beberapa derajat untuk pelurusan Perubahan warna, mis dari white on black  black on white Halaman ganda dipisahkan menjadi satu halaman Membuang bagian yang tidak diinginkan : bekas jilidan Manual/automatis

Page analysis Mengamati layout halaman dan menentukan bagian mana yang harus diproses dan dalam susunan apa. Hasilnya adl segmen/blok halaman dalam berbagai tipe Text block, table block – yang akan dianalisa layout tablenya sebelum dibaca isi selnya, picture block – yang akan ditidakacuhkan dalam tahapan pengenalan

Dapat setup manual layout untuk proses batch Multikolom akan dideteksi dan diurutkan berdasarkan susunan pembacaan yang benar Dapat setup manual layout untuk proses batch Mis : mendefiniskan header/footer region, multikolom Tabel memiliki tingkat kesusahan tertinggi

Recognition Tahap pembacaan Tipe font : regular, fixed width, dot matrix Bahasa Ligature Melakukan training untuk berbagai karakter

Checking Cek hasil keluaran Hasil OCR ditampilkan di layar dengan masalah yang di-highlight, Tidak dikenali/karakter tidak dikenali secara pasti/kata yang tidak ada dalam kamus Biasanya diacukan terhadap dokumen

Saving Save ke dalam format dokumen lain HTML, rttf, word, pdf Perlu diperhatikan kelemahan dan kekurangan dari format-format tertentu

Page handling Melepas jilidan Menggunakan scanner khusus Menggunakan microfilm/microfich

Proyek digitasi Outsourcing Pay per page Memperpendek jalan, menegakkan aturan