Cross-Language Information Retrieval (CLIR)

Slides:



Advertisements
Presentasi serupa
Pencarian informasi di internet
Advertisements

Software otomasi perpustakaan
BAB 8 BENTUK PROPOSAL PENELITIAN Sebelum melakukan penelitian kita biasa diahadapkan dengan permasalahan- permasalahan yang akan kita hadapi. Untuk mengatasi.
Kiat sukses menyelesaikan tugas akhir.
ORGANISASI INFORMASI Sistem Temu Kembali Informasi
Prototyping Aplikasi Teknologi Informasi
Pengembangan Sistem Informasi
PENGANTAR ORGANISASI INFORMASI Sistem Temu Kembali Informasi (Information Retrieval System) Modul 11 Muslech, Dipl.Lib, MSi 3 Desember 2012.
DATABASE Pert. 1 Pengenalan Microsoft Access Dosen : Dewi Octaviani, S
Muhammad Yusuf Teknik Multimedia dan Jaringan UNIVERSITAS TRUNOJOYO.
Pertemuan ke-2 Model dalam sistem temu kembali informasi yasmi afrizal
Information Retrieval
Interaksi Manusia dengan Komputer
Pertemuan <Pertama> Apakah komik Jepang itu?
DASAR – DASAR SISTEM INFORMASI
Temu Balik Informasi Materi Pertemuan Ke – 1 Materi Dasar TBI
Pengembangan Sistem Informasi
KONSEP USER INTERFACE.
TEMU BALIK INFORMASI.
DBA FUNCTIONS SITI ASMIATUN, M.KOM.
TEMU BALIK INFORMASI.
Physical Database Design
Interaksi Manusia dan Komputer
TEMU BALIK INFORMASI.
Pertemuan 7 Sight Translation (II)
Review Jurnal Internasional
Aditi Agrawal1, Dr. A. J. Agrawal2
Temu Balik Informasi Materi Pertemuan Ke – 3 Stoplist dan Stemming
KONSEP INTERFACE
PENGINDEKSAN.
RPL.
Data dan Informasi Daurat Sinaga, M.Kom.
TEMU KEMBALI INFORMASI
INTERNET SEBAGAI PERPUSTAKAAN VIRTUAL
BAHASA PEMROGRAMAN.
TEMU KEMBALI INFORMASI
SISTEM MANAJEMEN DATABASE
Pemanfaatan IT dalam Pembelajaran Bahasa Asing
RANCANG BANGUN APLIKASI INFORMATION RETRIEVAL UNTUK MENGKOLEKSI DATA PARALEL KORPUS TEKS BAHASA INGGRIS – BAHASA INDONESIA Anggota Kelompok Ikhsan Fauji
TUJUAN (1) Mahasiswa dapat menjelaskan Ilmu Pengolahan Text dan Informasi. (C2) Mahasiswa dapat menjelaskan Model-model Sistem Temu Balik Informasi. (C2)
StopList dan Stemming yasmi afrizal
SUMBER INFORMASI TERPASANG
Translation TOOL.
RPL.
FISIP TUTORIAL KE-1 BING4330/PENERJEMAHAN KARYA FIKSI 4 SKS.
FISIP TUTORIAL KE-7 BING4437/TRANSLATION 7 4 SKS.
FISIP TUTORIAL KE-6 BING4332/TRANSLATION 2 4 SKS.
FISIP TUTORIAL KE-7 BING4332/TRANSLATION 2 4 SKS.
TUGAS REKAYASA PERANGKAT LUNAK
Matakuliah : N0622/Penerjemahan Lisan Jepang - Indonesia
Pertemuan 4 Persyaratan Sebagai interpreter
DOKUMENTASI DAN KEARSIPAN KELAS A Sistem Temu Kembali Informasi
Translation TOOL.
Oleh : Rahmat Robi Waliyansyah, M.Kom.
FISIP TUTORIAL KE-5 BING4440/TRANSLATION 10 4 SKS.
FISIP TUTORIAL KE-4 BING4440/TRANSLATION 10 4 SKS.
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Pengembangan Sistem Informasi
Pertemuan 14 Sight Translation (II)
Sistem TEMU KEMBALI INFORMASI
TEXT OPERATION Muhammad Yusuf Teknik Multimedia dan Jaringan
Pertemuan 12 Quick Response (II)
Pengembangan Sistem Informasi
Teknik Informatika Universitas Trunojoyo Semester Genap
CROSS LANGUAGE INFORMATION RETRIEVAL (CLIR)
PENGANTAR KOMPUTER DAN TEKNOLOGI INFORMASI 1B
Text Mining ..
DASAR - DASAR PERANCANGAN PERANGKAT LUNAK
DASAR – DASAR SISTEM INFORMASI
KONSEP USER INTERFACE PENGANTAR KOMPUTER DAN TEKNOLOGI INFORMASI 1B.
Transcript presentasi:

Cross-Language Information Retrieval (CLIR) Temu Kembali Informasi Cross-Language Information Retrieval (CLIR)

Outline Permasalahan Kebutuhan Temu Kembali Informasi

Permasalaan Sistem Temu Kembali Informasi Kebutuhan akses informasi tanpa halangan bahasa atau budaya yang berarti ada permintaan yang kuat untuk dapat: Menemukan informasi yang ditulis dalam bahasa asing Membaca & menginterpretasikan informasi dan menggabungkannya dengan informasi pada bahasa- bahasa lain Kebutuhan adanya multilingual information access

Pentingnya CLIR Internasionalisasi Globalisasi ekonomi Negera-negara multilingual (Switzerland, Canada) Area kerjasama ekonomi (EA, ASEAN) Globalisasi ekonomi Perusahaan multinasional Pegawai berbicara dalam berbagai bahasa Pelanggan berbicara dalam berbagai bahasa Dokumen memerlukan akses dalam berbagai bahasa

Internet Internet tidak lagi monolingual dan isinya bukan bahasa inggris berkembang sangat cepat Perubahan profil pemakai sangat besar Awalnya dari akademik, lalu digunakan secara luas pada komersial, hiburan, pendidikan, dll

Cross-Language IR Monolingual IR CLIR Memperoleh dokumen yang bahasanya sama dengan query CLIR Memperoleh dokumen yang bahasanya berbeda yang bahasa pada query Bila pengguna dapat membaca dalam beberapa bahasa Menghilangkan berbagai query Query ditulis dalam bahasa yang paling dikuasai

Perbendaharaan Kata Cross-language Dokumen Multilingual Cross-lingual, cross-linguistic, translingual Dokumen Multilingual Dokumen berisi lebih dari satu bahasa Koleksi Multilingual Koleksi dokumen dalam bahasa-bahasa yang berbeda Multilingual system Dapat memperoleh dokumen dari suatu koleksi multilingual

Perbendaharaan kata (lanjutan) Multilingual system Digunakan untuk menjelaskan cross-language system Query dalam bahasa inggris, cari dokumen dalam bahasa inggris atau perancis Query dalam bahasa perancis, cari dokumen dalam bahasa inggris atau perancis Juga digunakan untuk sistem pasangan monolingual Query dalam bahasa inggris, cari dokumen dalam bahasa inggris Query dalam bahasa perancis, cari dokumen dalam bahasa perancis

Perbendaharaan kata (lanjutan) Cross-language system Query dalam bahasa yang satu, cari dokumen dalam bahasa lain (another language) Translingual system Query dapat menemukan dokumen dalam bahasa apapun (any language)

Keputusan Perancangan Apa yang perlu diindeks? Free text atau controlled vocabulary Apa yang perlu diterjemahkan? Query atau dokumen Di mana kita bisa mendapatkan knowledge untuk menerjemahkan? Kamus, ontology, training corpus

Penerjemahan Dokumen vs Query Menerjemahkan dokumen ke bahasa dari query Tidak praktis. Proses lambat, walaupun hanya perlu menerjemahkan sekali untuk setiap dokumen Penerjemahan query Menerjemahkan query ke bahasa dari dokumen Efisien untuk query yang pendek

Teknik-teknik dalam CLIR Teknik perbendaharaan kata terkontrol (controlled vocabulary) Teknik berdasarkan knowledge untuk pelacakan free text Cara Penerjemahan Teknik berdasarkan korpus untuk pelacakan free text

Teknik perbendaharaan kata terkontrol Thesaurus Design Design suatu struktur knowledge untuk domain Beri suatu “descriptor” unik untuk setiap konsep Mengindeks Dokumen Baca dokumen, beri descriptor yang sesuai Retrieval Pilih descriptor yang diinginkan, gunakan exact match retrieval

Kelebihan dari controlled vocabulary Pengindeksan berdasarkan konsep yang berkualitas tinggi Descriptor tidak perlu muncul pada dokumen Pelacakan yang dibimbing oleh knowledge Efektifitas cross-language sangat baik Hingga 100% dari efektifitas monolingual Hasil retrieval mudah dimengerti Implementasinya efisien

Keterbatasan dari controlled vocabulary Biaya pembuatan sangat besar Design struktur knowledge, indeks setiap dokumen Biaya pemeliharaan sangat besar Pengindeksan dokumen, vocabulary dan perubahan konsep Sukar menggunakannya Pilihan vocabulary Lingkupnya terbatas Domain harus dipilih pada saat perancangan

Teknik berdasarkan knowledge untuk pelacakan free text Struktur knowledge untuk IR Ontologi Representasi dari konsep dan hubungannya Thesaurus Ontologi khusus untuk retrieval Leksikon Dwibahasa Ontologi khusus untuk mesin penerjemah Kamus Dwibahasa Ontologi khusus untuk penerjemahan yang dilakukan manusia

Cara Penerjemahan Mesin Penerjemah Kamus Dwibahasa Korpus Paralel Transitif

Penggunaan mesin penerjemah Berdasarkan pada NLP Belum tersedia pada banyak bahasa Beberapa mesin penerjemah tersedia di internet Dapat digunakan untuk menerjemahkan query atau dokumen Performance dari query yang diterjemahkan dengan mesin penerjemah sberkisar antara 60-80% dibandingkan dengan performance dari monolingual

Keterbatasan mesin penerjemah Dasar dari mesin penerjemah adalah aturan linguistic, sehingga hasilnya akan baik jika query ditulis dalam kalimat sesuai dengan tata bahasa yang baik Biaya pembuatan mesin penerjemah sangat mahal Sering tidak dapat menerjemahkan kata gabungan dan proper nouns

Kamus Dwibahasa Berdasarkan pada kamus cetak dwibahasa Tersedia secara luas Digunakan untuk menghasilkan daftar kata dwibahasa Pemetaan kata pada cross-language dapat dilakukan Tantangannya adalah memilih terjemahan yang paling tepat

Penerjemahan query Penerjemahan kata demi kata Contoh kamus dwibahasa: Biasanya ada 5-10 terjemahan per kata Contoh kamus dwibahasa: Collins Babylon Linguistic data consorsium Eurowordnet

Masalah penerjemahan dengan kamus Hasilnya sekitar 50% dari monolingual (lebih jelek) karena satu kata dapat diterjemahkan dalam beberapa kata dalam bahasa lainnya. Masalah: Arti kata sangat ambigu Penerjemahan frase Cakupan kamus Singkatan Kata gabung

Contoh penerjemahan query Query inggris nomor 22 (dari TREC): The effects of chocolate on health? Versi Indonesia dari query di atas (Pengaruh permen coklat pada kesehatan) jika diterjemahkan ke inggris menggunakan kamus Indonesia- inggris Influence hard candy brown chocolate cocoa health

Contoh penerjemahan query Indonesia Pengaruh Permen Coklat kesehatan Inggris influence Hard candy, candy Brown, chocolate, cocoa health

Teknik Berdasarkan Korpus untuk Pelacakan Free Text Korpus paralel: koleksi berisi dokumen yang sama dalam beberapa bahasa Pasangan dokumen Pasangan kalimat Pasangan kata Comparable corpora (korpus yang sebanding) Koleksi berisi dokumen yang topik, waktu dll. Sama Pasangan koleksi

Penggunaan korpus Penerjemahan query menggunakan korpus yang comparable Pasangan dokumen yang berkaitan melalui descriptor tanggal, kata kunci, kata benda nama Buat leksikon dari co-occurrence Kata-kata pada bahasa lain yang menunjuk pada topik yang sama akan muncul sama-sama pada tiap dokumen Gunakan hubungan pada query yang diterjemahkan secara semu

Membuat korpus pararel Korpus paralel biasanya mempunyai domain yang sama Mencari domain yang tepat sangatlah sukar Misalkan dokumen PBB tersedia dalam beberapa bahasa, tetapi topiknya khusus dan jumlahnya terbatas Alternatifnya: membuat sendiri Mulai degan korpus monolingual Gunakan mesin penerjemah otomatis untuk bahasa kedua

Membuat korpus paralel (lanjutan) Gunanya sedikit jika teknik IR lebih cepat daripada mesin penerjemah Jika kesalahan menerjemahkan tidak mempengaruhi teknik IR Alternatif lain: Mencari pasangan webpages di internet Jika jumlahnya memadai, korpus dapat menghasilkan terjemahan yang baik

Penerjemahan Transitif Jika sumber penerjemahan terbatas antara 2 bahasa, maka bisa dilakukan penerjemahan melalui bahasa lain Indonesia Jerman Perancis Inggris

Mana yang digunakan? Controlled vocabulary Berdasarkan kamus Perbendaharaan katanya baik, efisien Berdasarkan kamus Mudah, cakupannya luas Korpus yang comparable dan parallel Efektif pada domain yang sama Korpus yang tidak dipasangkan Masih belum banyak hasilnya

Hasil CLIR Mesin penerjemah Teknik penggunaan kamus Keefektifannya 80% dibandingkan monolingual pada domain umum Teknik penggunaan kamus Teknik penggunaan korpus parallel dan comparable Keefektifannya 90% dibandingkan monolingual pada domain khusus