CROSS LANGUAGE INFORMATION RETRIEVAL (CLIR)

Slides:



Advertisements
Presentasi serupa
Pencarian informasi di internet
Advertisements

Konsep Dasar Sistem Temu Kembali Informasi
Perangkat lunak Penterjemah kalimat Inggris – Indonesia
Praktikum Sistem Temu Balik Informasi
Ratri Enggar Pawening Materi 4 I NFORMATION R ETRIEVAL.
StopList dan Stemming yasmi afrizal
Konsep Dasar Sistem Temu Kembali Informasi
“Image Retrieval” Shinta P.
Ranked Retrieval Pencarian Boolean Menghasilkan sekumpulan dokumen yang cocok dengan query, yang tidak cocok tidak muncul Pada kasus.
INTERAKSI MANUSIA dan KOMPUTER (HUMAN COMPUTER INTERACTION)
PENGANTAR ORGANISASI INFORMASI Sistem Temu Kembali Informasi (Information Retrieval System) Modul 11 Muslech, Dipl.Lib, MSi 3 Desember 2012.
Muhammad Yusuf Teknik Multimedia dan Jaringan UNIVERSITAS TRUNOJOYO.
Pertemuan 4 Konsep Dasar SPK (02)
Pengenalan Database Local e-Content Pertemuan 8
Pertemuan ke-2 Model dalam sistem temu kembali informasi yasmi afrizal
Information Retrieval
Pertemuan <Pertama> Apakah komik Jepang itu?
Gambar Kerangka dari sistem temu-kembali informasi sederhana
Temu Balik Informasi Materi Pertemuan Ke – 8 Konsep Thesaurus dalam Information Retrival dan Mengenal Macam Thesaurus Beserta Algoritma Anggota : Nama Nim.
Final Project Temu Balik Informasi
Review Jurnal Nasional
Temu Balik Informasi Materi Pertemuan Ke – 1 Materi Dasar TBI
Temu Balik Informasi BY : Taufik Ari Arnandan ( )
TEMU BALIK INFORMASI.
Pertemuan 7 : Latent Semantic Indexing
Konsep dan Model-model Sistem Temu Balik Informasi
TEMU BALIK INFORMASI.
Konsep dan model temu balik informasi
TEMU BALIK INFORMASI Multimedia Dalam Temu Balik Informasi.
Konsep, Metode dan Model Temu Kembali Informasi
Temu Balik Informasi Materi Pertemuan Ke – 8 Konsep Thesaurus dalam Information Retrival dan Mengenal Macam Thesaurus Beserta Algoritma Anggota : Nama Nim.
TEMU BALIK INFORMASI.
Review Jurnal Internasional
Aditi Agrawal1, Dr. A. J. Agrawal2
EFEKTIFITAS SELEKSI FITUR DALAM SISTEM TEMU-KEMBALI INFORMASI
KONSEP DASAR IR.
Temu Balik Informasi Materi Pertemuan Ke – 3 Stoplist dan Stemming
KONSEP INTERFACE
PENGINDEKSAN.
Review Jurnal Temu Balik Informasi
Transmisi data digital
SISTEM TEMU KEMBALI INFORMASI
TEMU KEMBALI INFORMASI
Temu balik informasi Anggota Kelompok Ikhsan Fauji
INTERNET SEBAGAI PERPUSTAKAAN VIRTUAL
TEMU BALIK INFORMASI TI 14 A.
Pemanfaatan IT dalam Pembelajaran Bahasa Asing
Ketua Kelompok Dian Restiani Anggota : Wahyu Septi Anjar
RANCANG BANGUN APLIKASI INFORMATION RETRIEVAL UNTUK MENGKOLEKSI DATA PARALEL KORPUS TEKS BAHASA INGGRIS – BAHASA INDONESIA Anggota Kelompok Ikhsan Fauji
TUJUAN (1) Mahasiswa dapat menjelaskan Ilmu Pengolahan Text dan Informasi. (C2) Mahasiswa dapat menjelaskan Model-model Sistem Temu Balik Informasi. (C2)
StopList dan Stemming yasmi afrizal
APLIKASI KAMUS IDIOM BAHASA INGGRIS DENGAN MENGGUNAKAN Jamhari,
Ir. Julio Adisantoso, M.Kom.
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Oleh : Rahmat Robi Waliyansyah, M.Kom.
BILANGAN SAMPAI DENGAN 10
Sistem TEMU KEMBALI INFORMASI
TEXT OPERATION Muhammad Yusuf Teknik Multimedia dan Jaringan
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Question Answering System
Web Search Engine (Mesin Pencari Web)
Teknik Informatika Universitas Trunojoyo Semester Genap
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Manfaat Software Penterjemah Suara
Text Mining ..
M Ali Fauzi Indriati Sigit Adinugroho
Nugraha Iman Santosa ( )
KONSEP DASAR IR KULIAH II. Introduction  IR deals with the representation, storage, organization of, and access to information items  Search engine.
Cross-Language Information Retrieval (CLIR)
PEMBUATAN WEBSITE KAMUS BAHASA INDONESIA-JERMAN ALKAFIA ASWANDI
Transcript presentasi:

CROSS LANGUAGE INFORMATION RETRIEVAL (CLIR) Oleh ; rahmat robi waliyansyah.m.kom.

Latar Belakang Naiknya kebutuhan untuk mengakses informasi tanpa halangan bahasa atau budaya, yang berarti ada permintaan yang kuat untuk dapat: Menemukan informasi yang ditulis dalam bahasa asing Membaca dan menginterpretasikan informasi dan menggabungkannya dengan informasi pada bahasa‐bahasa lain Kebutuhan adanya Multilingual Information Access

Monolingual vs CLIR Monolingual IR CLIR Memperoleh dokumen yang bahasanya sama dengan query CLIR Memperoleh dokumen yang bahasanya berbeda dengan bahasa yang ada pada query

Pengertian Cross‐language Dokumen Multilingual Koleksi Multilingual Cross‐lingual, cross‐linguistic, translingual Dokumen Multilingual Dokumen berisi lebih dari satu bahasa Koleksi Multilingual Koleksi dokumen dalam bahasa yang berbeda‐beda

Pengertian Multilingual system Dapat memperoleh dokumen dari suatu koleksi multilingual Cross‐language system Query dalam bahasa yang satu, cari dokumen dalam bahasa lain Translingual system Query dapat menemukan dokumen dalam bahasa apapun

Desain Sistem Apa yang perlu di‐indeks? Apa yang perlu diterjemahkan? Free text atau controlled vocabulary Apa yang perlu diterjemahkan? Query atau dokumen Di mana kita bisa mendapatkan resources untuk menerjemahkan? Kamus, ontologi, training corpus

Dokumen vs Query Penerjemahan Dokumen Penerjemahan Query Menerjemahkan dokumen ke bahasa dari query. Tidak praktis. Prosesnya lambat, walaupun hanya perlu menterjemahkan sekali untuk setiap dokumen. Penerjemahan Query Menerjemahkan query ke bahasa dari dokumen. Efisien untuk query yang pendek.

Contoh

Metode Penterjemahan Mesin Penterjemah Kamus Dwibahasa Korpus Paralel Transitif

Mesin Penterjemah Belum tersedia pada banyak bahasa Contoh: SYSTRAN, LOGOS, Langenscheidt tersedia dalam bahasa Jerman, Perancis, Inggris, dan Spanyol ASTRANSAC (Jepang‐Inggris) Toggletext (http://www toggletext com) .toggletext.com), BPPT, dan Transtools (Indonesia‐English)

Mesin Penterjemah Keterbatasan: Dasar dari mesin penerjemah adalah aturan linguistik sehingga hasilnya akan baik jika query ditulis dalam kalimat sesuai dengan tata bahasa yang baik. Seringkali tidak dapat menerjemahkan kata gabungan dan proper nouns.

Kamus Dwibahasa Tersedia secara luas, menghasilkan daftar kata dwibahasa. Contoh kamus dwibahasa: Collins Kamus gratis : http://www.freedict.com Babylon : http://www.babylon.com Linguistic Data Consorsium EuroWordNet

Contoh Query Penterjemahan per kata dalam query Contoh (English Query): The effects of chocolate on health Query Indonesia: Pengaruh permen coklat pada kesehatan Diterjemahkan dengan kamus Indonesian‐English: “influence hard candy brown chocolate cocoa health”

Frase ? Contoh (English Query): Reasons for controversy surrounding Waldheim’s World War II action Diterjemahkan dengan kamus Indonesian‐English: controversy measure action step waldheim world kingdom war battle II

Frase ? Tidak dapat menerjemahkan frase jika kamus tidak berisi frase tersebut Penggunaan kata yang berbeda di bahasa yang lain Contoh: acupuncture (satu kata) tusuk jarum (dua kata) • Terjemahan dari kamus : tusuk – puncture; jarum – a pin; a stick, skewer, sewing or hypodermic needle; pin; hand of clock, pointer

Pemecahan Masalah Menggunakan POS‐taggers; kamus khusus; pilih definisi yang terbaik atau yang pertama saja; feedback dari user Teknik memilih kata terjemahan yang tepat berdasarkan pada analisa statistik. Kata yang nilainya paling tinggi yang dipilih sebagai kata terjemahan. Contoh: Peudo relevance feedback Local context analysis Term Similarity Probabilistic

Identifikasi Frase Semantik (misalnya : yang muncul di kamus) Sintaktik (misalnya : diperoleh sebagai frase kata benda) Co‐occurrence (kata yang sering muncul bersama)

QE via Penterjemahan Pre‐Translation Query Expansion Menambahkan kata‐kata pada query sebelum diterjemahkan Memperbaiki query Post‐Translation Query Expansion Menambahkan kata‐kata pada query sesudah diterjemahkan Mengurangi kesalahan penterjemahan Kombinasi Pre‐ & Post‐Translation QE Menambahkan kata‐kata pada query sebelum dan sesudah diterjemahkan

Korpus Paralel Korpus paralel: koleksi berisi dokumen yang sama dalam beberapa bahasa Pasangan dokumen Pasangan kalimat Pasangan kata Comparable corpora (korpus yang sebanding) Koleksi berisi dokumen dengan topik, waktu yang sama. Misalnya Kantor berita ABC melaporkan dalam bahasa Inggris dan Indonesia Pasangan koleksi

Menterjemahkan Query Pasangkan dokumen yang berkaitan melalui deskriptor (tanggal, kata kunci, kata benda nama) Buat leksikon dari co‐occurence Kata‐kata pada bahasa lain yang menunjuk pada topik yang sama akan muncul sama‐sama pada tiap dokumen Gunakan hubungan pada query yang diterjemahkan secara semu (Pseudo‐translation)

Pseudo‐Translation

Pseudo‐Translation

Pasangan Kalimat Mudah dibuat dari dokumen yang dipasangkan Cocokkan pola dari panjang kalimat yang relatif Pasangkan kata‐kata menggunakan statistik co‐occurrence Seberapa sering suatu pasangan kata muncul pada pasangan kalimat? Bobotnya tergantung pada posisi relatif pada kalimat Buang pasangan kata yang munculnya tidak sering

Pasangan Kalimat Berguna untuk penterjemahan query Hasilnya baik bila domainnya sama Belum secara langsung digunakan untuk retrieval yang efektif

Terjemahan Transitif Jika sumber daya penterjemahan terbatas antara dua bahasa, maka bisa dilakukan penterjemahan melalui bahasa lain