KONSEP DASAR IR.

Slides:



Advertisements
Presentasi serupa
Teknik Searching Information di Internet
Advertisements

PENULISAN KARYA ILMIAH III
MENGGUNAKAN INTERNET UNTUK KEPERLUAN INFORMASI DAN KOMUNIKASI
Praktikum Sistem Temu Balik Informasi
PalComTech. WORLD WIDE WEB (WWW), Adalah sarana internet yang menampilkan tampilan berupa gabungan teks, grafis, suara bahkan video yang bersifat interaktif.
StopList dan Stemming yasmi afrizal
Sistem Temu-Balik Pengantar Temu-Balik Informasi Pertemuan ke-2
Konsep Dasar Sistem Temu Kembali Informasi
Metode Perancangan Program
Manajemen File.
To insert your company logo on this slide From the Insert Menu Select “Picture” Locate your logo file Click OK To resize the logo Click anywhere inside.
Konsep Dasar Pemrograman COBOL
Text Mining.
The RaiNewsbook: Browsing Worldwide Multimodal News Stories by Facts, Entities and Dates.
Mata Kuliah :Web Mining Dosen
PENGANTAR ORGANISASI INFORMASI Sistem Temu Kembali Informasi (Information Retrieval System) Modul 11 Muslech, Dipl.Lib, MSi 3 Desember 2012.
Pemrograman Web 1 Mohamad Syafri Tuloli. Penilaian Quiz : 10 %Quiz : 10 % Tugas : 20 %Tugas : 20 % UTS : 30 %UTS : 30 % UAS : 40 %UAS : 40 %
Pengenalan Database Local e-Content Pertemuan 8
Pertemuan ke-2 Model dalam sistem temu kembali informasi yasmi afrizal
Information Retrieval
Dasar-dasar Pemrograman PHP
Gambar Kerangka dari sistem temu-kembali informasi sederhana
Sistem Temu-Balik Informasi INFORMATION RETRIEVAL SYSTEMS (IRS)
Final Project Temu Balik Informasi
Universitas Gunadarma
Temu Balik Informasi BY : Taufik Ari Arnandan ( )
TEMU BALIK INFORMASI.
Pertemuan 7 : Latent Semantic Indexing
Anggota Kelompok Ikhsan Fauji Irna Oktaviasari Erip Marliana
SEARCH ENGINE.
TEMU BALIK INFORMASI ANGGOTA KELOMPOK BAYU ANDRIANTO 21
Alat Bantu Eksplorasi Informasi
Natural Language Processing (NLP)
TEMU BALIK INFORMASI Multimedia Dalam Temu Balik Informasi.
Algoritma dan Pemrograman 2A
Mengelola Desain Tabel
Sistem Temu Balik Informasi Multimedia
Predicting Reputation Risks
PENGINDEKSAN.
MENGELOLA DESAIN TABEL
Text Preprocessing.
SISTEM TEMU KEMBALI INFORMASI
Temu balik informasi Anggota Kelompok Ikhsan Fauji
Tanda Baca Materi 4.
Penggunaan tanda baca.
StopList dan Stemming yasmi afrizal
SUMBER INFORMASI TERPASANG
Ir. Julio Adisantoso, M.Kom.
Universitas Gunadarma
Mengelola Desain Tabel
Konsep Dasar Pemrograman COBOL
Introduction to Database Management System Pertemuan 01
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Aplikasi Teknologi Informasi bagian 2
Nur zahara, syafaah farid, hamidah, ridwan
TEXT OPERATION Muhammad Yusuf Teknik Multimedia dan Jaringan
Sistem Temu-Balik Informasi INFORMATION RETRIEVAL SYSTEMS (IRS)
Web Search Engine (Mesin Pencari Web)
CROSS LANGUAGE INFORMATION RETRIEVAL (CLIR)
MENGELOLA DESAIN TABEL
Tips Pencarian di Google
(CBIS) Computer Base Information System
M Ali Fauzi Indriati Sigit Adinugroho
SEARCH ENGINE.
Pembobotan Kata (Term Weighting)
SEO (Search Engine Optimization)
TEXT MINING.
KONSEP DASAR IR KULIAH II. Introduction  IR deals with the representation, storage, organization of, and access to information items  Search engine.
Temu Kembali Informasi
Cross-Language Information Retrieval (CLIR)
Transcript presentasi:

KONSEP DASAR IR

Introduction IR deals with the representation, storage, organization of, and access to information items Search engine (IR System) The user must first translate this informasi need into a query The key goal of an IR System To retrieve information which might be useful or relevant to the user

Differences Information& Data Retrieval Retrieving all objects which satisfy clearly defined conditions such as those in a regular expression Deals with data that has a well defined structure and semantic IR Retrieve all document which are relevant to a user query while retrieving as few non-relevant document as possible Deals with natural language text

Kebutuhan informasi (Query) IR System Koleksi dokumen IR SYSTEM Kebutuhan informasi (Query) Dokumen yang Diperoleh Doc 1 Doc 2 ...

Logical view of document

IR Process

IR Process

SEJARAH IR 1960-70’s: Penggunaan IR system untuk koleksi “kecil”dari abstrak ilmu pengetahuan, dokumendokumen hukum dan bisnis. Salton (Amerika) & van Rijsbergen (Eropa) dan murid-2nya merupakan peneliti-2 awal di bidang ini.

Lanjutan SEJARAH IR 1990’s: Pencarian di World Wide Web Sistem database dokumen berjumlah besar, kebanyakan dibuat oleh perusahaan: Lexis-Nexis MEDLINE 1990’s: Pencarian di World Wide Web Google, Yahoo, Altavista Konperensi yang merupakan kompetisi National Institute of Standard for Testing (NIST) : Text REtrieval Conference (TREC) Sistem rekomendasi Amazon Pengelompokan & kategorisasi teks secara otomatis Vivisimo

Lanjutan SEJARAH IR 2000’s Ekstraksi Informasi secara otomatis Multimedia IR Gambar, Video, Audio and musik Cross-Language IR CLEF Ringkasan dokumen dll.

DASAR-DASAR IR Korpus Frekuensi kata Tutorial PERL

KORPUS Koleksi dokumen yang bisa dibaca oleh mesin Korpus yang seimbang mencoba mewakili semua bahasa atau suatu domain. Contoh : Penanaman secara hidroponik dilakukan oleh individu sebagai hobi dan juga secara besar-besaran untuk tujuan komersil. Di negara Singapura misalnya, oleh karena kekurangan tanah, bumbung-bumbung bangunan dijadikan tempat untuk menanam sayur-sayuran seperti bak choy, sawi, kailan dan bayam di mana semuanya menggunakan kaedah hidroponik. Begitu juga, untuk penerokaan angkasa lepas, angkasawan boleh bercocok tanam sayur-sayuran di dalam kapal angkasa. Kaedah yang sama digunakan oleh tentera di atas kapal perang, maupun kapal selam. Dengan cara ini mereka tidak perlu membawa bekalan makanan yang banyak, hanya sekadar membawa benih-benih sayur-sayuran dan boleh ditanam semasa dalam perjalanan.

Isi Korpus Jenis bahasa: Teks : artikel, berita kawat, buku Pidato spontan: pembicaraan (dialog), siaran Jenis Novel bahasa Inggris pada abad 18 Teks suratkabar, laporan berita kawat Pembicaraan pemesanan penerbangan

Lanjutan Isi Korpus Media: teks, audio, transkripsi, video Anotasi Tokenisasi, struktur dokumen Anotasi linguistik, format (markup language)

Definisi Anotasi adalah penambahan informasi pada korpus yang secara eksplisit tidak ada disana (memberi tambahan nilai kegunaan pada korpus). Tokenisasi adalah suatu tahap pemrosesan di mana teks input dibagi menjadi unit-unit yang disebut token yg merupakan suatu kata atau suatu angka atau suatu tanda baca.

Korpus yang Ada KORPUS BROWN Korpus awal yang terkenal Dibuat oleh Nelson Francis & Henry Kucera di Universitas Brown tahun 1960-an Merupakan korpus seimbang yang ditulis dalam bahasa Inggris Amerika Terdiri dari sejuta kata

Korpus Lainnya Korpus Domain Bahasa British National Corpus Seimbang British English Newswires Corpus Newswire Am. English UN atau EU proceed hukum 10 bahasa Broadcast News Corpus ujaran 7 bahasa

Melacak Teks Temukan baris yang mengandung kata hidroponik Temukan semua baris yang diawali dengan kata penanaman Penanaman secara hidroponik dilakukan oleh individu sebagai hobi dan juga secara besar-besaran untuk tujuan komersil. Di negara Singapura misalnya, oleh karena kekurangan tanah, bumbung-bumbung bangunan dijadikan tempat untuk menanam sayur-sayuran seperti bak choy, sawi, kailan dan bayam di mana semuanya menggunakan kaedah hidroponik.

Frekuensi Kata KATA?? Karakter alfanumerik yang bersambungan yang dipisahkan oleh whitespace. Whitespace: spasi, tab, newline Bagaimana dengan p2p, amazon.com,Micro$oft? Bagaimana dengan John’s, isn’t, Jum’at? Bagaimana dengan pro-aktif? Tanda sambung pada akhir baris?

Menghitung Kata Jumlah Kata Seberapa besar korpus yang ada (N) Jenis kata Berapa jumlah kata yang unik? Berapa besar perbendaharaan kata pada korpus? Token kata Berapa jumlah kata pada korpus? Berapa frekuensi dari setiap jenis kata? Kata apa yang paling sering muncul pada korpus?

Lanjutan Menghitung Kata Kata bigrams apa yang paling sering muncul pada korpus? Mis. Bukit Tinggi, universitas diponegoro Kata trigrams apa yang paling sering muncul pada korpus? Mis. presiden republik indonesia, bendera merah putih Kata 4-grams apa yang paling sering muncul pada korpus? Mis. daftar mata uang asing, daerah khusus ibukota jakarta

Statistik dari teks Bagaimana frekuensi dari berbagai kata didistribusikan? Seberapa cepat ukuran perbendaharaan kata bertambah sesuai dengan ukuran korpus? Faktor- faktor tersebut dapat mempengaruhi unjuk kerja dari IR dan dapat digunakan untuk memilih bobot kata yang tepat dan aspek lainnya dari sistem IR.

Cara Menghitung Frekuensi Kata Tokenisasi (pecah menjadi kata) Jadikan semua huruf kecil Urutkan menurut abjad Hitung kemunculan kata Urutkan menurut frekuensinya Hitung kemunculannya (menghitung frekuensi dari frekuensi)

Frekuensi Kata Sejumlah kata merupakan kata yang sangat umum. 2 kata yang paling sering muncul (mis. “the”, “of”) merupakan 10% dari kemunculan kata. 6 kata diurutan teratas merupakan 20%, 50 kata teratas merupakan 50% Kebanyakan kata sangat jarang muncul. Setengah dari kata-kata pada korpus hanya muncul sekali, disebut hapax legomena (kata Greek untuk “baca hanya sekali”) “Prinsip Usaha Yang Sedikit” Lebih mudah untuk mengulangi kata daripada menggunakan kata yang baru

kalimat?? Kalimat Suatu string kata yang diakhiri dengan dengan suatu tanda berhenti sepenuhnya, tanda tanya atau tanda seru (90% tepat) Contoh : Apakah kamu sudah ke kampus? Sinta membuka situs detik.com. Dr. Adi pulang ke Jakarta. Dia mengatakan “Tidak mungkin!”

Mendeteksi kalimat Hipotesakan bahwa batas kalimat sesudah . ? ! Pindahkan batas kalimat sesudah tanda petik, bukan setelah titik. “Jangan ambil buku itu,” kata ibu kepada Ani. Jangan gunakan titik jika: Sebelumnya adalah singkatan yg umum yg biasanya bukan akhir kalimat, tp biasanya diikuti oleh nama dengan huruf besar: Prof. Didahului oleh singkatan yang umum dan tidak diikuti oleh kata dengan huruf besar: Jr. Jangan kenali sebagai batas jika ada ! atau ? yang diikuti oleh huruf kecil

RANK Ide utama: hitung berapa kali kata tsb. muncul pada teks, di semua teks pada koleksi Lalu urutkan sesuai dengan berapa seringnya kata-kata tsb. muncul. Ini yang disebut dengan rank (urutan).

HUKUM ZIPF Menjelaskan adanya hubungan antara frekuensi dan urutan (rank) Penjelasan ini dibuat oleh ahli linguistik dari Harvard yang bernama George Kingsley Zipf Terdapat konstanta k sehingga : f * r = k di mana f = frekuensi kata r = urutan kata k = konstanta

DISTRIBUSI ZIPF Ada sedikit elemen yang sangat sering muncul Ada sejumlah medium elemen yang frekuensi kemunculannya menengah Ada banyak elemen yang sangat jarang muncul Cara lain untuk menyatakannya: Bila kata yang paling sering muncul C kali Kata kedua yang paling umum muncul C/2 kali Kata ketiga yang paling umum muncul C/3 kali dst...

Contoh : Kata-kata yang paling sering muncul bukanlah yang paling desktiptif. Luhn (1958) mengatakan bahwa kata-kata yang paling umum dan paling tidak umum adalah tidak berguna untuk indexing.

Dampak Hukum Zipf pada IR Positif: Stopwords merupakan bagian yang besar dari teks sehingga kalau dihilangkan akan mengurangi biaya penyimpanan inverted-index. Ada sedikit kata yang sering muncul yang merupakan kata pembeda (discriminator) yang tidak baik. Disebut “stopwords” di IR Mis. dalam bahasa Inggris: to, from, on, and, the, ... Kata-kata dengan frekuensi medium adalah yang paling deskriptif.

Dampak Hukum Zipf pada IR Negatif: Untuk sebagian besar kata- kata, mengumpulkan data yang cukup untuk analisa statistik yang berarti (mis. Untuk analisa korelasi untuk query expansion) sangat sulit karena kata-kata tsb. sangat jarang muncul. Ada sejumlah besar kata-kata yang hanya muncul sekali dan dapat mengacaukan algoritma.