KONSEP DASAR IR
Introduction IR deals with the representation, storage, organization of, and access to information items Search engine (IR System) The user must first translate this informasi need into a query The key goal of an IR System To retrieve information which might be useful or relevant to the user
Differences Information& Data Retrieval Retrieving all objects which satisfy clearly defined conditions such as those in a regular expression Deals with data that has a well defined structure and semantic IR Retrieve all document which are relevant to a user query while retrieving as few non-relevant document as possible Deals with natural language text
Kebutuhan informasi (Query) IR System Koleksi dokumen IR SYSTEM Kebutuhan informasi (Query) Dokumen yang Diperoleh Doc 1 Doc 2 ...
Logical view of document
IR Process
IR Process
SEJARAH IR 1960-70’s: Penggunaan IR system untuk koleksi “kecil”dari abstrak ilmu pengetahuan, dokumendokumen hukum dan bisnis. Salton (Amerika) & van Rijsbergen (Eropa) dan murid-2nya merupakan peneliti-2 awal di bidang ini.
Lanjutan SEJARAH IR 1990’s: Pencarian di World Wide Web Sistem database dokumen berjumlah besar, kebanyakan dibuat oleh perusahaan: Lexis-Nexis MEDLINE 1990’s: Pencarian di World Wide Web Google, Yahoo, Altavista Konperensi yang merupakan kompetisi National Institute of Standard for Testing (NIST) : Text REtrieval Conference (TREC) Sistem rekomendasi Amazon Pengelompokan & kategorisasi teks secara otomatis Vivisimo
Lanjutan SEJARAH IR 2000’s Ekstraksi Informasi secara otomatis Multimedia IR Gambar, Video, Audio and musik Cross-Language IR CLEF Ringkasan dokumen dll.
DASAR-DASAR IR Korpus Frekuensi kata Tutorial PERL
KORPUS Koleksi dokumen yang bisa dibaca oleh mesin Korpus yang seimbang mencoba mewakili semua bahasa atau suatu domain. Contoh : Penanaman secara hidroponik dilakukan oleh individu sebagai hobi dan juga secara besar-besaran untuk tujuan komersil. Di negara Singapura misalnya, oleh karena kekurangan tanah, bumbung-bumbung bangunan dijadikan tempat untuk menanam sayur-sayuran seperti bak choy, sawi, kailan dan bayam di mana semuanya menggunakan kaedah hidroponik. Begitu juga, untuk penerokaan angkasa lepas, angkasawan boleh bercocok tanam sayur-sayuran di dalam kapal angkasa. Kaedah yang sama digunakan oleh tentera di atas kapal perang, maupun kapal selam. Dengan cara ini mereka tidak perlu membawa bekalan makanan yang banyak, hanya sekadar membawa benih-benih sayur-sayuran dan boleh ditanam semasa dalam perjalanan.
Isi Korpus Jenis bahasa: Teks : artikel, berita kawat, buku Pidato spontan: pembicaraan (dialog), siaran Jenis Novel bahasa Inggris pada abad 18 Teks suratkabar, laporan berita kawat Pembicaraan pemesanan penerbangan
Lanjutan Isi Korpus Media: teks, audio, transkripsi, video Anotasi Tokenisasi, struktur dokumen Anotasi linguistik, format (markup language)
Definisi Anotasi adalah penambahan informasi pada korpus yang secara eksplisit tidak ada disana (memberi tambahan nilai kegunaan pada korpus). Tokenisasi adalah suatu tahap pemrosesan di mana teks input dibagi menjadi unit-unit yang disebut token yg merupakan suatu kata atau suatu angka atau suatu tanda baca.
Korpus yang Ada KORPUS BROWN Korpus awal yang terkenal Dibuat oleh Nelson Francis & Henry Kucera di Universitas Brown tahun 1960-an Merupakan korpus seimbang yang ditulis dalam bahasa Inggris Amerika Terdiri dari sejuta kata
Korpus Lainnya Korpus Domain Bahasa British National Corpus Seimbang British English Newswires Corpus Newswire Am. English UN atau EU proceed hukum 10 bahasa Broadcast News Corpus ujaran 7 bahasa
Melacak Teks Temukan baris yang mengandung kata hidroponik Temukan semua baris yang diawali dengan kata penanaman Penanaman secara hidroponik dilakukan oleh individu sebagai hobi dan juga secara besar-besaran untuk tujuan komersil. Di negara Singapura misalnya, oleh karena kekurangan tanah, bumbung-bumbung bangunan dijadikan tempat untuk menanam sayur-sayuran seperti bak choy, sawi, kailan dan bayam di mana semuanya menggunakan kaedah hidroponik.
Frekuensi Kata KATA?? Karakter alfanumerik yang bersambungan yang dipisahkan oleh whitespace. Whitespace: spasi, tab, newline Bagaimana dengan p2p, amazon.com,Micro$oft? Bagaimana dengan John’s, isn’t, Jum’at? Bagaimana dengan pro-aktif? Tanda sambung pada akhir baris?
Menghitung Kata Jumlah Kata Seberapa besar korpus yang ada (N) Jenis kata Berapa jumlah kata yang unik? Berapa besar perbendaharaan kata pada korpus? Token kata Berapa jumlah kata pada korpus? Berapa frekuensi dari setiap jenis kata? Kata apa yang paling sering muncul pada korpus?
Lanjutan Menghitung Kata Kata bigrams apa yang paling sering muncul pada korpus? Mis. Bukit Tinggi, universitas diponegoro Kata trigrams apa yang paling sering muncul pada korpus? Mis. presiden republik indonesia, bendera merah putih Kata 4-grams apa yang paling sering muncul pada korpus? Mis. daftar mata uang asing, daerah khusus ibukota jakarta
Statistik dari teks Bagaimana frekuensi dari berbagai kata didistribusikan? Seberapa cepat ukuran perbendaharaan kata bertambah sesuai dengan ukuran korpus? Faktor- faktor tersebut dapat mempengaruhi unjuk kerja dari IR dan dapat digunakan untuk memilih bobot kata yang tepat dan aspek lainnya dari sistem IR.
Cara Menghitung Frekuensi Kata Tokenisasi (pecah menjadi kata) Jadikan semua huruf kecil Urutkan menurut abjad Hitung kemunculan kata Urutkan menurut frekuensinya Hitung kemunculannya (menghitung frekuensi dari frekuensi)
Frekuensi Kata Sejumlah kata merupakan kata yang sangat umum. 2 kata yang paling sering muncul (mis. “the”, “of”) merupakan 10% dari kemunculan kata. 6 kata diurutan teratas merupakan 20%, 50 kata teratas merupakan 50% Kebanyakan kata sangat jarang muncul. Setengah dari kata-kata pada korpus hanya muncul sekali, disebut hapax legomena (kata Greek untuk “baca hanya sekali”) “Prinsip Usaha Yang Sedikit” Lebih mudah untuk mengulangi kata daripada menggunakan kata yang baru
kalimat?? Kalimat Suatu string kata yang diakhiri dengan dengan suatu tanda berhenti sepenuhnya, tanda tanya atau tanda seru (90% tepat) Contoh : Apakah kamu sudah ke kampus? Sinta membuka situs detik.com. Dr. Adi pulang ke Jakarta. Dia mengatakan “Tidak mungkin!”
Mendeteksi kalimat Hipotesakan bahwa batas kalimat sesudah . ? ! Pindahkan batas kalimat sesudah tanda petik, bukan setelah titik. “Jangan ambil buku itu,” kata ibu kepada Ani. Jangan gunakan titik jika: Sebelumnya adalah singkatan yg umum yg biasanya bukan akhir kalimat, tp biasanya diikuti oleh nama dengan huruf besar: Prof. Didahului oleh singkatan yang umum dan tidak diikuti oleh kata dengan huruf besar: Jr. Jangan kenali sebagai batas jika ada ! atau ? yang diikuti oleh huruf kecil
RANK Ide utama: hitung berapa kali kata tsb. muncul pada teks, di semua teks pada koleksi Lalu urutkan sesuai dengan berapa seringnya kata-kata tsb. muncul. Ini yang disebut dengan rank (urutan).
HUKUM ZIPF Menjelaskan adanya hubungan antara frekuensi dan urutan (rank) Penjelasan ini dibuat oleh ahli linguistik dari Harvard yang bernama George Kingsley Zipf Terdapat konstanta k sehingga : f * r = k di mana f = frekuensi kata r = urutan kata k = konstanta
DISTRIBUSI ZIPF Ada sedikit elemen yang sangat sering muncul Ada sejumlah medium elemen yang frekuensi kemunculannya menengah Ada banyak elemen yang sangat jarang muncul Cara lain untuk menyatakannya: Bila kata yang paling sering muncul C kali Kata kedua yang paling umum muncul C/2 kali Kata ketiga yang paling umum muncul C/3 kali dst...
Contoh : Kata-kata yang paling sering muncul bukanlah yang paling desktiptif. Luhn (1958) mengatakan bahwa kata-kata yang paling umum dan paling tidak umum adalah tidak berguna untuk indexing.
Dampak Hukum Zipf pada IR Positif: Stopwords merupakan bagian yang besar dari teks sehingga kalau dihilangkan akan mengurangi biaya penyimpanan inverted-index. Ada sedikit kata yang sering muncul yang merupakan kata pembeda (discriminator) yang tidak baik. Disebut “stopwords” di IR Mis. dalam bahasa Inggris: to, from, on, and, the, ... Kata-kata dengan frekuensi medium adalah yang paling deskriptif.
Dampak Hukum Zipf pada IR Negatif: Untuk sebagian besar kata- kata, mengumpulkan data yang cukup untuk analisa statistik yang berarti (mis. Untuk analisa korelasi untuk query expansion) sangat sulit karena kata-kata tsb. sangat jarang muncul. Ada sejumlah besar kata-kata yang hanya muncul sekali dan dapat mengacaukan algoritma.