Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

KONSEP DASAR IR.

Presentasi serupa


Presentasi berjudul: "KONSEP DASAR IR."— Transcript presentasi:

1 KONSEP DASAR IR

2 Introduction IR deals with the representation, storage, organization of, and access to information items Search engine (IR System) The user must first translate this informasi need into a query The key goal of an IR System To retrieve information which might be useful or relevant to the user

3 Differences Information& Data Retrieval
Retrieving all objects which satisfy clearly defined conditions such as those in a regular expression Deals with data that has a well defined structure and semantic IR Retrieve all document which are relevant to a user query while retrieving as few non-relevant document as possible Deals with natural language text

4 Kebutuhan informasi (Query)
IR System Koleksi dokumen IR SYSTEM Kebutuhan informasi (Query) Dokumen yang Diperoleh Doc 1 Doc

5 Logical view of document

6 IR Process

7 IR Process

8 SEJARAH IR ’s: Penggunaan IR system untuk koleksi “kecil”dari abstrak ilmu pengetahuan, dokumendokumen hukum dan bisnis. Salton (Amerika) & van Rijsbergen (Eropa) dan murid-2nya merupakan peneliti-2 awal di bidang ini.

9 Lanjutan SEJARAH IR 1990’s: Pencarian di World Wide Web
Sistem database dokumen berjumlah besar, kebanyakan dibuat oleh perusahaan: Lexis-Nexis MEDLINE 1990’s: Pencarian di World Wide Web Google, Yahoo, Altavista Konperensi yang merupakan kompetisi National Institute of Standard for Testing (NIST) : Text REtrieval Conference (TREC) Sistem rekomendasi Amazon Pengelompokan & kategorisasi teks secara otomatis Vivisimo

10 Lanjutan SEJARAH IR 2000’s Ekstraksi Informasi secara otomatis
Multimedia IR Gambar, Video, Audio and musik Cross-Language IR CLEF Ringkasan dokumen dll.

11 DASAR-DASAR IR Korpus Frekuensi kata Tutorial PERL

12 KORPUS Koleksi dokumen yang bisa dibaca oleh mesin
Korpus yang seimbang mencoba mewakili semua bahasa atau suatu domain. Contoh : Penanaman secara hidroponik dilakukan oleh individu sebagai hobi dan juga secara besar-besaran untuk tujuan komersil. Di negara Singapura misalnya, oleh karena kekurangan tanah, bumbung-bumbung bangunan dijadikan tempat untuk menanam sayur-sayuran seperti bak choy, sawi, kailan dan bayam di mana semuanya menggunakan kaedah hidroponik. Begitu juga, untuk penerokaan angkasa lepas, angkasawan boleh bercocok tanam sayur-sayuran di dalam kapal angkasa. Kaedah yang sama digunakan oleh tentera di atas kapal perang, maupun kapal selam. Dengan cara ini mereka tidak perlu membawa bekalan makanan yang banyak, hanya sekadar membawa benih-benih sayur-sayuran dan boleh ditanam semasa dalam perjalanan.

13 Isi Korpus Jenis bahasa: Teks : artikel, berita kawat, buku
Pidato spontan: pembicaraan (dialog), siaran Jenis Novel bahasa Inggris pada abad 18 Teks suratkabar, laporan berita kawat Pembicaraan pemesanan penerbangan

14 Lanjutan Isi Korpus Media: teks, audio, transkripsi, video Anotasi
Tokenisasi, struktur dokumen Anotasi linguistik, format (markup language)

15 Definisi Anotasi adalah penambahan informasi pada korpus yang secara eksplisit tidak ada disana (memberi tambahan nilai kegunaan pada korpus). Tokenisasi adalah suatu tahap pemrosesan di mana teks input dibagi menjadi unit-unit yang disebut token yg merupakan suatu kata atau suatu angka atau suatu tanda baca.

16 Korpus yang Ada KORPUS BROWN Korpus awal yang terkenal
Dibuat oleh Nelson Francis & Henry Kucera di Universitas Brown tahun 1960-an Merupakan korpus seimbang yang ditulis dalam bahasa Inggris Amerika Terdiri dari sejuta kata

17 Korpus Lainnya Korpus Domain Bahasa British National Corpus Seimbang British English Newswires Corpus Newswire Am. English UN atau EU proceed hukum 10 bahasa Broadcast News Corpus ujaran 7 bahasa

18 Melacak Teks Temukan baris yang mengandung kata hidroponik
Temukan semua baris yang diawali dengan kata penanaman Penanaman secara hidroponik dilakukan oleh individu sebagai hobi dan juga secara besar-besaran untuk tujuan komersil. Di negara Singapura misalnya, oleh karena kekurangan tanah, bumbung-bumbung bangunan dijadikan tempat untuk menanam sayur-sayuran seperti bak choy, sawi, kailan dan bayam di mana semuanya menggunakan kaedah hidroponik.

19 Frekuensi Kata KATA?? Karakter alfanumerik yang bersambungan yang dipisahkan oleh whitespace. Whitespace: spasi, tab, newline Bagaimana dengan p2p, amazon.com,Micro$oft? Bagaimana dengan John’s, isn’t, Jum’at? Bagaimana dengan pro-aktif? Tanda sambung pada akhir baris?

20 Menghitung Kata Jumlah Kata Seberapa besar korpus yang ada (N)
Jenis kata Berapa jumlah kata yang unik? Berapa besar perbendaharaan kata pada korpus? Token kata Berapa jumlah kata pada korpus? Berapa frekuensi dari setiap jenis kata? Kata apa yang paling sering muncul pada korpus?

21 Lanjutan Menghitung Kata
Kata bigrams apa yang paling sering muncul pada korpus? Mis. Bukit Tinggi, universitas diponegoro Kata trigrams apa yang paling sering muncul pada korpus? Mis. presiden republik indonesia, bendera merah putih Kata 4-grams apa yang paling sering muncul pada korpus? Mis. daftar mata uang asing, daerah khusus ibukota jakarta

22 Statistik dari teks Bagaimana frekuensi dari berbagai kata didistribusikan? Seberapa cepat ukuran perbendaharaan kata bertambah sesuai dengan ukuran korpus? Faktor- faktor tersebut dapat mempengaruhi unjuk kerja dari IR dan dapat digunakan untuk memilih bobot kata yang tepat dan aspek lainnya dari sistem IR.

23 Cara Menghitung Frekuensi Kata
Tokenisasi (pecah menjadi kata) Jadikan semua huruf kecil Urutkan menurut abjad Hitung kemunculan kata Urutkan menurut frekuensinya Hitung kemunculannya (menghitung frekuensi dari frekuensi)

24 Frekuensi Kata Sejumlah kata merupakan kata yang sangat umum.
2 kata yang paling sering muncul (mis. “the”, “of”) merupakan 10% dari kemunculan kata. 6 kata diurutan teratas merupakan 20%, 50 kata teratas merupakan 50% Kebanyakan kata sangat jarang muncul. Setengah dari kata-kata pada korpus hanya muncul sekali, disebut hapax legomena (kata Greek untuk “baca hanya sekali”) “Prinsip Usaha Yang Sedikit” Lebih mudah untuk mengulangi kata daripada menggunakan kata yang baru

25 kalimat?? Kalimat Suatu string kata yang diakhiri dengan dengan suatu tanda berhenti sepenuhnya, tanda tanya atau tanda seru (90% tepat) Contoh : Apakah kamu sudah ke kampus? Sinta membuka situs detik.com. Dr. Adi pulang ke Jakarta. Dia mengatakan “Tidak mungkin!”

26 Mendeteksi kalimat Hipotesakan bahwa batas kalimat sesudah . ? !
Pindahkan batas kalimat sesudah tanda petik, bukan setelah titik. “Jangan ambil buku itu,” kata ibu kepada Ani. Jangan gunakan titik jika: Sebelumnya adalah singkatan yg umum yg biasanya bukan akhir kalimat, tp biasanya diikuti oleh nama dengan huruf besar: Prof. Didahului oleh singkatan yang umum dan tidak diikuti oleh kata dengan huruf besar: Jr. Jangan kenali sebagai batas jika ada ! atau ? yang diikuti oleh huruf kecil

27 RANK Ide utama: hitung berapa kali kata tsb. muncul pada teks, di semua teks pada koleksi Lalu urutkan sesuai dengan berapa seringnya kata-kata tsb. muncul. Ini yang disebut dengan rank (urutan).

28 HUKUM ZIPF Menjelaskan adanya hubungan antara frekuensi dan urutan (rank) Penjelasan ini dibuat oleh ahli linguistik dari Harvard yang bernama George Kingsley Zipf Terdapat konstanta k sehingga : f * r = k di mana f = frekuensi kata r = urutan kata k = konstanta

29 DISTRIBUSI ZIPF Ada sedikit elemen yang sangat sering muncul
Ada sejumlah medium elemen yang frekuensi kemunculannya menengah Ada banyak elemen yang sangat jarang muncul Cara lain untuk menyatakannya: Bila kata yang paling sering muncul C kali Kata kedua yang paling umum muncul C/2 kali Kata ketiga yang paling umum muncul C/3 kali dst...

30 Contoh : Kata-kata yang paling sering muncul bukanlah yang paling desktiptif. Luhn (1958) mengatakan bahwa kata-kata yang paling umum dan paling tidak umum adalah tidak berguna untuk indexing.

31 Dampak Hukum Zipf pada IR
Positif: Stopwords merupakan bagian yang besar dari teks sehingga kalau dihilangkan akan mengurangi biaya penyimpanan inverted-index. Ada sedikit kata yang sering muncul yang merupakan kata pembeda (discriminator) yang tidak baik. Disebut “stopwords” di IR Mis. dalam bahasa Inggris: to, from, on, and, the, ... Kata-kata dengan frekuensi medium adalah yang paling deskriptif.

32 Dampak Hukum Zipf pada IR
Negatif: Untuk sebagian besar kata- kata, mengumpulkan data yang cukup untuk analisa statistik yang berarti (mis. Untuk analisa korelasi untuk query expansion) sangat sulit karena kata-kata tsb. sangat jarang muncul. Ada sejumlah besar kata-kata yang hanya muncul sekali dan dapat mengacaukan algoritma.


Download ppt "KONSEP DASAR IR."

Presentasi serupa


Iklan oleh Google