SISTEM TEMU KEMBALI INFORMASI

SISTEM TEMU KEMBALI INFORMASI
Oleh : Rahmat Robi Waliyansyah, M.Kom.

Curriculum vitae Nama : Rahmat Robi Waliyansyah, M.Kom.
TTL : Jambi, 25 Oktober 1988 Agama : Islam Status : Menikah Alamat : Jl. Sawah Besar XI No.05 RT.02 RW.06 Kel. Kaligawe Kec. Gayamsari, Kota Semarang 50164 Phone : (WA) Pendidikan : S1 = Universitas Putra Indonesia-YPTK, Padang S2 = Universitas Diponegoro, Semarang

KONTRAK PERKULIAHAN Nama Matakuliah : Sistem Temu Kembali Informasi
Beban Kredit : 2 SKS Semester : Gasal / V, 2017/2018

Manfaat Matakuliah Matakuliah ini akan memberi manfaat bagi mahasiswa dalam menerapkan konsep temu kembali informasi untuk membuat sistem aplikasi temu kembali informasi teks.

Deskripsi Perkuliahan
Matakuliah ini menjelaskan pengantar temu kembali informasi, dasar- dasar temu kembali informasi: pemodelan, evaluasi, query, operasi teks dan multimedia, indexing and searching. Topik dalam temu kembali informasi: relevance feedback, query expansion, text classification, text clustering, summarization, cross-language, question answering, web search.

Tujuan Setelah mengikuti matakuliah ini, mahasiswa diharapkan mampu menjelaskan konsep dalam temu kembali informasi, serta menerapkannya untuk membuat sistem aplikasi temu kembali informasi teks.

Strategi Perkuliahan Kuliah diberikan kepada mahasiswa S1 Informatika UPGRIS yang mengambil matakuliah ini sebagai pilihan. Perkuliahan dilakukan sebanyak 14 kali pertemuan kuliah tatap muka. Metode perkuliahan adalah kombinasi antara ceramah, diskusi, dan diakhiri dengan presentasi proyek akhir. Mahasiswa wajib mengikuti perkuliahan minimal 80 persen, dan presentasi proyek akhir 100 persen. Mahasiswa pengulang matakuliah Temu Kembali Informasi diwajibkan mengikuti keseluruhan kegiatan kuliah dan presentasi proyek akhir selama satu semester.

Tugas Tugas terdiri dari dua jenis, yaitu tugas perorangan yang harus diselesaikan oleh mahasiswa pada waktu tertentu, dan tugas kelompok dalam bentuk proyek akhir yang merupakan tugas pemrograman, dan setiap kelompok terdiri atas beberapa orang. Topik yang dipilih adalah bebas, dengan syarat tidak ada yang sama di antara kelompok. Produk yang dihasilkan oleh setiap kelompok berupa program komputer, laporan hasil kajian sesuai dengan topik yang dipilih, dan slide presentasi.

Referensi Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schutze Introduction to Information Retrieval. Cambridge University Press. C. J. van Rijsbergen. Information Retrieval. Information Retrieval Group, University of Glasgow. Richardo Baeza-Yates and Berthier Rieiro-Neto. Modern Information Retrieval. PERL Programming. Henk Blanken, et.al Multimedia Retrieval. Text Summarization. Tutorial ACM SIGIR, Sheffield, UK July 25, 2004. TREC. Question Anwsering System and Cross Language Informastion Retrieval.

Kriteria Penilaian Nilai akhir (NA) adalah nilai kumulatif dari nilai ujian tengah semester (UTS), ujian akhir semester (UAS), tugas perorangan (TP), dan tugas kelompok atau proyek akhir (PA). Metode dan bobot nilai sebagai berikut: UTS (1-7) dan UAS (9-15) dilakukan melalui ujian tertulis dengan bobot masing- masing 35%. Kisi-kisi ujian akan disampaikan pada pertemuan ke-7 untuk UTS, dan pada pertemuan ke-15 untuk UAS. Nilai TP adalah rata-rata dari semua tugas yang diberikan, dan diberi bobot 10% Nilai PA terdiri dari nilai produk proyek (program komputer, laporan) dan presentasi. Bobot nilai PA adalah 20%.

Jadwal Kuliah Kuliah dilaksanakan pada setiap hari Senin pukul 13:00-14:40 di Ruang GP. 608

OUTLINE Pendahuluan Aplikasi pemrosesan teks Inverted index Model IR
Evaluasi IR Relevance Feedback and Query Expansion Probabilistic IR UTS

OUTLINE Text Classification Clustering Text Summarization
XML Retrieval Multimedia Information Retrieval System (MIRS) Question Answering System and CLIR Web Search UAS

Database vs IR DATABASE IR
Data pada database terstruktur (memiliki table, field, record, entity, dll.) IR tidak terstruktur File pada database clear semantic (satu kesatuan, menyeluruh) IR tidak ada field Query pada database dapat dijelaskan (contoh: SQL) IR merupakan teks bebas seperti bahasa alami, bahasa manusia sehari-hari Ukuran kesamaannya pada database pasti IR butuh ukuran keefektifan tertentu, partial (diambil ukuran kesamaan terbaik) Model pada database deterministic (bisa ditentukan) IR non deterministic

Boolean Retrieval Boolean Retrieval Model (BRM) adalah salah satu contoh Information Retrieval yang merupakan model proses pencarian informasi dari query yang menggunakan ekspresi boolean. Dengan ekspresi boolean dengan menggunakan operator logika AND, OR dan NOT. Sedangkan dalam menentukan hasil perhitungannya hanya berupa nilai binary (1 atau 0). Dengan hal itu, Boolean Retrieval Model (BRM) yang ada hanya dokumen relevan atau tidak sama sekali. Sehingga keunggulan dari Boolean Retrieval Model (BRM) tidak menghasilkan dokumen yang mirip.

Logical AND Untuk menelusur marketing and library, kita memformulasikan pernyataan dengan marketing AND library. Dengan query tersebut maka kita akan menemukan dokumen yang mengandung unsur marketing dan perpustakaan saja, dan tidak mendapatkan dokumen yang hanya mengandung unsur marketing atau perpustakaan saja.

Logical OR Contoh marketing OR library. Dengan query tersebut maka kita akan mendapatkan dokumen yang mengandung unsur marketing saja, perpustakaan saja atau yang mengandung unsur marketing dan perpustakaan.

Logical NOT Contoh markeing NOT library. Ini artinya kita hanya menginginkan dokumen yang unsur marketing di dalamnya tidak ada unsur perpustakaannya.

Kombinasi Logical AND, OR, NOT
Contoh marketing AND library OR information centre NOT profit organization. Artinya kita ingin mendapatkan dokumen yang mengandung unsur marketing dan perpustakaan tanpa unsur pusat informasi bukan untuk organisasi non profit.

pengertian dari TEKS Ungkapan bahasa yang menurut isi, sintaks, dan pragmantik merupakan satu kesatuan. Dokumen yang dapat dibaca oleh mesin.

Pengertian dari Korpus
Kumpulan dari beberapa file / dokumen yang dapat diolah oleh mesin. Teks alami yang dipilih dengan cara tertentu.

Tokenisasi Tokenisasi adalah suatu tahapan pemrosesan dimana teks input dibagi menjadi unit-unit kecil yang disebut token, yang dapat berupa suatu kata, suatu angka, atau suatu tanda baca. Kemudian, untuk contoh dokumen teks adalah: Korpus pada sebuah teks yang terdapat pada sebuah file. Misalnya yang berformat XML. Kumpulan file / dokumen pada facebook. Kumpulan artikel pada digital library.

Karakteristik Dokumen
A corpus of documents: Setiap sistem harus memutuskan dokumen yang ada akan diperlakukan sebagai apa. Bisa sebagai sebuah paragraf, halaman, atau teks multipage. Queries posed in a query language. Sebuah query menjelaskan tentang apa yang user ingin peroleh. Query language dapat berupa list dari kata-kata, atau bisa juga menspesifikasikan sebuah frase dari kata-kata yang harus berdekatan. A result set. Ini adalah bagian dari dokumen yang dinilai oleh sistem IR sebagai yang relevan dengan query. A presentation of the result set. Maksud dari bagian ini adalah tampilan list judul dokumen yang sudah di ranking.

Contoh Proses dari pemrosesan Teks

Pengolahan teks mencakup :
Information Extraction: Mengekstrak informasi yang dianggap penting dari suatu dokumen. Misalnya pada dokumen lowongan, walaupun memiliki format beragam dapat diekstrak secara otomatis job title, tingkat pendidikan, penguasaan bahasa dsb. Text Summarization: Menghasilkan ringkasan suatu dokumen secara otomatis. Data Mining: proses identifikasi valid, yang berpotensi berguna, dan pada akhirnya dapat dipahami pola data yang tersimpan dalam database yang terstruktur, dimana data diorganisir dalam catatan terstruktur dengan kategori, ordinal, atau variabel yang terus menerus. Text Mining (biasa dikenal juga dengan text data mining atau penemuan pengetahuan) dalam database tekstual adalah semi-otomatis proses ekstraksi pola (informasi yang berguna dan pengetahuan) dari sumber data yang tidak terstruktur dalam jumlah yang besar.

Pengolahan teks mencakup :
Information retrieval: pencarian dokumen (contoh google: search engine). Document Clustering: mirip dengan klasifikasi dokumen, hanya saja kelas dokumen tidak ditentukan sebelumnya. Misalnya berita tentang lalulintas dapat menjadi satu kelas dengan berita tentang kriminal karena didalamnya banyak memuat tentang orang yang tewas, cedera, rumah sakit dsb.

SISTEM TEMU KEMBALI INFORMASI

Presentasi serupa

Presentasi berjudul: "SISTEM TEMU KEMBALI INFORMASI"— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan

Masuk

Otorisasi melalui jaringan sosial:

SISTEM TEMU KEMBALI INFORMASI

Presentasi serupa

Presentasi berjudul: "SISTEM TEMU KEMBALI INFORMASI"— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan