Temu balik informasi Anggota Kelompok Ikhsan Fauji 14.11.0010 Irna Oktaviasari 14.11.0018 Erip Marliana 14.11.0019 Egi Firmansyah 14.11.0045 Aditia Fabiola Anggraheni 14.11.0117 Aditiya Pratama 14.11.0145 Ni’am Habibiy Sahid (Ketua) 14.11.0185 Moushawi Almahi (Angkatan 12)
Konsep dan metode dalam Temu Balik Informasi Untuk mendapatkan informasi yang relevan secara efektif dipengaruhi secara langsung oleh dua hal yaitu user task dan logical view of the document yang di adopsi oleh sistem temu balik informasi.
The User Task Pengguna dari sistem TBI harus mentranslasi informasi yang dia butuhkan ke query atau kata kunci dalam bahasa yang digunakan oleh sistem TBI.
interaksi manusia melalui beberapa task
Logical View of Document (Penggambaran logis dari dokumen) Adalah representasi dari dokumen dan halaman web yang di adopsi oleh sistem. Kebanyakan di representasikan sebagai text dalam dokumen.
Gambar sebelum nya menggambarkan bagaimana merepresentasikan keywords dalam sebuah koleksi data yang besar. Komputer harus mengurangi jumlah keyword yang di representasikan. Dari full text menjadi index term. Hal ini bisa di lakukan dengan mengeliminasi stopwords (seperti artikel dan kata sambung), menggunakan stemming, dan mengidentifikasi kata benda ( artinya mengeliminasi kata sifat, kata keterangan dan kata kerja).
Stopword Kata-kata yang sering terjadi dalam teks dokumen. Contoh stopwords adalah artikel, preposisi, dan konjungsi. Artikel yang dimaksud adalah kata imbuhan yang tidak ada artinya misal : the, a, si, yang.
Stemming Teknik untuk membuang tambahan pada kata agar menjadi kata asli. Atau mengubah kata menjadi kata akar.
Noun groups Grup kata yang berdasarkan pada kata benda, contoh dalam kalimat “Dia menaruh botol aqua di atas meja kantor”. Noun groupnya yaitu “Dia” , “botol aqua”, “meja kantor”.
index term (atau keyword) istilah dari kata kata terpilih yang dapat digunakan untuk merujuk pada isi dokumen. Biasanya, berupa kata benda atau kelompok dari kata benda. Namun di Web, beberapa mesin pencari menggunakan semua kata-kata dalam dokumen sebagai index term
Model Temu balik informasi Model dalam TBI di bagi menjadi 2 Boolean Retrieval a. Standar Boolean b. Extended Boolean Models
STANDARD bOOLEAN Standard Boolean Tujuan Menangkap informasi struktural dan kontekstual konseptual Metode Coordination : AND, OR, NOT Proximity Fields Stemming / truncation (+) Mudah untuk diimplementasikan Komputasi yang efisien Semua database on-line yang utama menggunakannya Ekspresif dan kejelasan Spesifikasi sinonim (OR- clauses) dan frasa (AND – clauses) (-) Sulit untuk membangun query boolean semua atau tidak AND Terlalu parah dn OR Tidak cukup berbeda Sulit untuk mengontrol output: null output <-> overload. Tidak ada pemberian peringkat
Extended boolean models Tujuan Operator boolean jadi lebih tidak teliti Metode Menggunakan fuzzy logic OR -> max], [AND -> min] dan [NOT -> 1 – max] Mengurangi sensivitas padamin dan max : min (0.2, 0.8) = min (0.2, 0.3).
2.Statistic Model 2.Statistic Model a. Vector Space Model Model ruang vektor merupakan dokumen dan query sebagai vektor dalam ruang multidimensi, yang dimensinya adalah istilah yang digunakan untuk membangun indeks untuk mewakili dokumen b. Probabilistic Model Model pencarian probabilistik didasarkan pada Probability Ranking Principle, yang menyatakan bahwa sistem pencarian informasi seharusnya memberi peringkat pada dokumen berdasarkan probabilitas relevansinya dengan kueri
Statistical Model Statistical Vector Space Probabilistic Motivasi -Memudahkan formulasi Query -Dapat untuk mengontrol output Ketidaksamaan alamat di query yang direpresentasikan Tujuan Memberikan peringkat dokumen berdasarkan kemiripan Memberikan peringkat dokumen berdasarkan Probabilitas Relevance Metode Ukuran kesamaan kosinus Menggunakan model yang berbeda
Referensi http://people.ischool.berkeley.edu/~hearst/irbook/1/node3.html http://people.ischool.berkeley.edu/~hearst/irbook/glossary.html https://www.collinsdictionary.com/dictionary/english/noun-group http://aspoerri.comminfo.rutgers.edu/InfoCrystal/Ch_2.html