Sistem Temu-Balik Pengantar Temu-Balik Informasi Pertemuan ke-2

Slides:



Advertisements
Presentasi serupa
Teori Graf.
Advertisements

Pemrograman Terstruktur
START.
Manajemen Sumber Daya Data
Memahami Etimologi Multimedia
Menunjukkan berbagai peralatan TIK melalui gambar
1 Oleh : AGUS YUDI PRASETIYO P RATNA WIDAYASTUTI P TOTO SUMARMO P TUGAS CORPORATE INFORMATION SYSTEM MANAGEMENT.
Tugas Praktikum 1 Dani Firdaus  1,12,23,34 Amanda  2,13,24,35 Dede  3,14,25,36 Gregorius  4,15,26,37 Mirza  5,16,27,38 M. Ari  6,17,28,39 Mughni.
Tugas: Perangkat Keras Komputer Versi:1.0.0 Materi: Installing Windows 98 Penyaji: Zulkarnaen NS 1.

Matematika Diskrit Dr.-Ing. Erwin Sitompul
Praktikum Sistem Temu Balik Informasi
Mari Kita Lihat Video Berikut ini.
Bab 6B Distribusi Probabilitas Pensampelan
WEEK 6 Teknik Elektro – UIN SGD Bandung PERULANGAN - LOOPING.
WORKSHOP INTERNAL SIM BOK
HITUNG INTEGRAL INTEGRAL TAK TENTU.
Integrasi Numerik (Bag. 2)
Selamat Datang Dalam Kuliah Terbuka Ini
Rabu 23 Maret 2011Matematika Teknik 2 Pu Barisan Barisan Tak Hingga Kekonvergenan barisan tak hingga Sifat – sifat barisan Barisan Monoton.
StopList dan Stemming yasmi afrizal
Model Temu-Balik Informasi
Konsep Dasar Sistem Temu Kembali Informasi
: : Sisa Waktu.
PENGANTAR SISTEM INFORMASI NURUL AINA MSP A.
PEMINDAHAN HAK DENGAN INBRENG
UKURAN PEMUSATAN DATA Sub Judul.
Fungsi Invers, Eksponensial, Logaritma, dan Trigonometri
FUNGSI MATEMATIKA DISKRIT K- 6 Universitas Indonesia
Selamat Datang Dalam Kuliah Terbuka Ini
AREAL PARKIR PEMERINTAH KABUPATEN JEMBRANA
DEA (Data Encryption Algorithm)
SEARCHING MENU FEATURES IN DIGITAL LIBRARY REFERENSI: 1. 1.__________ Journal Title Searching in Melvyl dari
Bahan Kuliah IF2091 Struktur Diskrit
Graf.
Bahan Kuliah IF2120 Matematika Diskrit Oleh: Rinaldi Munir
PENGANTAR SISTEM INFORMASI NURUL AINA MSP A.
Logika (logic).
USAHA DAN ENERGI ENTER Klik ENTER untuk mulai...
1 Pendahuluan Ir. Waniwatining Astuti, M.T.I Muhammad Rachmadi, S.T., M.T.I.
• Perwakilan BKKBN Provinsi Sulawesi Tengah•
Bahan Kuliah IF2120 Matematika Diskrit
B L O G Joshua Joviando 1. Bagian 2 Membuat Blog di 2.
B L O G Hery Suharso 1.
Basis Data - Udinus Semarang
Pohon (bagian ke 6) Matematika Diskrit.
Pertemuan 8 : Pemasaran E-commerce (2)
PENDAFTARAN TANAH Pendaftaran Tanah (Pasal 1 angka 1 PP No.24 Th 1997)
Pengantar sistem informasi Rahma dhania salamah msp.
di Sistem Temu Balik Informasi (STBI) Syafri Arlis, S.Kom, M.Kom
Pertemuan ke-2 Model dalam sistem temu kembali informasi yasmi afrizal
Information Retrieval
Gambar Kerangka dari sistem temu-kembali informasi sederhana
Temu Balik Informasi Materi Pertemuan Ke – 1 Materi Dasar TBI
METODE DAN MODEL TEMU BALIK INFORMASI Luthfi Nurrohman ( )
Temu Balik Informasi BY : Taufik Ari Arnandan ( )
TEMU BALIK INFORMASI.
SEARCH ENGINE.
Sistem Temu Kembali Informasi Multimedia
Natural Language Processing (NLP)
TEMU BALIK INFORMASI Multimedia Dalam Temu Balik Informasi.
Konsep, Metode dan Model Temu Kembali Informasi
Anggota Kelompok : Kurniawan Novi Pambudi
TEMU BALIK INFORMASI TI 14 A.
TUJUAN (1) Mahasiswa dapat menjelaskan Ilmu Pengolahan Text dan Informasi. (C2) Mahasiswa dapat menjelaskan Model-model Sistem Temu Balik Informasi. (C2)
Review Konsep Dasar IRS/ STI
StopList dan Stemming yasmi afrizal
TEXT OPERATION Muhammad Yusuf Teknik Multimedia dan Jaringan
Pengenalan Temu Balik Informasi.
SEARCH ENGINE.
Transcript presentasi:

Sistem Temu-Balik Pengantar Temu-Balik Informasi Pertemuan ke-2

...akan dibahas • Information Retrieval (IR) Sistem IR Pengantar Temu-Balik Informasi ...akan dibahas • Information Retrieval (IR) Sistem IR Istilah dalam IR IR Berbasis Teks Arsitektur Sistem IR Sejarah IR Area Terkait 2

• Pencarian materi (biasanya dokumen) dari sesuatu Pengantar Temu-Balik Informasi Definisi IR • Pencarian materi (biasanya dokumen) dari sesuatu yang sifatnya tak-terstruktur (unstructured, biasanya teks) untuk memenuhi kebutuhan informasi dari dalam koleksi besar (biasanya disimpan dalam komputer). • Representasi, penyimpanan, organisasi, pencarian dan akses ke item informasi untuk memenuhi kebutuhan informasi pengguna. • Penekanan pada proses retrieval informasi (bukan data). • Karakterisasi kebutuhan informasi tidaklah mudah. Harus ditranslasi ke dalam suatu query terlebih dahulu. 3

• Information retrieval Pengantar Temu-Balik Informasi Motivasi • Data retrieval – Dokumen mana yang mengandung himpunan keyword? – Semantik didefinisikan dengan baik – Error dari suatu obyek mengakibatkan kegagalan! • Information retrieval – Informasi mengenai suatu subyek atau topik – Semantik dapat bersifat lepas (longgar) – Error kecil ditoleransi 4

• IR di tengah pertunjukan Pengantar Temu-Balik Informasi ...Motivasi • IR di tengah pertunjukan – IR dalam 20 tahun terakhir: • Klasifikasi dan kategorisasi • Sistem dan bahasa • Antarmuka pengguna dan visualisasi – Masih, area dilihat sebagai bidang yang sempit – Web mengubah persepsi ini • Repository pengetahuan universal • Akses universal gratis (biaya rendah) • Volume raksasa dari informasi tanpa editorial board terpusat • Meskipun banyak masalah: IR merupakan kunci untuk menemukan solusi! 5

• Menerima query pengguna yang mewakili Pengantar Temu-Balik Informasi Sistem IR • Menerima query pengguna yang mewakili kebutuhan informasi • Mencari dan menginterpretasikan content (isi) dari item-item informasi • Membangkitkan suatu ranking yang mencerminkan relevansi terhadap kebutuhan informasi tersebut • Ide mengenai relevansi adalah sangat penting 6

7

• WWW: lebih 25 milyar halaman web, 1.3 milyar Pengantar Temu-Balik Informasi Kebutuhan IR • WWW: lebih 25 milyar halaman web, 1.3 milyar gambar dan lebih 1 milyar pesan Usenet yang diindeks pada Google (2006) • Berbagai kebutuhan informasi: – Mencari dokumen yang masuk dalam topik tertentu Mencari suatu informasi spesifik Mencari jawaban dari suatu pertanyaan Mencari informasi dalam bahasa berbeda ... 8

Penjualan Software Text Retrieval Pengantar Temu-Balik Informasi Penjualan Software Text Retrieval 9

• Secara teknis: indexing (pembuatan Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Information Retrieval (IR) • Secara teknis: indexing (pembuatan index) dan retrieval (pencarian keterangan) dokumen textual. • Pencarian halaman pada WWW adalah aplikasi paling “ngetop” saat ini • Fokus pertama: meretrieve dokumen- dokumen yang relevan dengan query. • Fokus kedua: meretrieve himpunan besar dokumen secara efisien. 10

• Sistem data retrieval (seperti database) berurusan dengan Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Information vs Data Retrieval • Sistem data retrieval (seperti database) berurusan dengan structured data yang mempunyai semantik terdefinisi dengan baik dan kebutuhan meretrieve hasil yang pasti (exact) • Sistem IR berurusan dengan dokumen bahasa alami (natural language) dan error kecil dapat diabaikan. • Sistem IR harus menginterpretasikan content kemudian meranking daftar content sesuai dengan tingkat relevansinya. • Tujuan: Meretrieve semua dokumen yang relevan sekaligus meretrieve sesedikit mungkin dokumen yang tidak relevan 11

• Diberikan: • Temukan: Tugas IR Dasar Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Tugas IR Dasar • Diberikan: – Suatu corpus dokumen bahasa alami tekstual. – Suatu query pengguna dalam bentuk string • Temukan: – Suatu himpunan dokumen terurut menurun (ranking) yang relevan dengan query tersebut. 12

Sistem IR 13 Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Sistem IR 13

• Conventional (katalog perpustakaan) Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Contoh Sistem IR • Conventional (katalog perpustakaan) Pencarian dengan kata kunci, judul, penulis, dll. • Text-based (Google, Yahoo, ASK). Pencarian dengan kata kunci (keyword). Pencarian terbatas menggunakan query dalam bahasa alami. • Multimedia (QBIC, WebSeek, SaFe) Pencarian dengan penampilan visual (bentuk, warna,…) • Sistem jawaban pertanyaan (AskJeeves, Answerbus) Pencarian dalam bahasa alami (terbatas) • Lainnya: IR lintas-bahasa, music retrieval 14

• Pencarian halaman web http://www.google.com Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Sistem IR di Web • Pencarian halaman web http://www.google.com • Pencarian gambar http://images.google.com • Pencarian isi (content) gambar http://wang.ist.psu.edu/IMAGE/ • Pencarian jawaban pertanyaan http://www.askjeeves.com • Pencarian musik? Hari-hati, jangan melanggar hukum. 15

• Relevansi merupakan suatu judgment Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Relevansi • Relevansi merupakan suatu judgment (keputusan) subyektif dan dapat didasarkan pada: – topik yang tepat. waktu (informasi terbaru). otoritatif (dari suatu sumber terpercaya). kebutuhan informasi dari pengguna. • Kriteria relevansi utama: suatu sistem IR sebaiknya (harus) memenuhi kebutuhan informasi pengguna. 16

• Ide paling sederhana dari relevansi: Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Pencarian Keyword • Ide paling sederhana dari relevansi: apakah string query ada di dalam dokumen (kata demi kata, verbatim)? • Ide yang lebih fleksibel: Berapa sering kata-kata di dalam query muncul di dalam dokumen, tanpa melihat urutannya (bag of words)? 17

• Mungkin tidak meretrieve dokumen relevan yang Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Masalah dengan Keyword • Mungkin tidak meretrieve dokumen relevan yang menyertakan synonymous terms. – “restaurant” vs. “café” – “NDHU” vs. “National Dong Hwa University” • Mungkin meretrieve dokumen tak-relevan yang menyertakan ambiguous terms. – “bat” (baseball vs. mamalia) – “Apple” (perusahaan vs. buah-buahan) – “bit” (unit data vs. perilaku menggigit) 18

• Kita akan mendiskusikan dasar-dasar IR Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Bukan Sekedar Keyword • Kita akan mendiskusikan dasar-dasar IR berbasis keyword, tetapi… – Fokus pada perluasan dan pengembangan terakhir untuk mendapatkan hasil terbaik. • Kita akan membahas dasar-dasar pembangunan sistem IR yang efisien, tetapi… – Fokus pada algoritma dan kemampuan dasar, bukan masalah sistem yang memungkinkan pengembangan ke database ukuran industri. 19

• Memanfaatkan pengertian atau makna dari kata Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi IR Cerdas • Memanfaatkan pengertian atau makna dari kata yang digunakan. • Melibatkan urutan kata di dalam query. • Beradaptasi dengan pengguna berdasarkan pada feedback, langsung atau tidak langsung. • Memperluas pencarian dengan term terkait. • Mengerjakan pemeriksaan ejaaan/perbaikan tanda pengenal otomatis. • Memanfaatkan Otoritas dari sumber informasi. 20

• Sistem IR jarang mencari koleksi dokumen Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Indeks • Sistem IR jarang mencari koleksi dokumen secara langsung. Berdasarkan pada koleksi dokumen, dibangun sebuah index. Pengguna mencari index tersebut. 21

• Tujuan dari automatic indexing adalah Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Indexing Otomatis • Tujuan dari automatic indexing adalah membangun index dan meretrieve informasi tanpa intervensi manusia. • Ketika informasi yang dicari adalah teks, metode automatic indexing akan sangat efektif. • Penelitian automatic indexing fundamental dimulai oleh Gerald Salton, Professor of Computer Science di Cornell & mahasiswa Pasca-Sarjananya (Sistem SMART). 22

• Information retrieval dari koleksi sangat besar Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi IR dari Koleksi Besar • Information retrieval dari koleksi sangat besar bersandar pada: – Jumlah computer power yang besar untuk mengerjakan algoritma sederhana terhadap jumlah data yang sangat banyak. komputasi kinerja-tinggi – Pemahaman pengguna terhadap informasi dan kemampuan dari sistem. Interaksi manusia - komputer • Machine-learning banyak digunakan untuk mendapatkan kinerja terbaik. 23

• Orang dalam perulangan Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Searching & Browsing • Orang dalam perulangan 24

• Kategori utama dari metode: Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi IR dari Koleksi Dokumen Teks • Kategori utama dari metode: – Ranking kemiripan terhadap query (vector space model). – Pencocokan exact (Boolean). – Ranking berdasarkan tingkat kepentingan dokumen (PageRank) – Kombinasi beberapa metode • Contoh: Web search engine, seperti Google & Yahoo, menggunakan metode kombinasi, berdasarkan pada pendekatan pertama dan ketiga, dengan kombinasi exact dipilih menggunakan machine learning. 25

• Information retrieval: sub-bidang ilmu Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Istilah Penting • Information retrieval: sub-bidang ilmu komputer yang berurusan dengan penemuan kembali dokumen (khususnya teks) terotomasi berdasarkan pada content dan contextnya. • Searching: Pencarian informasi spesifik di dalam badan informasi. Hasilnya adalah sehimpunan hit. • Browsing: Eksplorasi tak-terstruktur dari badan informasi. • Linking: Berpindah dari satu item ke item lain mengikuti link (sambungan) seperti rujukan (referensi). 26

• Query: Suatu string teks, menggambarkan Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi ...Istilah • Query: Suatu string teks, menggambarkan informasi yang sedang dicari pengguna. Setiap kata dari query dinamakan search term. • Query dapat berupa search term tunggal, string dari term, frase atau ekspresi tertentu menggunakan simbol khusus, misalnya regular expression. • Pencarian Full text: Metode yang membandingkan query dengan setiap kata di dalam teks, tanpa membedakan fungsi dari berbagai kata. • Pencarian Bidang : Metode pencarian pada bidang struktural atau bibliografis spesifik, seperti penulis atau judul. 27

• Corpus: Koleksi dokumen yang diindeks dan Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi ...Istilah • Corpus: Koleksi dokumen yang diindeks dan dijadikan target pencarian. • Daftar kata: Himpunan semua term yang digunakan dalam indeks untuk suatu corpus (dikenal sebagai vocabulary file). • Pada pencarian full text, word list adalah semua term di dalam corpus, stop words dihapus. Term- term terkait dikombinasi dengan stemming. • Controlled vocabulary: Metode indexing dimana word list bersifat tetap. Term-term dari vocabulary tersebut dipilih untuk mendeskripsikan setiap dokumen. • Keyword: Nama untuk term-term dalam word list, terutama dengan controlled vocabulary. 28

• Ketika pengguna men-submit suatu query ke Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Mengurutan & Ranking Hit • Ketika pengguna men-submit suatu query ke sistem IR, sistem mengembalikan sehimpunan hit. Pada koleksi dokumen besar, himpunan hit akan sangat besar. • Nilai untuk pengguna sering tergantung pada urutan hit ditampilkan. • Tiga metode utama: – Mengurutkan hit, misal berdasarkan tanggal – Meranking hit berdasarkan kemiripan antara query dan dokumen – Meranking hit berdasarkan kepentingan dari dokumen 29

• Sebagian besar metode ranking didasarkan pada model Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi IR Berbasis Teks • Sebagian besar metode ranking didasarkan pada model ruang vektor (vector space model). • Sebagian besar metode pencocokan (matching) didasarkan ada operator Boolean. • Metode Web search mengkombinasikan model ruang vektor dengan ranking berdasarkan pada tingkat kepentingan dokumen. • Banyak sistem (dalam praktek) menggabungkan fitur- fitur dari beberapa pendekatan. • Pada bentuk dasar, semua pendekatan menganggap kata sebagai token terpisah, dengan usaha minimal untuk memahami kata-kata secara linguistik. 30

• Observasi: Beberapa kata lebih umum Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Frekuensi Kata • Observasi: Beberapa kata lebih umum daripada yang lain. • Statistika: Koleksi sangat besar dari dokumen teks tak-terstruktur mempunyai karakteristik statistik serupa. Statistik ini: – Mempengaruhi efektifitas dan efisiensi dari struktur data yang digunakan untuk mengindeks dokumen – Banyak model retrieval memanfaatkannya. 31

• Contoh: Contoh berikut ini diambil dari : Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi ...Frekuensi Kata • Contoh: Contoh berikut ini diambil dari : – Jamie Callan, Characteristics of Text, 1997 – 19 Juta kata sampel – Slide berikut memperlihatkan 50 kata yang paling umum, diranking (r) berdasarkan frekuensinya (f). 32

...Frekuensi Kata 33 Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi ...Frekuensi Kata 33

• Untuk semua kata di dalam suatu dokumen, Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Distribusi Ranking Frekuensi • Untuk semua kata di dalam suatu dokumen, untuk setiap kata w – f adalah frekuensi munculnya w – r ranking dari w disusun menurut frekuensi. (kata yang paling umum muncul mempunyai rank =1) 34

• Slide berikut memperlihatkan kata-kata di Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Contoh Frekuensi Rank • Slide berikut memperlihatkan kata-kata di dalam data Callan yang telah dinormali- sasi. Dalam contoh ini: – r adalah ranking dari kata w dalam sampel. – f adalah frekuensi kata w di dalam sampel. – n adalah jumlah total kemunculan kata di dalam sampel. 35

...Contoh Ranking Frekuensi Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi ...Contoh Ranking Frekuensi 36

• Jika kata-kata di dalam suatu koleksi Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Hukum Zipf • Jika kata-kata di dalam suatu koleksi diranking, r, berdasarkan frekuensinya, f, maka memenuhi relasi: r × (f/n) = c dimana n adalah jumlah kemunculan kata di dalam koleksi, 19 juta dalam contoh. • Koleksi berbeda mempunyai konstanta c berbeda. • Dalam teks bahasa Inggris, c sekitar 0.1. 37

• Stop lists: Abaikan kata-kata yang sangat Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Metode pada Hukum Zipf • Stop lists: Abaikan kata-kata yang sangat sering (upper cut-off). Digunakan oleh hampir semua sistem. • Significant words: Abaikan kata yang paling sering dan paling sedikit (upper and lower cut- off). Jarang digunakan. • Term weighting: Berikan bobot berbeda untuk term-term berdasarkan pada frekuensinya, kata- kata yang paling sering dibobot kurang. Digunakan oleh hampir semua metode perankingan. 38

• Representasi dokumen dipandang Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Pandangan Logik Dokumen • Representasi dokumen dipandang sebagai suatu continuum (rangkaian kesatuan). 39

Arsitektur Sistem IR 40 Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Arsitektur Sistem IR 40

Arsitektur IR: Contoh 41 Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Arsitektur IR: Contoh 41

• Operasi Teks membentuk kata-kata indeks Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Komponen Sistem IR • Operasi Teks membentuk kata-kata indeks (token) – Tokenization (pemisahan kata) – Penghapusan Stopword (seperti ‘the’, ‘of’, …) – Stemming (mengubah kata-kata berbeda ke bentuk akarnya) • Indexing membangun suatu inverted index dari kata ke penunjuk dokumen. – Pemetaan dari kata kunci ke Id dokumen. 42

• Searching meretrieve dokumen-dokumen yang Pengantar Temu-Balik Informasi ...Komponen Sistem IR • Searching meretrieve dokumen-dokumen yang mengandung token query yang diberikan dari inverted index. • Ranking memberikan score kepada semua dokumen yang diretrieve sesuai dengan relevance metric. • User Interface menangani interaksi dengan pengguna: – Input query dan output dokumen. – Feedback relevansi – Visualisasi hasil. 43

• Operasi Query mentransformasi query untuk Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi ...Komponen Sistem IR • Operasi Query mentransformasi query untuk meningkatkan retrieval: – Query expansion menggunakan thesaurus. – Query transformation menggunakan feedback relevansi. – Optimisasi query untuk meningkatkan kinerja. (kurang penting daripada dalam sistem data retrieval) • Pertanyaan: bagaimana menambahkan suatu komponen personalisasi ke sistem IR? 44

• Aplikasi IR terhadap dokumen pada WWW • Perbedaan: Pengantar Temu-Balik Informasi Pencarian Web • Aplikasi IR terhadap dokumen pada WWW • Perbedaan: – Ukuran – lebih dari 25 milyar dokumen diindeks pada Google, terus bertambah – Perubahan dokumen tidak dapat dikendalikan. – Harus menghimpun corpus dokumen dengan menjaring (spidering) web. – Dapat mengeksploitasi informasi layout struktural dalam HTML (XML). – Dapat mengeksploitasi struktur link dari web. 45

Sistem Pencarian Web 46 Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Sistem Pencarian Web 46

Tugas lain terkait IR • Kategorisasi dokumen otomatis Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Tugas lain terkait IR • Kategorisasi dokumen otomatis Penyaringan informasi (spam filtering) Perutean (routing) informasi Clustering dokumen otomatis Merekomendasikan informasi atau produk Ekstraksi informasi Integrasi informasi Jawaban pertanyaan ... 47

Timeline Sistem IR 48 Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Timeline Sistem IR 48

Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Sejarah IR • 1960-70-an: – Eksplorasi awal dari sistem text retrieval untuk corpora abstrak ilmiah “kecil”, dan dokumen hukum dan bisnis. – Pengembangan model retrieval dasar Boolean dan ruang vektor. – Prof. Salton dan mahasiswanya di Cornell University mengawali penelitian di bidang ini. 49

• 1980-an: ...Sejarah IR – Sistem database dokumen besar, banyak Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi ...Sejarah IR • 1980-an: – Sistem database dokumen besar, banyak dijalankan oleh perusahaan: • LexisNexis – arsip yang dapat dicari (searchable) dari content surat kabar, majalah, dokumen legal (hukum) dan sumber tercetak lain. • Dialog • MEDLINE 50

• 1990-an: ...Sejarah IR – Pencarian dokumen FTPable di Internet Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi ...Sejarah IR • 1990-an: – Pencarian dokumen FTPable di Internet • Archie • WAIS (Wide Area Information System) – Pencarian World Wide Web • Lycos • Yahoo • Altavista 51

• 1990-an (lanjutan): ...Sejarah IR – Kompetisi Terorganisir Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi ...Sejarah IR • 1990-an (lanjutan): – Kompetisi Terorganisir • NIST(National Institute of Standards and Technology) TREC(Text REtrieval Conference) dimulai tahun 1992 – Sistem rekomendasi • Ringo (musik) • Amazon (buku) • NetPerceptions (collaborative filtering) – Katagorisasi dan clustering teks otomatis 52

• 2000-an Sejarah IR Terakhir – Analisis link untuk pencarian web Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Sejarah IR Terakhir • 2000-an – Analisis link untuk pencarian web • Google – Ekstraksi informasi otomatis • Whizbang • Fetch • Burning Glass – Jawaban pertanyaan • TREC Q/A track 53

• 2000-an (lanjutan): ...Sejarah IR Terkini – IR Multimedia • Image Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi ...Sejarah IR Terkini • 2000-an (lanjutan): – IR Multimedia • Image • Audio dan musik • Video – IR lintas-bahasa • DARPA TIDES(Translingual Information Detection, Extraction and Summarization) – Perangkuman dokumen 54

Area Terkait • Manajemen Basis Data Ilmu Perpustakaan dan Informasi Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Area Terkait • Manajemen Basis Data Ilmu Perpustakaan dan Informasi Kecerdasan Buatan Pemrosesan bahasa alamai Pembelajaran Mesin 55

• Fokus pada data terstruktur yang disimpan Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Manajemen Basis Data • Fokus pada data terstruktur yang disimpan dalam tabel-tabel relasional, bukan teks bentuk bebas. • Fokus pada pemrosesan yang efisien dari query yang terdefinisi baik dalam suatu bahasa formal (SQL). • Semantik lebih jelas bagi data dan query. • Terkini: bergerak ke data semi-structured (XML) membawa ini lebih dekat ke IR. 56

• Fokus pada apsek pengguna manusia dari Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Ilmu Perpustakaan & Informasi • Fokus pada apsek pengguna manusia dari information retrieval (interaksi manusia- komputer, antarmuka pengguna, visualisasi). • Berurusan dengan efektifitas katagorisasi dari pengetahuan manusia. • Terkait dengan analisis kutipan (citation) dan bibliometrics (struktur informasi). • Terkini: kerja pada pustaka digital membawa bidang ini dengan ke Ilmu Komputer dan IR. 57

• Fokus pada representasi pengetahuan, Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Kecerdasan Buatan • Fokus pada representasi pengetahuan, penalaran (reasoning) dan tindakan cerdas. • Formalisasi representasi pengetahuan dan query: – First-order Predicate Logic – Bayesian Networks – ... • Terkini: Kerja pada web ontology & agent informasi cerdas membawa AI dekat ke IR. 58

• Natural Language Processing (NLP) Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Pemrosesan Bahasa Alami • Natural Language Processing (NLP) • Difokuskan pada analisis sintaktis, semantik, dan pragmatis dari teks dan percakapan bahasa alami. • Kemampuan untuk menganalisa sintaks (struktur fase) dan semantik memungkinkan retrieval berdasarkan pada pengertian (makna) daripada keyword. • Semua sistem IR membutuhkan berbagai derajat NLP. 59

• Metode untuk menentukan makna dari Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi NLP: Arah IR • Metode untuk menentukan makna dari kata yang ambigu berdasarkan pada context (word sense disambiguation). • Metode untuk mengidentifikasi potongan spesifik dari informasi dalam suatu dokumen (information extraction). • Metode untuk menjawab pertanyaan NL spesifik dari document corpora. 60

Pembelajaran Mesin (Machine Learning) Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Pembelajaran Mesin (Machine Learning) • Fokus pada pengembangan sistem komputasional yang meningkatkan kinerjanya dengan pengalaman (pembelajaran). • Klasifikasi contoh secara otomatis berdasarkan pada konsep pembelajaran dari contoh training yang diberi label (supervised learning). • Metode otomatis untuk meng-cluster contoh- contoh tak-berlabel dalam kelompok yang sesuai arti (unsupervised learning). 61

• Text Categorization (pengelompokan teks) Pengantar Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Machine Learning: Arah IR • Text Categorization (pengelompokan teks) – Klasifikasi hirarki otomatis (Yahoo). – Rekomendasi, penyaringan, routing adaptif. – Penyaringan spam terotomasi. • Text Clustering – Clustering dari hasil query IR. – Formasi hirarki otomatis (Yahoo). • Pembelajaran pada ekstraksi informasi • Text Mining • Web Mining 62