Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

Model Temu-Balik InformasiPertemuan ke-3 Sistem Temu-Balik Informasi.

Presentasi serupa


Presentasi berjudul: "Model Temu-Balik InformasiPertemuan ke-3 Sistem Temu-Balik Informasi."— Transcript presentasi:

1 Model Temu-Balik InformasiPertemuan ke-3 Sistem Temu-Balik Informasi

2 Model Information Retrieval Suatu model retrieval menentukan detail dari : – Representasi dokumen – Representasi query – Mekanisme retrieval Menetapkan suatu gagasan relevansi. Gagasan relevansi dapat berupa binary atau continuous (yaitu retrieval teranking). 2 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

3 3 term indeks yang dipilih Term Indeks Sistem IR biasanya menggunakan term indeks (index term) untuk memroses query. Index term: – suatu keyword atau kelompok kata terpilih – suatu kata (lebih umum) Stemming dapat diterapkan: – connect: connecting, connection, connections Suatu inverted file dibangun untuk term- Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

4 IR & Term Indeks 4 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

5 Pencocokan Term Indeks Pencocokan pada level index term sangat tidak tepat Tidak heran mengapa pengguna sering tidak terpuaskan Karena kebanyakan pengguna tidak belajar mengenai formasi query, bahkan bisa lebih buruk Ketidakpuasan dari pengguna web Masalah penentuan relevansi merupakan kritik bagi sistem IR: ranking 5 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

6 6 ke suatu model IR tertentu. Ranking Ranking adalah pengurutan dokumen-dokumen yang diterima yang (sangat diharapkan) mencerminkan relevansi dari dokumen tersebut dengan query pengguna Ranking didasarkan pada pemikiran fundamental mengenai relevansi, seperti: – Himpunan index term – Pemakaian term-term terbobot – Kemungkinan relevansi Setiap himpunan dari pemikiran mengarahkan Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

7 Ikhtisar Model IR 7 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

8 Model Klasik Model Boolean (set theoretic) – Representasi: himpunan index term – Model alternatif : Fuzzy, Extended Boolean Model Ruang Vektor (algebraic) – Representasi: vector dalam ruang t-dimensi – Model alternatif: Generalized VS, Latent Semantic Indexing, Neural network Model Probabilistik (probabilistic) – Berpijak pada teori peluang – Model alternatif: Inference network, Belief network 8 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

9 9 struktur dokumen Model Terstruktur Memungkinkan referensi ke struktur yang terdapat di dalam teks Model Non-overlapping lists – Membagi teks ke dalam regional teks non- overlapping yang dihimpun dalam lists (list of chapters, list of all sections, …) Model Proximal nodes – Mengatur list non-overlapping ke dalam suatu hirarki Text retrieval terstruktur menggabungkan informasi pada isi teks dengan informasi pada Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

10 Model Browsing Model IR berdasarkan pada tugas browsing pengguna – Model Flat (tanpa struktur) – Model structure guided (seperti direktori Yahoo) – Model Hypertext (seperti navigasi halaman web) 10 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

11 Dimensi Model Lain Pandangan logik dari dokumen – Index term – Full text – Full text + Structure (misal: hypertext) Tugas Pengguna – Retrieval – Browsing 11 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

12 Model IR Model IR, pandangan logik dokumen dan tugas retrieval merupakan aspek berbeda dari sistem 12 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

13 Retrieval: Ad Hoc vs Filtering Ad hoc retrieval: Corpus dokumen tetap, query bervariasi. Filtering: Query tetap, aliran dokumen kontinu. – User Profile: Model preferensi yang relatif statis. – Keputusan biner dari relevant/not-relevant. Routing: Sama deng as filterinn filtering tetapi secara berkelanjutan menyediakan list teranking bukan filtering biner. 13 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

14 Retrieval: Ad Hoc vs Filtering Ad hoc retrieval: 14 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

15 Retrieval: Ad Hoc vs Filtering Filtering 15 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

16 16 dokumen yang memuat keyword tersebut). Preprocessing Potong karakter atau markup yang tak-diinginkan (misal: tag HTML, tanda baca, bilangan). Pecahkan ke dalam token-token (keyword) berdasarkan whitespace. Ubah token ke kata “root” (akar kata, stem) – computational  compute Hilangkan stopword umum (misal: a, the, it). Deteksi frase umum (mungkin menggunakan kamus khusus domain). Bangun inverted index (daftar keyword dari Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

17 Model Boolean Dokumen direpresentasikan sebagai suatu himpunan dari keyword. Query merupakan ekspresi boolean dari keyword, terhubung dengan AND, OR, dan NOT, termasuk menggunakan kurung siku untuk menandakan cakupan. – [ [Rio & Brazil] | [Hilo & Hawaii] ] & hotel & !Hilton ] Output: Dokumen relevan atau tidak. Tidak ada pencocokan parsial atau ranking. 17 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

18 Diagram Boolean 18 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

19 Operator Adjacent & Near abacus adj actor Term abacus & actor adalah terkait satu dengan lainnya, misal: "abacus actor" abacus near 4 actor Term abacus & actor dalam 4 kata dari satu dengan lainnya, misal: "the actor has an abacus" Beberapa sistem mendukung operator lain, seperti with (dua term dalam kalimat sama) atau same (dua term dalam paragraf sama). 19 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

20 Query Boolean Query boolean: dua atau lebih term pencarian, dihubungkan dengan operator boolean Contoh: abacus AND actor abacus OR actor (abacus AND actor) OR (abacus AND atoll) NOT actor 20 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

21 adj, near and, not or tinggi rendah Contoh: A and B or C and B dievaluasi sebagai (A and B) or (C and B) 21 Evaluasi Operator Boolean Precedence dari operator harus didefinisikan: Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

22 Model Retrieval Boolean Model retrieval yang populer karena: – Mudah memahami query sederhana – Bersih dari “formalisme” Model boolean dapat diextend untuk menyertakan ranking. Implementasi efisien layak mungkin bagi query normal. 22 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

23 Model Boolean - Masalah Terlalu kaku: AND berarti semua; OR berarti ada (bukan pencocokan parsial). Sulit mengekspresikan permintaan pengguna yang kompleks. Query diformulasikan oleh pengguna kebanyakan terlalu sederhana Sulit mengontrol jumlah dokumen yang diretrieve. – Semua dokumen yang cocok akan dikembalikan. Sulit meranking output. – Semua dokumen yang cocok secara logis memenuhi query. Sulit mengerjakan relevance feedback. – Jika suatu dokumen diidentifikasi oleh pengguna sebagai relevan atau tak-relevan, bagaimana query dimodifikasi? Sering mengembalikan terlalu sedikit atau terlalu banyak 23 dokumen sebagai respon thdp query pengguna Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

24 Model Statistik Dokumen biasanya diwakilkan oleh bag of words (kata-kata dengan frekuensi, tak-terurut). Bag = himpunan yang memungkinkan banyak kemunculan dari elemen yang sama. Pengguna menentukan himpunan term yang diinginkan dengan bobot (weight) opsional: – Term query terbobot: Q = – Term query tak-terbobot: Q = – Tidak ada kondisi boolean ditetapkan dalam query. 24 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

25 Retrieval Statistik Retrieval didasarkan pada similarity (kemiripan) antara query dan dokumen. Dokumen output diranking sesuai dengan kemiripan terhadap query. Similarity didasarkan pada frekuensi kemunculan dari kata kunci (keyword) dalam query dan dokumen. Mendukung Relevance feedback otomatis: – Dokumen relevan “ditambahkan” ke query. – Dokumen tak-relevan “dihilangkan” dari query. 25 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

26 26 informasi format, dll? Isu pada Retrieval Statistik Bagaimana menentukan kepentingan kata dalam suatu dokumen? – Pengertian kata? – Kata n-gram (dan frase, idiom,…)  term Bagaimana menentukan derajat kepentingan dari suatu term di dalam dokumen dan di dalam koleksi keseluruhan? Bagaimana menentukan derajat kemiripan antara dokumen dan query? Pada web, apa itu koleksi & apa efek dari link, Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

27 Model Ruang Vektor Setelah preprocessing diperoleh t term berbeda; dinamakan index term atau vocabulary. Term ini membentuk suatu ruang vector. Dimensi = t = |vocabulary| Setiap term, i, di dalam dokumen atau query, j, diberikan suatu nilai real weight, w ij Dokumen dan query diekspresikan sebagai vektor t-dimensi: d j = (w 1j, w 2j, …, w tj ) Definisikan fungsi bobot g i (d j ) = w ij 27 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

28 Graphic Representation 28 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

29 Koleksi Dokumen Koleksi n dokumen dapat direpresentasikan dalam model ruang vektor dengan suatu matriks term- document. Entri di dalam matriks bersesuaian dengan “bobot” dari term di dalam dokumen; nol berarti term tidak berpengaruh atau tidak hadir di dalam dokumen. 29 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

30 Contoh Terdapat 3 dokumen berikut: 30 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

31 Pembobotan Biner Bobot (weight): t ij = 1 jika dokumen i mengandung term j dan nol jika tidak 31 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

32 Ruang Vektor dengan Bobot Ruang vektor Term Ruang n-dimensi, dimana n adalah jumlah term berbeda yang digunakan untuk meng-indeks himpunan dokumen (yaitu ukuran dari daftar kata). Vector Dokumen j direpresentasikan dengan vektor kolom. Besarnya dalam dimensi i adalah t ij, dimana: t ij > 0 jika term i muncul dalam dokumen j t ij = 0 jika tidak t ij adalah bobot dari term i dalam dokumen j. 32 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

33 Matriks Jarang Ruang vektor term merupakan matriks sangat jarang. Inverted file adalah cara efisien untuk merepresentasikan suatu ruang vektor term. Juga menyediakan metode mudah untuk menyimpan data tambahan. Kebanyakan metode penyimpanan matriks jarang dirancang untuk pemrosesan baris atau kolom. Inverted file dikelola untuk pemrosesan baris, yaitu semua informasi mengenai suatu term yang diberikan disimpan bersama. 33 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

34 34 hasil. Inverted File Inverted file merupakan daftar term pencarian yang diatur untuk associative look-up, untuk menjawab pertanyaan: – Dalam dokumen mana term pencarian tertentu hadir? – Dimana dalam setiap dokumen setiap term hadir? (mungkin beberapa kemunculan) Dalam sistem pencarian teks bebas, daftar kata dan file posting bersama-sama menyediakan suatu sistem inverted file. Juga mengandung data yang diperlukan untuk menghitung bobot dan informasi yang digunakan untuk menampilkan Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

35 Inverted File - Definisi Daftar kata adalah daftar semua term berbeda dalam corpus setelah menghilangkan stop words & stemming. Kadang disebut pula vocabulary file. 35 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

36 36 dalam matriks vektor term Inverted File - Definisi Posting: Entri di dalam sistem inverted file yang mewakili instance term dari dalam suatu dokumen, misal: ada 3 posting untuk "abacus": "abacus" dalam dokumen 3 Inverted List: Daftar semua posting dalam sistem inverted file yang menunjukkan kata tertentu, misal: "abacus" dalam dokumen 3, 19 & 22 Ini merupakan representasi sparse dari suatu baris Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

37 Inverted File & Query Boolean Contoh: abacus and actor Posting abacus Posting actor Hanya dokumen 19 yang mengandung term "abacus" dan "actor". 37 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

38 38 – Optimisasi pemrosesan query Peningkatan Inverted File Lokasi: Setiap posting memegang informasi mengenai lokasi dari setiap term di dalam dokumen. Penggunaan – Rancangan antarmuka pengguna - highlight lokasi dari term pencarian operator adjacency dan near (dalam pencarian boolean) Frekuensi: Setiap inverted list menyertakan jumlah posting dari setiap term. Penggunaan – Pembobotan term Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

39 Peningkatan Inverted File 39 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

40 Evaluasi Operasi Adjacency Contoh: abacus adj actor Dokumen 19, lokasi 63 dan 64, lokasi munculnya term "abacus" dan "actor" adjacent. 40 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

41 Pencocokan Query (Boolean) Query: (abacus or asp*) and actor 1. Dari file index (daftar kata), temukan file posting: "abacus" setiap kata yang diawali "asp" "actor" 2. Gabungkan posting list ini. Untuk setiap dokumen yang muncul dalam postings list, evaluasi ekspresi Boolean untuk melihat apakah true atau false. Langkah 2 sebaiknya diselesaikan dalam satu langkah 41 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

42 Posting File & Pencocokan Query 42 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

43 Kemiripan & Ranking Metode yang didiskusikan sejauh ini hanya menangani query boolean Dapatkah kita mengidentifikasi dokumen berdasarkan pada kemiripan? Bagaimana kita meranking hasil pencarian? 43 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

44 Revisi Ruang Vektor x = (x 1, x2,..., x n) adalah vektor dalam ruang vektor n-dimensi Panjang dari x diberikan oleh: |x| 2 = x 12 + x 22 + x x n2 Jika x 1 dan x 2 merupakan vektor: Inner product (atau dot product): x 1.x 2 = x 11 x 21 + x 12 x 22 + x 13 x x 1n x 2n Cosinus sudut antara vektor x 1 dan x 2 : 44 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

45 Kemiripan (Tanda Bobot) Seberapa mirip dokumen-dokumen berikut? 45 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

46 Ruang Vektor Term t ij = 1 jika term i dalam dokumen j dan nol jika tidak 46 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

47 Contoh: Perbandingan Dokumen 47 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

48 Kemiripan Query & Dokumen (Vektor 3-Dimensi) 48 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

49 Kemiripan Query & Dokumen 49 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

50 Matriks Munculnya Term 50 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

51 Hitung Ranking Kemiripan query terhadap dokumen dalam contoh: Jika query q dicarikan terhadap himpunan dokumen ini, hasil teranking adalah d2, d1, d3 51 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

52 Kemiripan Vektor dalam IR? Ranking untuk setiap query q, kembalikan n dokumen paling mirip yang diranking sesuai kemiripannya. [Ini merupakan praktis standard] 52 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

53 Pembobotan Term Ukuran kemiripan perlu ditingkatkan: (a) Apakah term umum atau tak-biasa (b) Berapa kali setiap term muncul dalam suatu dokumen (c) Panjang dari dokumen (d) Tempat dalam dokumen dimana term term muncul (e) Term-term yang adjacent satu dengan lainnya (frase) 53 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

54 Bobot Term: Term Frequency Makin sering term dalam dokumen maka makin penting, makin menunjukkan topik. f ij = frekuensi term i dalam dokumen j Term frequency (tf) ini dapat dinormalisasi terhadap corpus lengkap tf ij = f ij / max{f ij } dimana max adalah terhadap semua term dalam dokumen j 54 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

55 Bobot Term: Inverse Document frequency Term-term yang munvul dalam banyak dokumen berbeda kurang menunjukkan topik keseluruhan. df i = frekuensi dokumen dari term i = jumlah dokumen yang mengandung term i idf i = inverse document frequency dari term i, = log2 (N / df i) (N: jumlah total dari dokumen) Indikasi dari kekuatan diskriminasi term. Log digunakan untuk memperkecil efek relatif terhadap tf. 55 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

56 Pembobotan TF-IDF Bobot yang OK harus diambil, karena: – Hitungan isi intra-document (kemiripan) Faktor tf, term frequency dalam suatu dokumen – Hitungan inter-documents berbeda (ketidakmiripan) Faktor idf, inverse document frequency Indikator kepentingan term kombinasi adalah pembobotan tf-idf : w ij = tf ij idf i = tf ij log 2 (N / df i ) 56 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

57 Pembobotan TF-IDF Suatu term sering muncul dalam dokumen tetapi jarang dalam sisa koleksi diberikan bobot tinggi. Banyak cara lain menentukan bobot term diusulkan. Pada eksperiment, tf-idf berkeja dengan baik. 57 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

58 Menghitung TF-IDF Diberikan suatu dokumen mengandung term dengan frekuensi: A(3), B(2), C(1) Misal: koleksi memuat 10,000 dokumen dan frekuensi dokumen dari term-term ini adalah A(50), B(1300), C(250) Maka: A: tf = 3/3; idf = log(10000/50) = 5.3; tf-idf = 5.3 B: tf = 2/3; idf = log(10000/1300) = 2.0; tf-idf = 1.3 C: tf = 1/3; idf = log(10000/250) = 3.7; tf-idf = Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

59 Menghitung TF-IDF 59 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

60 Menghitung TF-IDF 60 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer

61 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer


Download ppt "Model Temu-Balik InformasiPertemuan ke-3 Sistem Temu-Balik Informasi."

Presentasi serupa


Iklan oleh Google