Model Temu-Balik Informasi

Slides:



Advertisements
Presentasi serupa
UKURAN NILAI PUSAT UKURAN NILAI PUSAT ADALAH UKURAN YG DAPAT MEWAKILI DATA SECARA KESELURUHAN JENIS UKURAN NILAI PUSAT : MEAN , MEDIAN, MODUS KUARTIL,
Advertisements

Teori Graf.
Pemrograman Terstruktur
Selamat Datang Dalam Kuliah Terbuka Ini
START.
Menunjukkan berbagai peralatan TIK melalui gambar
Tugas Praktikum 1 Dani Firdaus  1,12,23,34 Amanda  2,13,24,35 Dede  3,14,25,36 Gregorius  4,15,26,37 Mirza  5,16,27,38 M. Ari  6,17,28,39 Mughni.
Input/Output.
Tugas: Perangkat Keras Komputer Versi:1.0.0 Materi: Installing Windows 98 Penyaji: Zulkarnaen NS 1.

DETERMINAN MATRIKS Esti Prastikaningsih.
1suhardjono waktu 1Keterkatian PKB dengan Karya Inovatif, Macam dan Angka Kredit Karya Inovatif (buku 4 halaman ) 3 Jp 3Menilai Karya Inovatif.
GELOMBANG MEKANIK Transversal Longitudinal.
Praktikum Sistem Temu Balik Informasi
BAB 2 PENERAPAN HUKUM I PADA SISTEM TERTUTUP.
MATRIKS Trihastuti Agustinah.
Bab 6B Distribusi Probabilitas Pensampelan
WEEK 6 Teknik Elektro – UIN SGD Bandung PERULANGAN - LOOPING.
WORKSHOP INTERNAL SIM BOK
HITUNG INTEGRAL INTEGRAL TAK TENTU.
UKURAN PENYEBARAN DATA
Integrasi Numerik (Bag. 2)
Selamat Datang Dalam Kuliah Terbuka Ini
Rabu 23 Maret 2011Matematika Teknik 2 Pu Barisan Barisan Tak Hingga Kekonvergenan barisan tak hingga Sifat – sifat barisan Barisan Monoton.
StopList dan Stemming yasmi afrizal
: : Sisa Waktu.
PENGANTAR SISTEM INFORMASI NURUL AINA MSP A.
Luas Daerah ( Integral ).
PEMINDAHAN HAK DENGAN INBRENG
Fungsi Invers, Eksponensial, Logaritma, dan Trigonometri
Pemrograman Terstruktur
EKUIVALENSI LOGIKA PERTEMUAN KE-7 OLEH: SUHARMAWAN, S.Pd., S.Kom.
Turunan Numerik Bahan Kuliah IF4058 Topik Khusus Informatika I
Selamat Datang Dalam Kuliah Terbuka Ini
NERACA LAJUR DAN JURNAL PENUTUP
Peluang.
Dr. Wahyu Eko Widiharso, SpOT, (K) Spine
AREAL PARKIR PEMERINTAH KABUPATEN JEMBRANA
PENGUJIAN HIPOTESA Probo Hardini stapro.
DEA (Data Encryption Algorithm)
Bahan Kuliah IF2091 Struktur Diskrit
Algoritma Branch and Bound
Bahan Kuliah IF2120 Matematika Diskrit Oleh: Rinaldi Munir
PENGANTAR SISTEM INFORMASI NURUL AINA MSP A.
SISTEM PERSAMAAN LINIER
Logika (logic).
USAHA DAN ENERGI ENTER Klik ENTER untuk mulai...
Ranked Retrieval Pencarian Boolean Menghasilkan sekumpulan dokumen yang cocok dengan query, yang tidak cocok tidak muncul Pada kasus.
DISTRIBUSI FREKUENSI.
Bersyukur.
• Perwakilan BKKBN Provinsi Sulawesi Tengah•
Bahan Kuliah IF2120 Matematika Diskrit
7. RANTAI MARKOV WAKTU KONTINU (Kelahiran&Kematian Murni)
Pohon (bagian ke 6) Matematika Diskrit.
Korelasi dan Regresi Ganda
Pengantar sistem informasi Rahma dhania salamah msp.
Gambar Kerangka dari sistem temu-kembali informasi sederhana
Final Project Temu Balik Informasi
Review Jurnal Nasional
METODE DAN MODEL TEMU BALIK INFORMASI Luthfi Nurrohman ( )
Pertemuan 7 : Latent Semantic Indexing
Konsep dan Model-model Sistem Temu Balik Informasi
Konsep, Metode dan Model Temu Kembali Informasi
Anggota Kelompok : Kurniawan Novi Pambudi
Document Indexing dan Term Weighting
Temu balik informasi Anggota Kelompok Ikhsan Fauji
Review Konsep Dasar IRS/ STI
StopList dan Stemming yasmi afrizal
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Pembobotan Kata (Term Weighting)
Transcript presentasi:

Model Temu-Balik Informasi Pertemuan ke-3 Sistem Temu-Balik Informasi

• Suatu model retrieval menentukan detail dari : Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Model Information Retrieval • Suatu model retrieval menentukan detail dari : – Representasi dokumen – Representasi query – Mekanisme retrieval • Menetapkan suatu gagasan relevansi. • Gagasan relevansi dapat berupa binary atau continuous (yaitu retrieval teranking). 2

• Sistem IR biasanya menggunakan term • Index term: Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Term Indeks • Sistem IR biasanya menggunakan term indeks (index term) untuk memroses query. • Index term: – suatu keyword atau kelompok kata terpilih – suatu kata (lebih umum) • Stemming dapat diterapkan: – connect: connecting, connection, connections • Suatu inverted file dibangun untuk term- term indeks yang dipilih 3

IR & Term Indeks 4 Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan IR & Term Indeks 4

• Pencocokan pada level index term sangat tidak Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Pencocokan Term Indeks • Pencocokan pada level index term sangat tidak tepat • Tidak heran mengapa pengguna sering tidak terpuaskan • Karena kebanyakan pengguna tidak belajar mengenai formasi query, bahkan bisa lebih buruk • Ketidakpuasan dari pengguna web • Masalah penentuan relevansi merupakan kritik bagi sistem IR: ranking 5

• Ranking adalah pengurutan dokumen-dokumen Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Ranking • Ranking adalah pengurutan dokumen-dokumen yang diterima yang (sangat diharapkan) mencerminkan relevansi dari dokumen tersebut dengan query pengguna • Ranking didasarkan pada pemikiran fundamental mengenai relevansi, seperti: – Himpunan index term – Pemakaian term-term terbobot – Kemungkinan relevansi • Setiap himpunan dari pemikiran mengarahkan ke suatu model IR tertentu. 6

Ikhtisar Model IR 7 Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Ikhtisar Model IR 7

• Model Boolean (set theoretic) Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Model Klasik • Model Boolean (set theoretic) – Representasi: himpunan index term – Model alternatif : Fuzzy, Extended Boolean • Model Ruang Vektor (algebraic) – Representasi: vector dalam ruang t-dimensi – Model alternatif: Generalized VS, Latent Semantic Indexing, Neural network • Model Probabilistik (probabilistic) – Berpijak pada teori peluang – Model alternatif: Inference network, Belief network 8

• Memungkinkan referensi ke struktur yang Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Model Terstruktur • Memungkinkan referensi ke struktur yang terdapat di dalam teks • Model Non-overlapping lists – Membagi teks ke dalam regional teks non- overlapping yang dihimpun dalam lists (list of chapters, list of all sections, …) • Model Proximal nodes – Mengatur list non-overlapping ke dalam suatu hirarki • Text retrieval terstruktur menggabungkan informasi pada isi teks dengan informasi pada struktur dokumen 9

• Model IR berdasarkan pada tugas Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Model Browsing • Model IR berdasarkan pada tugas browsing pengguna – Model Flat (tanpa struktur) – Model structure guided (seperti direktori Yahoo) – Model Hypertext (seperti navigasi halaman web) 10

• Pandangan logik dari dokumen Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Dimensi Model Lain • Pandangan logik dari dokumen – Index term – Full text – Full text + Structure (misal: hypertext) • Tugas Pengguna – Retrieval – Browsing 11

• Model IR, pandangan logik dokumen dan tugas retrieval Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Model IR • Model IR, pandangan logik dokumen dan tugas retrieval merupakan aspek berbeda dari sistem 12

• Ad hoc retrieval: Corpus dokumen tetap, query Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Retrieval: Ad Hoc vs Filtering • Ad hoc retrieval: Corpus dokumen tetap, query bervariasi. • Filtering: Query tetap, aliran dokumen kontinu. – User Profile: Model preferensi yang relatif statis. – Keputusan biner dari relevant/not-relevant. • Routing: Sama deng as filterinn filtering tetapi secara berkelanjutan menyediakan list teranking bukan filtering biner. 13

• Ad hoc retrieval: Retrieval: Ad Hoc vs Filtering 14 Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Retrieval: Ad Hoc vs Filtering • Ad hoc retrieval: 14

• Filtering Retrieval: Ad Hoc vs Filtering 15 Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Retrieval: Ad Hoc vs Filtering • Filtering 15

• Potong karakter atau markup yang tak-diinginkan Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Preprocessing • Potong karakter atau markup yang tak-diinginkan (misal: tag HTML, tanda baca, bilangan). • Pecahkan ke dalam token-token (keyword) berdasarkan whitespace. • Ubah token ke kata “root” (akar kata, stem) – computational  compute • Hilangkan stopword umum (misal: a, the, it). • Deteksi frase umum (mungkin menggunakan kamus khusus domain). • Bangun inverted index (daftar keyword dari dokumen yang memuat keyword tersebut). 16

• Dokumen direpresentasikan sebagai suatu Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Model Boolean • Dokumen direpresentasikan sebagai suatu himpunan dari keyword. • Query merupakan ekspresi boolean dari keyword, terhubung dengan AND, OR, dan NOT, termasuk menggunakan kurung siku untuk menandakan cakupan. – [ [Rio & Brazil] | [Hilo & Hawaii] ] & hotel & !Hilton ] • Output: Dokumen relevan atau tidak. Tidak ada pencocokan parsial atau ranking. 17

Diagram Boolean 18 Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Diagram Boolean 18

• Beberapa sistem mendukung operator lain, Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Operator Adjacent & Near • abacus adj actor Term abacus & actor adalah terkait satu dengan lainnya, misal: "abacus actor" • abacus near 4 actor Term abacus & actor dalam 4 kata dari satu dengan lainnya, misal: "the actor has an abacus" • Beberapa sistem mendukung operator lain, seperti with (dua term dalam kalimat sama) atau same (dua term dalam paragraf sama). 19

• Query boolean: dua atau lebih term pencarian, • Contoh: Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Query Boolean • Query boolean: dua atau lebih term pencarian, dihubungkan dengan operator boolean • Contoh: abacus AND actor abacus OR actor (abacus AND actor) OR (abacus AND atoll) NOT actor 20

• Precedence dari operator harus didefinisikan: Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Evaluasi Operator Boolean • Precedence dari operator harus didefinisikan: adj, near and, not or tinggi rendah Contoh: A and B or C and B dievaluasi sebagai (A and B) or (C and B) 21

• Model retrieval yang populer karena: Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Model Retrieval Boolean • Model retrieval yang populer karena: – Mudah memahami query sederhana – Bersih dari “formalisme” • Model boolean dapat diextend untuk menyertakan ranking. • Implementasi efisien layak mungkin bagi query normal. 22

• Terlalu kaku: AND berarti semua; OR berarti ada (bukan Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Model Boolean - Masalah • Terlalu kaku: AND berarti semua; OR berarti ada (bukan pencocokan parsial). • Sulit mengekspresikan permintaan pengguna yang kompleks. Query diformulasikan oleh pengguna kebanyakan terlalu sederhana • Sulit mengontrol jumlah dokumen yang diretrieve. – Semua dokumen yang cocok akan dikembalikan. • Sulit meranking output. – Semua dokumen yang cocok secara logis memenuhi query. • Sulit mengerjakan relevance feedback. – Jika suatu dokumen diidentifikasi oleh pengguna sebagai relevan atau tak-relevan, bagaimana query dimodifikasi? • Sering mengembalikan terlalu sedikit atau terlalu banyak 23 dokumen sebagai respon thdp query pengguna

• Dokumen biasanya diwakilkan oleh bag of Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Model Statistik • Dokumen biasanya diwakilkan oleh bag of words (kata-kata dengan frekuensi, tak-terurut). • Bag = himpunan yang memungkinkan banyak kemunculan dari elemen yang sama. • Pengguna menentukan himpunan term yang diinginkan dengan bobot (weight) opsional: – Term query terbobot: Q = < database 0.5; text 0.8; information 0.2 > – Term query tak-terbobot: Q = < database; text; information > – Tidak ada kondisi boolean ditetapkan dalam query. 24

• Retrieval didasarkan pada similarity (kemiripan) Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Retrieval Statistik • Retrieval didasarkan pada similarity (kemiripan) antara query dan dokumen. • Dokumen output diranking sesuai dengan kemiripan terhadap query. • Similarity didasarkan pada frekuensi kemunculan dari kata kunci (keyword) dalam query dan dokumen. • Mendukung Relevance feedback otomatis: – Dokumen relevan “ditambahkan” ke query. – Dokumen tak-relevan “dihilangkan” dari query. 25

• Bagaimana menentukan kepentingan kata dalam Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Isu pada Retrieval Statistik • Bagaimana menentukan kepentingan kata dalam suatu dokumen? – Pengertian kata? – Kata n-gram (dan frase, idiom,…)  term • Bagaimana menentukan derajat kepentingan dari suatu term di dalam dokumen dan di dalam koleksi keseluruhan? • Bagaimana menentukan derajat kemiripan antara dokumen dan query? • Pada web, apa itu koleksi & apa efek dari link, informasi format, dll? 26

• Setelah preprocessing diperoleh t term berbeda; Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Model Ruang Vektor • Setelah preprocessing diperoleh t term berbeda; dinamakan index term atau vocabulary. • Term ini membentuk suatu ruang vector. Dimensi = t = |vocabulary| • Setiap term, i, di dalam dokumen atau query, j, diberikan suatu nilai real weight, wij • Dokumen dan query diekspresikan sebagai vektor t-dimensi: dj = (w1j, w2j, …, wtj) • Definisikan fungsi bobot gi(dj) = wij 27

Graphic Representation Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Graphic Representation 28

• Koleksi n dokumen dapat direpresentasikan dalam Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Koleksi Dokumen • Koleksi n dokumen dapat direpresentasikan dalam model ruang vektor dengan suatu matriks term- document. • Entri di dalam matriks bersesuaian dengan “bobot” dari term di dalam dokumen; nol berarti term tidak berpengaruh atau tidak hadir di dalam dokumen. 29

• Terdapat 3 dokumen berikut: Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Contoh • Terdapat 3 dokumen berikut: 30

• Bobot (weight): tij = 1 jika dokumen i Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Pembobotan Biner • Bobot (weight): tij = 1 jika dokumen i mengandung term j dan nol jika tidak 31

• Ruang vektor Term • Vector Ruang Vektor dengan Bobot Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Ruang Vektor dengan Bobot • Ruang vektor Term Ruang n-dimensi, dimana n adalah jumlah term berbeda yang digunakan untuk meng-indeks himpunan dokumen (yaitu ukuran dari daftar kata). • Vector Dokumen j direpresentasikan dengan vektor kolom. Besarnya dalam dimensi i adalah tij, dimana: tij > 0 jika term i muncul dalam dokumen j tij = 0 jika tidak tij adalah bobot dari term i dalam dokumen j. 32

• Ruang vektor term merupakan matriks sangat Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Matriks Jarang • Ruang vektor term merupakan matriks sangat jarang. • Inverted file adalah cara efisien untuk merepresentasikan suatu ruang vektor term. Juga menyediakan metode mudah untuk menyimpan data tambahan. • Kebanyakan metode penyimpanan matriks jarang dirancang untuk pemrosesan baris atau kolom. Inverted file dikelola untuk pemrosesan baris, yaitu semua informasi mengenai suatu term yang diberikan disimpan bersama. 33

• Inverted file merupakan daftar term pencarian Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Inverted File • Inverted file merupakan daftar term pencarian yang diatur untuk associative look-up, untuk menjawab pertanyaan: – Dalam dokumen mana term pencarian tertentu hadir? – Dimana dalam setiap dokumen setiap term hadir? (mungkin beberapa kemunculan) • Dalam sistem pencarian teks bebas, daftar kata dan file posting bersama-sama menyediakan suatu sistem inverted file. Juga mengandung data yang diperlukan untuk menghitung bobot dan informasi yang digunakan untuk menampilkan hasil. 34

• Daftar kata adalah daftar Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Inverted File - Definisi • Daftar kata adalah daftar semua term berbeda dalam corpus setelah menghilangkan stop words & stemming. Kadang disebut pula vocabulary file. 35

• Posting: Entri di dalam sistem inverted file yang Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Inverted File - Definisi • Posting: Entri di dalam sistem inverted file yang mewakili instance term dari dalam suatu dokumen, misal: ada 3 posting untuk "abacus": "abacus" dalam dokumen 3 • Inverted List: Daftar semua posting dalam sistem inverted file yang menunjukkan kata tertentu, misal: "abacus" dalam dokumen 3, 19 & 22 • Ini merupakan representasi sparse dari suatu baris dalam matriks vektor term 36

• Contoh: abacus and actor Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Inverted File & Query Boolean • Contoh: abacus and actor Posting abacus Posting actor • Hanya dokumen 19 yang mengandung term "abacus" dan "actor". 37

• Lokasi: Setiap posting memegang informasi Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Peningkatan Inverted File • Lokasi: Setiap posting memegang informasi mengenai lokasi dari setiap term di dalam dokumen. Penggunaan – Rancangan antarmuka pengguna - highlight lokasi dari term pencarian operator adjacency dan near (dalam pencarian boolean) • Frekuensi: Setiap inverted list menyertakan jumlah posting dari setiap term. – Pembobotan term 38 – Optimisasi pemrosesan query

Peningkatan Inverted File Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Peningkatan Inverted File 39

• Contoh: abacus adj actor Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Evaluasi Operasi Adjacency • Contoh: abacus adj actor • Dokumen 19, lokasi 63 dan 64, lokasi munculnya term "abacus" dan "actor" adjacent. 40

Query: (abacus or asp*) and actor Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Pencocokan Query (Boolean) Query: (abacus or asp*) and actor 1. Dari file index (daftar kata), temukan file posting: "abacus" setiap kata yang diawali "asp" "actor" 2. Gabungkan posting list ini. Untuk setiap dokumen yang muncul dalam postings list, evaluasi ekspresi Boolean untuk melihat apakah true atau false. Langkah 2 sebaiknya diselesaikan dalam satu langkah 41

Posting File & Pencocokan Query Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Posting File & Pencocokan Query 42

• Metode yang didiskusikan sejauh ini Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Kemiripan & Ranking • Metode yang didiskusikan sejauh ini hanya menangani query boolean • Dapatkah kita mengidentifikasi dokumen berdasarkan pada kemiripan? • Bagaimana kita meranking hasil pencarian? 43

• Panjang dari x diberikan oleh: Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Revisi Ruang Vektor x = (x1, x2, ..., xn) adalah vektor dalam ruang vektor n-dimensi • Panjang dari x diberikan oleh: |x|2 = x12 + x22 + x32 + ... + xn2 Jika x1 dan x2 merupakan vektor: • Inner product (atau dot product): x1.x2 = x11x21 + x12x22 + x13x23 + ... + x1nx2n • Cosinus sudut antara vektor x1 dan x2: 44

• Seberapa mirip dokumen-dokumen berikut? Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Kemiripan (Tanda Bobot) • Seberapa mirip dokumen-dokumen berikut? 45

• tij = 1 jika term i dalam dokumen j dan nol jika tidak Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Ruang Vektor Term • tij = 1 jika term i dalam dokumen j dan nol jika tidak 46

Contoh: Perbandingan Dokumen Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Contoh: Perbandingan Dokumen 47

Kemiripan Query & Dokumen Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Kemiripan Query & Dokumen (Vektor 3-Dimensi) 48

Kemiripan Query & Dokumen Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Kemiripan Query & Dokumen 49

Matriks Munculnya Term Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Matriks Munculnya Term 50

• Kemiripan query terhadap dokumen dalam contoh: Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Hitung Ranking • Kemiripan query terhadap dokumen dalam contoh: • Jika query q dicarikan terhadap himpunan dokumen ini, hasil teranking adalah d2, d1, d3 51

• [Ini merupakan praktis standard] Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Kemiripan Vektor dalam IR? • Ranking untuk setiap query q, kembalikan n dokumen paling mirip yang diranking sesuai kemiripannya. • [Ini merupakan praktis standard] 52

Ukuran kemiripan perlu ditingkatkan: Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Pembobotan Term Ukuran kemiripan perlu ditingkatkan: (a) Apakah term umum atau tak-biasa (b) Berapa kali setiap term muncul dalam suatu dokumen (c) Panjang dari dokumen (d) Tempat dalam dokumen dimana term term muncul (e) Term-term yang adjacent satu dengan lainnya (frase) 53

• Makin sering term dalam dokumen maka Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Bobot Term: Term Frequency • Makin sering term dalam dokumen maka makin penting, makin menunjukkan topik. fij = frekuensi term i dalam dokumen j • Term frequency (tf) ini dapat dinormalisasi terhadap corpus lengkap tfij = fij / max{fij} dimana max adalah terhadap semua term dalam dokumen j 54

Bobot Term: Inverse Document frequency Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Bobot Term: Inverse Document frequency • Term-term yang munvul dalam banyak dokumen berbeda kurang menunjukkan topik keseluruhan. dfi = frekuensi dokumen dari term i = jumlah dokumen yang mengandung term i idfi = inverse document frequency dari term i, = log2 (N / df i) (N: jumlah total dari dokumen) • Indikasi dari kekuatan diskriminasi term. • Log digunakan untuk memperkecil efek relatif terhadap tf. 55

• Bobot yang OK harus diambil, karena: Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Pembobotan TF-IDF • Bobot yang OK harus diambil, karena: – Hitungan isi intra-document (kemiripan) • Faktor tf, term frequency dalam suatu dokumen – Hitungan inter-documents berbeda (ketidakmiripan) • Faktor idf, inverse document frequency • Indikator kepentingan term kombinasi adalah pembobotan tf-idf : wij = tfij idfi = tfij log2 (N / dfi) 56

• Suatu term sering muncul dalam dokumen Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Pembobotan TF-IDF • Suatu term sering muncul dalam dokumen tetapi jarang dalam sisa koleksi diberikan bobot tinggi. • Banyak cara lain menentukan bobot term diusulkan. • Pada eksperiment, tf-idf berkeja dengan baik. 57

• Diberikan suatu dokumen mengandung term Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Menghitung TF-IDF • Diberikan suatu dokumen mengandung term dengan frekuensi: A(3), B(2), C(1) • Misal: koleksi memuat 10,000 dokumen dan frekuensi dokumen dari term-term ini adalah A(50), B(1300), C(250) • Maka: A: tf = 3/3; idf = log(10000/50) = 5.3; tf-idf = 5.3 B: tf = 2/3; idf = log(10000/1300) = 2.0; tf-idf = 1.3 C: tf = 1/3; idf = log(10000/250) = 3.7; tf-idf = 1.2 58

Menghitung TF-IDF 59 Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Menghitung TF-IDF 59

Menghitung TF-IDF 60 Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Menghitung TF-IDF 60

61 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer 2010 2010 61