Model Temu-Balik Informasi Pertemuan ke-3 Sistem Temu-Balik Informasi
• Suatu model retrieval menentukan detail dari : Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Model Information Retrieval • Suatu model retrieval menentukan detail dari : – Representasi dokumen – Representasi query – Mekanisme retrieval • Menetapkan suatu gagasan relevansi. • Gagasan relevansi dapat berupa binary atau continuous (yaitu retrieval teranking). 2
• Sistem IR biasanya menggunakan term • Index term: Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Term Indeks • Sistem IR biasanya menggunakan term indeks (index term) untuk memroses query. • Index term: – suatu keyword atau kelompok kata terpilih – suatu kata (lebih umum) • Stemming dapat diterapkan: – connect: connecting, connection, connections • Suatu inverted file dibangun untuk term- term indeks yang dipilih 3
IR & Term Indeks 4 Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan IR & Term Indeks 4
• Pencocokan pada level index term sangat tidak Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Pencocokan Term Indeks • Pencocokan pada level index term sangat tidak tepat • Tidak heran mengapa pengguna sering tidak terpuaskan • Karena kebanyakan pengguna tidak belajar mengenai formasi query, bahkan bisa lebih buruk • Ketidakpuasan dari pengguna web • Masalah penentuan relevansi merupakan kritik bagi sistem IR: ranking 5
• Ranking adalah pengurutan dokumen-dokumen Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Ranking • Ranking adalah pengurutan dokumen-dokumen yang diterima yang (sangat diharapkan) mencerminkan relevansi dari dokumen tersebut dengan query pengguna • Ranking didasarkan pada pemikiran fundamental mengenai relevansi, seperti: – Himpunan index term – Pemakaian term-term terbobot – Kemungkinan relevansi • Setiap himpunan dari pemikiran mengarahkan ke suatu model IR tertentu. 6
Ikhtisar Model IR 7 Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Ikhtisar Model IR 7
• Model Boolean (set theoretic) Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Model Klasik • Model Boolean (set theoretic) – Representasi: himpunan index term – Model alternatif : Fuzzy, Extended Boolean • Model Ruang Vektor (algebraic) – Representasi: vector dalam ruang t-dimensi – Model alternatif: Generalized VS, Latent Semantic Indexing, Neural network • Model Probabilistik (probabilistic) – Berpijak pada teori peluang – Model alternatif: Inference network, Belief network 8
• Memungkinkan referensi ke struktur yang Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Model Terstruktur • Memungkinkan referensi ke struktur yang terdapat di dalam teks • Model Non-overlapping lists – Membagi teks ke dalam regional teks non- overlapping yang dihimpun dalam lists (list of chapters, list of all sections, …) • Model Proximal nodes – Mengatur list non-overlapping ke dalam suatu hirarki • Text retrieval terstruktur menggabungkan informasi pada isi teks dengan informasi pada struktur dokumen 9
• Model IR berdasarkan pada tugas Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Model Browsing • Model IR berdasarkan pada tugas browsing pengguna – Model Flat (tanpa struktur) – Model structure guided (seperti direktori Yahoo) – Model Hypertext (seperti navigasi halaman web) 10
• Pandangan logik dari dokumen Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Dimensi Model Lain • Pandangan logik dari dokumen – Index term – Full text – Full text + Structure (misal: hypertext) • Tugas Pengguna – Retrieval – Browsing 11
• Model IR, pandangan logik dokumen dan tugas retrieval Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Model IR • Model IR, pandangan logik dokumen dan tugas retrieval merupakan aspek berbeda dari sistem 12
• Ad hoc retrieval: Corpus dokumen tetap, query Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Retrieval: Ad Hoc vs Filtering • Ad hoc retrieval: Corpus dokumen tetap, query bervariasi. • Filtering: Query tetap, aliran dokumen kontinu. – User Profile: Model preferensi yang relatif statis. – Keputusan biner dari relevant/not-relevant. • Routing: Sama deng as filterinn filtering tetapi secara berkelanjutan menyediakan list teranking bukan filtering biner. 13
• Ad hoc retrieval: Retrieval: Ad Hoc vs Filtering 14 Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Retrieval: Ad Hoc vs Filtering • Ad hoc retrieval: 14
• Filtering Retrieval: Ad Hoc vs Filtering 15 Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Retrieval: Ad Hoc vs Filtering • Filtering 15
• Potong karakter atau markup yang tak-diinginkan Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Preprocessing • Potong karakter atau markup yang tak-diinginkan (misal: tag HTML, tanda baca, bilangan). • Pecahkan ke dalam token-token (keyword) berdasarkan whitespace. • Ubah token ke kata “root” (akar kata, stem) – computational compute • Hilangkan stopword umum (misal: a, the, it). • Deteksi frase umum (mungkin menggunakan kamus khusus domain). • Bangun inverted index (daftar keyword dari dokumen yang memuat keyword tersebut). 16
• Dokumen direpresentasikan sebagai suatu Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Model Boolean • Dokumen direpresentasikan sebagai suatu himpunan dari keyword. • Query merupakan ekspresi boolean dari keyword, terhubung dengan AND, OR, dan NOT, termasuk menggunakan kurung siku untuk menandakan cakupan. – [ [Rio & Brazil] | [Hilo & Hawaii] ] & hotel & !Hilton ] • Output: Dokumen relevan atau tidak. Tidak ada pencocokan parsial atau ranking. 17
Diagram Boolean 18 Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Diagram Boolean 18
• Beberapa sistem mendukung operator lain, Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Operator Adjacent & Near • abacus adj actor Term abacus & actor adalah terkait satu dengan lainnya, misal: "abacus actor" • abacus near 4 actor Term abacus & actor dalam 4 kata dari satu dengan lainnya, misal: "the actor has an abacus" • Beberapa sistem mendukung operator lain, seperti with (dua term dalam kalimat sama) atau same (dua term dalam paragraf sama). 19
• Query boolean: dua atau lebih term pencarian, • Contoh: Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Query Boolean • Query boolean: dua atau lebih term pencarian, dihubungkan dengan operator boolean • Contoh: abacus AND actor abacus OR actor (abacus AND actor) OR (abacus AND atoll) NOT actor 20
• Precedence dari operator harus didefinisikan: Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Evaluasi Operator Boolean • Precedence dari operator harus didefinisikan: adj, near and, not or tinggi rendah Contoh: A and B or C and B dievaluasi sebagai (A and B) or (C and B) 21
• Model retrieval yang populer karena: Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Model Retrieval Boolean • Model retrieval yang populer karena: – Mudah memahami query sederhana – Bersih dari “formalisme” • Model boolean dapat diextend untuk menyertakan ranking. • Implementasi efisien layak mungkin bagi query normal. 22
• Terlalu kaku: AND berarti semua; OR berarti ada (bukan Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Model Boolean - Masalah • Terlalu kaku: AND berarti semua; OR berarti ada (bukan pencocokan parsial). • Sulit mengekspresikan permintaan pengguna yang kompleks. Query diformulasikan oleh pengguna kebanyakan terlalu sederhana • Sulit mengontrol jumlah dokumen yang diretrieve. – Semua dokumen yang cocok akan dikembalikan. • Sulit meranking output. – Semua dokumen yang cocok secara logis memenuhi query. • Sulit mengerjakan relevance feedback. – Jika suatu dokumen diidentifikasi oleh pengguna sebagai relevan atau tak-relevan, bagaimana query dimodifikasi? • Sering mengembalikan terlalu sedikit atau terlalu banyak 23 dokumen sebagai respon thdp query pengguna
• Dokumen biasanya diwakilkan oleh bag of Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Model Statistik • Dokumen biasanya diwakilkan oleh bag of words (kata-kata dengan frekuensi, tak-terurut). • Bag = himpunan yang memungkinkan banyak kemunculan dari elemen yang sama. • Pengguna menentukan himpunan term yang diinginkan dengan bobot (weight) opsional: – Term query terbobot: Q = < database 0.5; text 0.8; information 0.2 > – Term query tak-terbobot: Q = < database; text; information > – Tidak ada kondisi boolean ditetapkan dalam query. 24
• Retrieval didasarkan pada similarity (kemiripan) Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Retrieval Statistik • Retrieval didasarkan pada similarity (kemiripan) antara query dan dokumen. • Dokumen output diranking sesuai dengan kemiripan terhadap query. • Similarity didasarkan pada frekuensi kemunculan dari kata kunci (keyword) dalam query dan dokumen. • Mendukung Relevance feedback otomatis: – Dokumen relevan “ditambahkan” ke query. – Dokumen tak-relevan “dihilangkan” dari query. 25
• Bagaimana menentukan kepentingan kata dalam Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Isu pada Retrieval Statistik • Bagaimana menentukan kepentingan kata dalam suatu dokumen? – Pengertian kata? – Kata n-gram (dan frase, idiom,…) term • Bagaimana menentukan derajat kepentingan dari suatu term di dalam dokumen dan di dalam koleksi keseluruhan? • Bagaimana menentukan derajat kemiripan antara dokumen dan query? • Pada web, apa itu koleksi & apa efek dari link, informasi format, dll? 26
• Setelah preprocessing diperoleh t term berbeda; Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Model Ruang Vektor • Setelah preprocessing diperoleh t term berbeda; dinamakan index term atau vocabulary. • Term ini membentuk suatu ruang vector. Dimensi = t = |vocabulary| • Setiap term, i, di dalam dokumen atau query, j, diberikan suatu nilai real weight, wij • Dokumen dan query diekspresikan sebagai vektor t-dimensi: dj = (w1j, w2j, …, wtj) • Definisikan fungsi bobot gi(dj) = wij 27
Graphic Representation Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Graphic Representation 28
• Koleksi n dokumen dapat direpresentasikan dalam Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Koleksi Dokumen • Koleksi n dokumen dapat direpresentasikan dalam model ruang vektor dengan suatu matriks term- document. • Entri di dalam matriks bersesuaian dengan “bobot” dari term di dalam dokumen; nol berarti term tidak berpengaruh atau tidak hadir di dalam dokumen. 29
• Terdapat 3 dokumen berikut: Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Contoh • Terdapat 3 dokumen berikut: 30
• Bobot (weight): tij = 1 jika dokumen i Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Pembobotan Biner • Bobot (weight): tij = 1 jika dokumen i mengandung term j dan nol jika tidak 31
• Ruang vektor Term • Vector Ruang Vektor dengan Bobot Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Ruang Vektor dengan Bobot • Ruang vektor Term Ruang n-dimensi, dimana n adalah jumlah term berbeda yang digunakan untuk meng-indeks himpunan dokumen (yaitu ukuran dari daftar kata). • Vector Dokumen j direpresentasikan dengan vektor kolom. Besarnya dalam dimensi i adalah tij, dimana: tij > 0 jika term i muncul dalam dokumen j tij = 0 jika tidak tij adalah bobot dari term i dalam dokumen j. 32
• Ruang vektor term merupakan matriks sangat Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Matriks Jarang • Ruang vektor term merupakan matriks sangat jarang. • Inverted file adalah cara efisien untuk merepresentasikan suatu ruang vektor term. Juga menyediakan metode mudah untuk menyimpan data tambahan. • Kebanyakan metode penyimpanan matriks jarang dirancang untuk pemrosesan baris atau kolom. Inverted file dikelola untuk pemrosesan baris, yaitu semua informasi mengenai suatu term yang diberikan disimpan bersama. 33
• Inverted file merupakan daftar term pencarian Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Inverted File • Inverted file merupakan daftar term pencarian yang diatur untuk associative look-up, untuk menjawab pertanyaan: – Dalam dokumen mana term pencarian tertentu hadir? – Dimana dalam setiap dokumen setiap term hadir? (mungkin beberapa kemunculan) • Dalam sistem pencarian teks bebas, daftar kata dan file posting bersama-sama menyediakan suatu sistem inverted file. Juga mengandung data yang diperlukan untuk menghitung bobot dan informasi yang digunakan untuk menampilkan hasil. 34
• Daftar kata adalah daftar Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Inverted File - Definisi • Daftar kata adalah daftar semua term berbeda dalam corpus setelah menghilangkan stop words & stemming. Kadang disebut pula vocabulary file. 35
• Posting: Entri di dalam sistem inverted file yang Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Inverted File - Definisi • Posting: Entri di dalam sistem inverted file yang mewakili instance term dari dalam suatu dokumen, misal: ada 3 posting untuk "abacus": "abacus" dalam dokumen 3 • Inverted List: Daftar semua posting dalam sistem inverted file yang menunjukkan kata tertentu, misal: "abacus" dalam dokumen 3, 19 & 22 • Ini merupakan representasi sparse dari suatu baris dalam matriks vektor term 36
• Contoh: abacus and actor Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Inverted File & Query Boolean • Contoh: abacus and actor Posting abacus Posting actor • Hanya dokumen 19 yang mengandung term "abacus" dan "actor". 37
• Lokasi: Setiap posting memegang informasi Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Peningkatan Inverted File • Lokasi: Setiap posting memegang informasi mengenai lokasi dari setiap term di dalam dokumen. Penggunaan – Rancangan antarmuka pengguna - highlight lokasi dari term pencarian operator adjacency dan near (dalam pencarian boolean) • Frekuensi: Setiap inverted list menyertakan jumlah posting dari setiap term. – Pembobotan term 38 – Optimisasi pemrosesan query
Peningkatan Inverted File Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Peningkatan Inverted File 39
• Contoh: abacus adj actor Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Evaluasi Operasi Adjacency • Contoh: abacus adj actor • Dokumen 19, lokasi 63 dan 64, lokasi munculnya term "abacus" dan "actor" adjacent. 40
Query: (abacus or asp*) and actor Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Pencocokan Query (Boolean) Query: (abacus or asp*) and actor 1. Dari file index (daftar kata), temukan file posting: "abacus" setiap kata yang diawali "asp" "actor" 2. Gabungkan posting list ini. Untuk setiap dokumen yang muncul dalam postings list, evaluasi ekspresi Boolean untuk melihat apakah true atau false. Langkah 2 sebaiknya diselesaikan dalam satu langkah 41
Posting File & Pencocokan Query Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Posting File & Pencocokan Query 42
• Metode yang didiskusikan sejauh ini Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Kemiripan & Ranking • Metode yang didiskusikan sejauh ini hanya menangani query boolean • Dapatkah kita mengidentifikasi dokumen berdasarkan pada kemiripan? • Bagaimana kita meranking hasil pencarian? 43
• Panjang dari x diberikan oleh: Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Revisi Ruang Vektor x = (x1, x2, ..., xn) adalah vektor dalam ruang vektor n-dimensi • Panjang dari x diberikan oleh: |x|2 = x12 + x22 + x32 + ... + xn2 Jika x1 dan x2 merupakan vektor: • Inner product (atau dot product): x1.x2 = x11x21 + x12x22 + x13x23 + ... + x1nx2n • Cosinus sudut antara vektor x1 dan x2: 44
• Seberapa mirip dokumen-dokumen berikut? Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Kemiripan (Tanda Bobot) • Seberapa mirip dokumen-dokumen berikut? 45
• tij = 1 jika term i dalam dokumen j dan nol jika tidak Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Ruang Vektor Term • tij = 1 jika term i dalam dokumen j dan nol jika tidak 46
Contoh: Perbandingan Dokumen Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Contoh: Perbandingan Dokumen 47
Kemiripan Query & Dokumen Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Kemiripan Query & Dokumen (Vektor 3-Dimensi) 48
Kemiripan Query & Dokumen Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Kemiripan Query & Dokumen 49
Matriks Munculnya Term Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Matriks Munculnya Term 50
• Kemiripan query terhadap dokumen dalam contoh: Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Hitung Ranking • Kemiripan query terhadap dokumen dalam contoh: • Jika query q dicarikan terhadap himpunan dokumen ini, hasil teranking adalah d2, d1, d3 51
• [Ini merupakan praktis standard] Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Kemiripan Vektor dalam IR? • Ranking untuk setiap query q, kembalikan n dokumen paling mirip yang diranking sesuai kemiripannya. • [Ini merupakan praktis standard] 52
Ukuran kemiripan perlu ditingkatkan: Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Pembobotan Term Ukuran kemiripan perlu ditingkatkan: (a) Apakah term umum atau tak-biasa (b) Berapa kali setiap term muncul dalam suatu dokumen (c) Panjang dari dokumen (d) Tempat dalam dokumen dimana term term muncul (e) Term-term yang adjacent satu dengan lainnya (frase) 53
• Makin sering term dalam dokumen maka Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Bobot Term: Term Frequency • Makin sering term dalam dokumen maka makin penting, makin menunjukkan topik. fij = frekuensi term i dalam dokumen j • Term frequency (tf) ini dapat dinormalisasi terhadap corpus lengkap tfij = fij / max{fij} dimana max adalah terhadap semua term dalam dokumen j 54
Bobot Term: Inverse Document frequency Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Bobot Term: Inverse Document frequency • Term-term yang munvul dalam banyak dokumen berbeda kurang menunjukkan topik keseluruhan. dfi = frekuensi dokumen dari term i = jumlah dokumen yang mengandung term i idfi = inverse document frequency dari term i, = log2 (N / df i) (N: jumlah total dari dokumen) • Indikasi dari kekuatan diskriminasi term. • Log digunakan untuk memperkecil efek relatif terhadap tf. 55
• Bobot yang OK harus diambil, karena: Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Pembobotan TF-IDF • Bobot yang OK harus diambil, karena: – Hitungan isi intra-document (kemiripan) • Faktor tf, term frequency dalam suatu dokumen – Hitungan inter-documents berbeda (ketidakmiripan) • Faktor idf, inverse document frequency • Indikator kepentingan term kombinasi adalah pembobotan tf-idf : wij = tfij idfi = tfij log2 (N / dfi) 56
• Suatu term sering muncul dalam dokumen Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Pembobotan TF-IDF • Suatu term sering muncul dalam dokumen tetapi jarang dalam sisa koleksi diberikan bobot tinggi. • Banyak cara lain menentukan bobot term diusulkan. • Pada eksperiment, tf-idf berkeja dengan baik. 57
• Diberikan suatu dokumen mengandung term Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Menghitung TF-IDF • Diberikan suatu dokumen mengandung term dengan frekuensi: A(3), B(2), C(1) • Misal: koleksi memuat 10,000 dokumen dan frekuensi dokumen dari term-term ini adalah A(50), B(1300), C(250) • Maka: A: tf = 3/3; idf = log(10000/50) = 5.3; tf-idf = 5.3 B: tf = 2/3; idf = log(10000/1300) = 2.0; tf-idf = 1.3 C: tf = 1/3; idf = log(10000/250) = 3.7; tf-idf = 1.2 58
Menghitung TF-IDF 59 Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Menghitung TF-IDF 59
Menghitung TF-IDF 60 Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 2010 Keamanan Informasi Informasi Keamanan Menghitung TF-IDF 60
61 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan Sistem Temu-Balik Komputer 2010 2010 61