Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

Model Temu-Balik Informasi

Presentasi serupa


Presentasi berjudul: "Model Temu-Balik Informasi"— Transcript presentasi:

1 Model Temu-Balik Informasi
Pertemuan ke-3 Sistem Temu-Balik Informasi

2 • Suatu model retrieval menentukan detail dari :
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Model Information Retrieval • Suatu model retrieval menentukan detail dari : – Representasi dokumen – Representasi query – Mekanisme retrieval • Menetapkan suatu gagasan relevansi. • Gagasan relevansi dapat berupa binary atau continuous (yaitu retrieval teranking). 2

3 • Sistem IR biasanya menggunakan term • Index term:
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Term Indeks • Sistem IR biasanya menggunakan term indeks (index term) untuk memroses query. • Index term: – suatu keyword atau kelompok kata terpilih – suatu kata (lebih umum) • Stemming dapat diterapkan: – connect: connecting, connection, connections • Suatu inverted file dibangun untuk term- term indeks yang dipilih 3

4 IR & Term Indeks 4 Model Temu-Balik Informasi
Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan IR & Term Indeks 4

5 • Pencocokan pada level index term sangat tidak
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Pencocokan Term Indeks • Pencocokan pada level index term sangat tidak tepat • Tidak heran mengapa pengguna sering tidak terpuaskan • Karena kebanyakan pengguna tidak belajar mengenai formasi query, bahkan bisa lebih buruk • Ketidakpuasan dari pengguna web • Masalah penentuan relevansi merupakan kritik bagi sistem IR: ranking 5

6 • Ranking adalah pengurutan dokumen-dokumen
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Ranking • Ranking adalah pengurutan dokumen-dokumen yang diterima yang (sangat diharapkan) mencerminkan relevansi dari dokumen tersebut dengan query pengguna • Ranking didasarkan pada pemikiran fundamental mengenai relevansi, seperti: – Himpunan index term – Pemakaian term-term terbobot – Kemungkinan relevansi • Setiap himpunan dari pemikiran mengarahkan ke suatu model IR tertentu. 6

7 Ikhtisar Model IR 7 Model Temu-Balik Informasi
Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Ikhtisar Model IR 7

8 • Model Boolean (set theoretic)
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Model Klasik • Model Boolean (set theoretic) – Representasi: himpunan index term – Model alternatif : Fuzzy, Extended Boolean • Model Ruang Vektor (algebraic) – Representasi: vector dalam ruang t-dimensi – Model alternatif: Generalized VS, Latent Semantic Indexing, Neural network • Model Probabilistik (probabilistic) – Berpijak pada teori peluang – Model alternatif: Inference network, Belief network 8

9 • Memungkinkan referensi ke struktur yang
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Model Terstruktur • Memungkinkan referensi ke struktur yang terdapat di dalam teks • Model Non-overlapping lists – Membagi teks ke dalam regional teks non- overlapping yang dihimpun dalam lists (list of chapters, list of all sections, …) • Model Proximal nodes – Mengatur list non-overlapping ke dalam suatu hirarki • Text retrieval terstruktur menggabungkan informasi pada isi teks dengan informasi pada struktur dokumen 9

10 • Model IR berdasarkan pada tugas
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Model Browsing • Model IR berdasarkan pada tugas browsing pengguna – Model Flat (tanpa struktur) – Model structure guided (seperti direktori Yahoo) – Model Hypertext (seperti navigasi halaman web) 10

11 • Pandangan logik dari dokumen
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Dimensi Model Lain • Pandangan logik dari dokumen – Index term – Full text – Full text + Structure (misal: hypertext) • Tugas Pengguna – Retrieval – Browsing 11

12 • Model IR, pandangan logik dokumen dan tugas retrieval
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Model IR • Model IR, pandangan logik dokumen dan tugas retrieval merupakan aspek berbeda dari sistem 12

13 • Ad hoc retrieval: Corpus dokumen tetap, query
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Retrieval: Ad Hoc vs Filtering • Ad hoc retrieval: Corpus dokumen tetap, query bervariasi. • Filtering: Query tetap, aliran dokumen kontinu. – User Profile: Model preferensi yang relatif statis. – Keputusan biner dari relevant/not-relevant. • Routing: Sama deng as filterinn filtering tetapi secara berkelanjutan menyediakan list teranking bukan filtering biner. 13

14 • Ad hoc retrieval: Retrieval: Ad Hoc vs Filtering 14
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Retrieval: Ad Hoc vs Filtering • Ad hoc retrieval: 14

15 • Filtering Retrieval: Ad Hoc vs Filtering 15
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Retrieval: Ad Hoc vs Filtering • Filtering 15

16 • Potong karakter atau markup yang tak-diinginkan
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Preprocessing • Potong karakter atau markup yang tak-diinginkan (misal: tag HTML, tanda baca, bilangan). • Pecahkan ke dalam token-token (keyword) berdasarkan whitespace. • Ubah token ke kata “root” (akar kata, stem) – computational  compute • Hilangkan stopword umum (misal: a, the, it). • Deteksi frase umum (mungkin menggunakan kamus khusus domain). • Bangun inverted index (daftar keyword dari dokumen yang memuat keyword tersebut). 16

17 • Dokumen direpresentasikan sebagai suatu
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Model Boolean • Dokumen direpresentasikan sebagai suatu himpunan dari keyword. • Query merupakan ekspresi boolean dari keyword, terhubung dengan AND, OR, dan NOT, termasuk menggunakan kurung siku untuk menandakan cakupan. – [ [Rio & Brazil] | [Hilo & Hawaii] ] & hotel & !Hilton ] • Output: Dokumen relevan atau tidak. Tidak ada pencocokan parsial atau ranking. 17

18 Diagram Boolean 18 Model Temu-Balik Informasi
Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Diagram Boolean 18

19 • Beberapa sistem mendukung operator lain,
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Operator Adjacent & Near • abacus adj actor Term abacus & actor adalah terkait satu dengan lainnya, misal: "abacus actor" • abacus near 4 actor Term abacus & actor dalam 4 kata dari satu dengan lainnya, misal: "the actor has an abacus" • Beberapa sistem mendukung operator lain, seperti with (dua term dalam kalimat sama) atau same (dua term dalam paragraf sama). 19

20 • Query boolean: dua atau lebih term pencarian, • Contoh:
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Query Boolean • Query boolean: dua atau lebih term pencarian, dihubungkan dengan operator boolean • Contoh: abacus AND actor abacus OR actor (abacus AND actor) OR (abacus AND atoll) NOT actor 20

21 • Precedence dari operator harus didefinisikan:
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Evaluasi Operator Boolean • Precedence dari operator harus didefinisikan: adj, near and, not or tinggi rendah Contoh: A and B or C and B dievaluasi sebagai (A and B) or (C and B) 21

22 • Model retrieval yang populer karena:
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Model Retrieval Boolean • Model retrieval yang populer karena: – Mudah memahami query sederhana – Bersih dari “formalisme” • Model boolean dapat diextend untuk menyertakan ranking. • Implementasi efisien layak mungkin bagi query normal. 22

23 • Terlalu kaku: AND berarti semua; OR berarti ada (bukan
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Model Boolean - Masalah • Terlalu kaku: AND berarti semua; OR berarti ada (bukan pencocokan parsial). • Sulit mengekspresikan permintaan pengguna yang kompleks. Query diformulasikan oleh pengguna kebanyakan terlalu sederhana • Sulit mengontrol jumlah dokumen yang diretrieve. – Semua dokumen yang cocok akan dikembalikan. • Sulit meranking output. – Semua dokumen yang cocok secara logis memenuhi query. • Sulit mengerjakan relevance feedback. – Jika suatu dokumen diidentifikasi oleh pengguna sebagai relevan atau tak-relevan, bagaimana query dimodifikasi? • Sering mengembalikan terlalu sedikit atau terlalu banyak 23 dokumen sebagai respon thdp query pengguna

24 • Dokumen biasanya diwakilkan oleh bag of
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Model Statistik • Dokumen biasanya diwakilkan oleh bag of words (kata-kata dengan frekuensi, tak-terurut). • Bag = himpunan yang memungkinkan banyak kemunculan dari elemen yang sama. • Pengguna menentukan himpunan term yang diinginkan dengan bobot (weight) opsional: – Term query terbobot: Q = < database 0.5; text 0.8; information 0.2 > – Term query tak-terbobot: Q = < database; text; information > – Tidak ada kondisi boolean ditetapkan dalam query. 24

25 • Retrieval didasarkan pada similarity (kemiripan)
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Retrieval Statistik • Retrieval didasarkan pada similarity (kemiripan) antara query dan dokumen. • Dokumen output diranking sesuai dengan kemiripan terhadap query. • Similarity didasarkan pada frekuensi kemunculan dari kata kunci (keyword) dalam query dan dokumen. • Mendukung Relevance feedback otomatis: – Dokumen relevan “ditambahkan” ke query. – Dokumen tak-relevan “dihilangkan” dari query. 25

26 • Bagaimana menentukan kepentingan kata dalam
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Isu pada Retrieval Statistik • Bagaimana menentukan kepentingan kata dalam suatu dokumen? – Pengertian kata? – Kata n-gram (dan frase, idiom,…)  term • Bagaimana menentukan derajat kepentingan dari suatu term di dalam dokumen dan di dalam koleksi keseluruhan? • Bagaimana menentukan derajat kemiripan antara dokumen dan query? • Pada web, apa itu koleksi & apa efek dari link, informasi format, dll? 26

27 • Setelah preprocessing diperoleh t term berbeda;
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Model Ruang Vektor • Setelah preprocessing diperoleh t term berbeda; dinamakan index term atau vocabulary. • Term ini membentuk suatu ruang vector. Dimensi = t = |vocabulary| • Setiap term, i, di dalam dokumen atau query, j, diberikan suatu nilai real weight, wij • Dokumen dan query diekspresikan sebagai vektor t-dimensi: dj = (w1j, w2j, …, wtj) • Definisikan fungsi bobot gi(dj) = wij 27

28 Graphic Representation
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Graphic Representation 28

29 • Koleksi n dokumen dapat direpresentasikan dalam
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Koleksi Dokumen • Koleksi n dokumen dapat direpresentasikan dalam model ruang vektor dengan suatu matriks term- document. • Entri di dalam matriks bersesuaian dengan “bobot” dari term di dalam dokumen; nol berarti term tidak berpengaruh atau tidak hadir di dalam dokumen. 29

30 • Terdapat 3 dokumen berikut:
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Contoh • Terdapat 3 dokumen berikut: 30

31 • Bobot (weight): tij = 1 jika dokumen i
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Pembobotan Biner • Bobot (weight): tij = 1 jika dokumen i mengandung term j dan nol jika tidak 31

32 • Ruang vektor Term • Vector Ruang Vektor dengan Bobot
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Ruang Vektor dengan Bobot • Ruang vektor Term Ruang n-dimensi, dimana n adalah jumlah term berbeda yang digunakan untuk meng-indeks himpunan dokumen (yaitu ukuran dari daftar kata). • Vector Dokumen j direpresentasikan dengan vektor kolom. Besarnya dalam dimensi i adalah tij, dimana: tij > 0 jika term i muncul dalam dokumen j tij = 0 jika tidak tij adalah bobot dari term i dalam dokumen j. 32

33 • Ruang vektor term merupakan matriks sangat
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Matriks Jarang • Ruang vektor term merupakan matriks sangat jarang. • Inverted file adalah cara efisien untuk merepresentasikan suatu ruang vektor term. Juga menyediakan metode mudah untuk menyimpan data tambahan. • Kebanyakan metode penyimpanan matriks jarang dirancang untuk pemrosesan baris atau kolom. Inverted file dikelola untuk pemrosesan baris, yaitu semua informasi mengenai suatu term yang diberikan disimpan bersama. 33

34 • Inverted file merupakan daftar term pencarian
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Inverted File • Inverted file merupakan daftar term pencarian yang diatur untuk associative look-up, untuk menjawab pertanyaan: – Dalam dokumen mana term pencarian tertentu hadir? – Dimana dalam setiap dokumen setiap term hadir? (mungkin beberapa kemunculan) • Dalam sistem pencarian teks bebas, daftar kata dan file posting bersama-sama menyediakan suatu sistem inverted file. Juga mengandung data yang diperlukan untuk menghitung bobot dan informasi yang digunakan untuk menampilkan hasil. 34

35 • Daftar kata adalah daftar
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Inverted File - Definisi • Daftar kata adalah daftar semua term berbeda dalam corpus setelah menghilangkan stop words & stemming. Kadang disebut pula vocabulary file. 35

36 • Posting: Entri di dalam sistem inverted file yang
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Inverted File - Definisi • Posting: Entri di dalam sistem inverted file yang mewakili instance term dari dalam suatu dokumen, misal: ada 3 posting untuk "abacus": "abacus" dalam dokumen 3 • Inverted List: Daftar semua posting dalam sistem inverted file yang menunjukkan kata tertentu, misal: "abacus" dalam dokumen 3, 19 & 22 • Ini merupakan representasi sparse dari suatu baris dalam matriks vektor term 36

37 • Contoh: abacus and actor
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Inverted File & Query Boolean • Contoh: abacus and actor Posting abacus Posting actor • Hanya dokumen 19 yang mengandung term "abacus" dan "actor". 37

38 • Lokasi: Setiap posting memegang informasi
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Peningkatan Inverted File • Lokasi: Setiap posting memegang informasi mengenai lokasi dari setiap term di dalam dokumen. Penggunaan – Rancangan antarmuka pengguna - highlight lokasi dari term pencarian operator adjacency dan near (dalam pencarian boolean) • Frekuensi: Setiap inverted list menyertakan jumlah posting dari setiap term. – Pembobotan term 38 – Optimisasi pemrosesan query

39 Peningkatan Inverted File
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Peningkatan Inverted File 39

40 • Contoh: abacus adj actor
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Evaluasi Operasi Adjacency • Contoh: abacus adj actor • Dokumen 19, lokasi 63 dan 64, lokasi munculnya term "abacus" dan "actor" adjacent. 40

41 Query: (abacus or asp*) and actor
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Pencocokan Query (Boolean) Query: (abacus or asp*) and actor 1. Dari file index (daftar kata), temukan file posting: "abacus" setiap kata yang diawali "asp" "actor" 2. Gabungkan posting list ini. Untuk setiap dokumen yang muncul dalam postings list, evaluasi ekspresi Boolean untuk melihat apakah true atau false. Langkah 2 sebaiknya diselesaikan dalam satu langkah 41

42 Posting File & Pencocokan Query
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Posting File & Pencocokan Query 42

43 • Metode yang didiskusikan sejauh ini
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Kemiripan & Ranking • Metode yang didiskusikan sejauh ini hanya menangani query boolean • Dapatkah kita mengidentifikasi dokumen berdasarkan pada kemiripan? • Bagaimana kita meranking hasil pencarian? 43

44 • Panjang dari x diberikan oleh:
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Revisi Ruang Vektor x = (x1, x2, ..., xn) adalah vektor dalam ruang vektor n-dimensi • Panjang dari x diberikan oleh: |x|2 = x12 + x22 + x xn2 Jika x1 dan x2 merupakan vektor: • Inner product (atau dot product): x1.x2 = x11x21 + x12x22 + x13x x1nx2n • Cosinus sudut antara vektor x1 dan x2: 44

45 • Seberapa mirip dokumen-dokumen berikut?
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Kemiripan (Tanda Bobot) • Seberapa mirip dokumen-dokumen berikut? 45

46 • tij = 1 jika term i dalam dokumen j dan nol jika tidak
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Ruang Vektor Term • tij = 1 jika term i dalam dokumen j dan nol jika tidak 46

47 Contoh: Perbandingan Dokumen
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Contoh: Perbandingan Dokumen 47

48 Kemiripan Query & Dokumen
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Kemiripan Query & Dokumen (Vektor 3-Dimensi) 48

49 Kemiripan Query & Dokumen
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Kemiripan Query & Dokumen 49

50 Matriks Munculnya Term
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Matriks Munculnya Term 50

51 • Kemiripan query terhadap dokumen dalam contoh:
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Hitung Ranking • Kemiripan query terhadap dokumen dalam contoh: • Jika query q dicarikan terhadap himpunan dokumen ini, hasil teranking adalah d2, d1, d3 51

52 • [Ini merupakan praktis standard]
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Kemiripan Vektor dalam IR? • Ranking untuk setiap query q, kembalikan n dokumen paling mirip yang diranking sesuai kemiripannya. • [Ini merupakan praktis standard] 52

53 Ukuran kemiripan perlu ditingkatkan:
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Pembobotan Term Ukuran kemiripan perlu ditingkatkan: (a) Apakah term umum atau tak-biasa (b) Berapa kali setiap term muncul dalam suatu dokumen (c) Panjang dari dokumen (d) Tempat dalam dokumen dimana term term muncul (e) Term-term yang adjacent satu dengan lainnya (frase) 53

54 • Makin sering term dalam dokumen maka
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Bobot Term: Term Frequency • Makin sering term dalam dokumen maka makin penting, makin menunjukkan topik. fij = frekuensi term i dalam dokumen j • Term frequency (tf) ini dapat dinormalisasi terhadap corpus lengkap tfij = fij / max{fij} dimana max adalah terhadap semua term dalam dokumen j 54

55 Bobot Term: Inverse Document frequency
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Bobot Term: Inverse Document frequency • Term-term yang munvul dalam banyak dokumen berbeda kurang menunjukkan topik keseluruhan. dfi = frekuensi dokumen dari term i = jumlah dokumen yang mengandung term i idfi = inverse document frequency dari term i, = log2 (N / df i) (N: jumlah total dari dokumen) • Indikasi dari kekuatan diskriminasi term. • Log digunakan untuk memperkecil efek relatif terhadap tf. 55

56 • Bobot yang OK harus diambil, karena:
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Pembobotan TF-IDF • Bobot yang OK harus diambil, karena: – Hitungan isi intra-document (kemiripan) • Faktor tf, term frequency dalam suatu dokumen – Hitungan inter-documents berbeda (ketidakmiripan) • Faktor idf, inverse document frequency • Indikator kepentingan term kombinasi adalah pembobotan tf-idf : wij = tfij idfi = tfij log2 (N / dfi) 56

57 • Suatu term sering muncul dalam dokumen
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Pembobotan TF-IDF • Suatu term sering muncul dalam dokumen tetapi jarang dalam sisa koleksi diberikan bobot tinggi. • Banyak cara lain menentukan bobot term diusulkan. • Pada eksperiment, tf-idf berkeja dengan baik. 57

58 • Diberikan suatu dokumen mengandung term
Model Temu-Balik Informasi Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Menghitung TF-IDF • Diberikan suatu dokumen mengandung term dengan frekuensi: A(3), B(2), C(1) • Misal: koleksi memuat 10,000 dokumen dan frekuensi dokumen dari term-term ini adalah A(50), B(1300), C(250) • Maka: A: tf = 3/3; idf = log(10000/50) = 5.3; tf-idf = 5.3 B: tf = 2/3; idf = log(10000/1300) = 2.0; tf-idf = 1.3 C: tf = 1/3; idf = log(10000/250) = 3.7; tf-idf = 1.2 58

59 Menghitung TF-IDF 59 Model Temu-Balik Informasi
Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Menghitung TF-IDF 59

60 Menghitung TF-IDF 60 Model Temu-Balik Informasi
Sistem Temu-Balik Komputer Keamanan Informasi Informasi Keamanan Menghitung TF-IDF 60

61 61 Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan
Sistem Temu-Balik Komputer 61


Download ppt "Model Temu-Balik Informasi"

Presentasi serupa


Iklan oleh Google