Upload presentasi
Presentasi sedang didownload. Silahkan tunggu
Diterbitkan olehDony Ronald Telah diubah "9 tahun yang lalu
1
Muhammad Yusuf Http://yusufxyz.wordpress.com Teknik Multimedia dan Jaringan UNIVERSITAS TRUNOJOYO
2
Document Collection (Mengumpulkan Document/Informasi) Document Retrieval (Mengakses Document/Informasi) Text Mining (analisa berdasarkan linguistic) Ontologies (pemodelan untuk merepresentasikan object dalam type, properties, dan relasinya)
4
Domain (dependent or independent) Ketergantungan dgn dokumen lain Structured or Non Structured Texts Memiliki struktur khusus or tidak, contoh : HTML Formated or Non Formated Documents Memiliki format khusus or tidak, contoh : Doc vs Txt Textual or Multimedia Documents Berupa text atau multimedia
5
Monolingual or Multilingual Documents Berupa satu bahasa or banyak bahasa Centralized or Non Centralized Document Management Lokasi dokumen satu tempat or banyak tempat Controlled or Free Additional of Doc Pengaksesannya butuh login or tidak Stable or Non Stable Collections Ketersediaannya tetap or tidak tetap.
6
Inconsistent Document Incomplete descriptions Duplicates or Worse Different terminologies/ languange/ perspective/ abriviation
8
QUERY INTERPRETATION (Menggunakan Query) DOCUMENTS INDEXING (Menggunakan Index) RANGKING OF RETRIEVED DOCUMENTS (mengurutkan sesuai rangkingn tertentu) LINGUISTIC AND STATISTICAL Contoh : Search Engine
9
Google
11
AllTheWeb from Fast Search & Transfer (2002) Index: 2,1 GB documents Languages supported: 52 Linguistics used: Lemmatization, language identification, phrasing, anti-phrasing, text categorization, clustering, offensive content reduction, finite-state automata 30 mill. queries per hari
13
VOLUME DATA Sangat besar dan berkembang dinamis Tersebar dibanyak tempat dan beda platform MULTITUDE OF LANGUAGES Multilingual web 40-50 languages used on the web Many text encoding standart
15
DOCUMENT QUALITY Missplelings (Salah eja) Spam and offensive content (isi sampah) Little text (isi tidak menggmbarkan) All topics USER BEHAVIOUR Misspellings (Salah eja) Query length and query session (panjang dan seberapa sering) Document yang dilihat umumnya yang diatas
16
LINGUISTIC ANALYSIS Merubah bentuk Document or menambahkan information (memilah dalam S,O,P,Pre dls) Tagging (potongan kata yg memiliki arti), lemmatization (mengindentifikasi satu kata dari berbagai perubahan bentuk) KNOWLEDGE DISCOVERING IN TEXT Menemukan Bentuk Memisahkan Dan Menemukan Kesalahan Statistical and linguistic aproach
17
walk, walked, walks, walking -> walk run, runs, ran, running ->run go, goes, going, went, gone ->go
18
Concept extraction Ontology construction TOC construction Clustering Text categorization Subtechniques: - information extraction, text analysis
19
HUBUNGAN ANTAR BAGIAN DALAM SUATU OBJECT YANG DIGAMBARKAN Conceptual modelling Document Analysis & Text Mining Standarization Work
Presentasi serupa
© 2024 SlidePlayer.info Inc.
All rights reserved.