Muhammad Yusuf Teknik Multimedia dan Jaringan UNIVERSITAS TRUNOJOYO
Document Collection (Mengumpulkan Document/Informasi) Document Retrieval (Mengakses Document/Informasi) Text Mining (analisa berdasarkan linguistic) Ontologies (pemodelan untuk merepresentasikan object dalam type, properties, dan relasinya)
Domain (dependent or independent) Ketergantungan dgn dokumen lain Structured or Non Structured Texts Memiliki struktur khusus or tidak, contoh : HTML Formated or Non Formated Documents Memiliki format khusus or tidak, contoh : Doc vs Txt Textual or Multimedia Documents Berupa text atau multimedia
Monolingual or Multilingual Documents Berupa satu bahasa or banyak bahasa Centralized or Non Centralized Document Management Lokasi dokumen satu tempat or banyak tempat Controlled or Free Additional of Doc Pengaksesannya butuh login or tidak Stable or Non Stable Collections Ketersediaannya tetap or tidak tetap.
Inconsistent Document Incomplete descriptions Duplicates or Worse Different terminologies/ languange/ perspective/ abriviation
QUERY INTERPRETATION (Menggunakan Query) DOCUMENTS INDEXING (Menggunakan Index) RANGKING OF RETRIEVED DOCUMENTS (mengurutkan sesuai rangkingn tertentu) LINGUISTIC AND STATISTICAL Contoh : Search Engine
AllTheWeb from Fast Search & Transfer (2002) Index: 2,1 GB documents Languages supported: 52 Linguistics used: Lemmatization, language identification, phrasing, anti-phrasing, text categorization, clustering, offensive content reduction, finite-state automata 30 mill. queries per hari
VOLUME DATA Sangat besar dan berkembang dinamis Tersebar dibanyak tempat dan beda platform MULTITUDE OF LANGUAGES Multilingual web languages used on the web Many text encoding standart
DOCUMENT QUALITY Missplelings (Salah eja) Spam and offensive content (isi sampah) Little text (isi tidak menggmbarkan) All topics USER BEHAVIOUR Misspellings (Salah eja) Query length and query session (panjang dan seberapa sering) Document yang dilihat umumnya yang diatas
LINGUISTIC ANALYSIS Merubah bentuk Document or menambahkan information (memilah dalam S,O,P,Pre dls) Tagging (potongan kata yg memiliki arti), lemmatization (mengindentifikasi satu kata dari berbagai perubahan bentuk) KNOWLEDGE DISCOVERING IN TEXT Menemukan Bentuk Memisahkan Dan Menemukan Kesalahan Statistical and linguistic aproach
walk, walked, walks, walking -> walk run, runs, ran, running ->run go, goes, going, went, gone ->go
Concept extraction Ontology construction TOC construction Clustering Text categorization Subtechniques: - information extraction, text analysis
HUBUNGAN ANTAR BAGIAN DALAM SUATU OBJECT YANG DIGAMBARKAN Conceptual modelling Document Analysis & Text Mining Standarization Work