Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

Muhammad Yusuf Teknik Multimedia dan Jaringan UNIVERSITAS TRUNOJOYO.

Presentasi serupa


Presentasi berjudul: "Muhammad Yusuf Teknik Multimedia dan Jaringan UNIVERSITAS TRUNOJOYO."— Transcript presentasi:

1 Muhammad Yusuf Http://yusufxyz.wordpress.com Teknik Multimedia dan Jaringan UNIVERSITAS TRUNOJOYO

2  Document Collection (Mengumpulkan Document/Informasi)  Document Retrieval (Mengakses Document/Informasi)  Text Mining (analisa berdasarkan linguistic)  Ontologies (pemodelan untuk merepresentasikan object dalam type, properties, dan relasinya)

3

4  Domain (dependent or independent) Ketergantungan dgn dokumen lain  Structured or Non Structured Texts Memiliki struktur khusus or tidak, contoh : HTML  Formated or Non Formated Documents Memiliki format khusus or tidak, contoh : Doc vs Txt  Textual or Multimedia Documents Berupa text atau multimedia

5  Monolingual or Multilingual Documents Berupa satu bahasa or banyak bahasa  Centralized or Non Centralized Document Management Lokasi dokumen satu tempat or banyak tempat  Controlled or Free Additional of Doc Pengaksesannya butuh login or tidak  Stable or Non Stable Collections Ketersediaannya tetap or tidak tetap.

6  Inconsistent Document  Incomplete descriptions  Duplicates or Worse  Different terminologies/ languange/ perspective/ abriviation

7

8  QUERY INTERPRETATION (Menggunakan Query)  DOCUMENTS INDEXING (Menggunakan Index)  RANGKING OF RETRIEVED DOCUMENTS (mengurutkan sesuai rangkingn tertentu)  LINGUISTIC AND STATISTICAL Contoh : Search Engine

9  Google

10

11  AllTheWeb from Fast Search & Transfer (2002)  Index: 2,1 GB documents  Languages supported: 52  Linguistics used: Lemmatization, language identification, phrasing, anti-phrasing, text categorization, clustering, offensive content reduction, finite-state automata  30 mill. queries per hari

12

13  VOLUME DATA Sangat besar dan berkembang dinamis Tersebar dibanyak tempat dan beda platform  MULTITUDE OF LANGUAGES Multilingual web 40-50 languages used on the web Many text encoding standart

14

15 DOCUMENT QUALITY  Missplelings (Salah eja)  Spam and offensive content (isi sampah)  Little text (isi tidak menggmbarkan)  All topics USER BEHAVIOUR  Misspellings (Salah eja)  Query length and query session (panjang dan seberapa sering)  Document yang dilihat umumnya yang diatas

16 LINGUISTIC ANALYSIS  Merubah bentuk Document or menambahkan information (memilah dalam S,O,P,Pre dls)  Tagging (potongan kata yg memiliki arti), lemmatization (mengindentifikasi satu kata dari berbagai perubahan bentuk) KNOWLEDGE DISCOVERING IN TEXT  Menemukan Bentuk  Memisahkan Dan Menemukan Kesalahan  Statistical and linguistic aproach

17  walk, walked, walks, walking -> walk  run, runs, ran, running ->run  go, goes, going, went, gone ->go

18  Concept extraction  Ontology construction  TOC construction  Clustering  Text categorization  Subtechniques: - information extraction, text analysis

19 HUBUNGAN ANTAR BAGIAN DALAM SUATU OBJECT YANG DIGAMBARKAN  Conceptual modelling  Document Analysis & Text Mining  Standarization Work

20

21


Download ppt "Muhammad Yusuf Teknik Multimedia dan Jaringan UNIVERSITAS TRUNOJOYO."

Presentasi serupa


Iklan oleh Google