Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

TEXT OPERATION Muhammad Yusuf Teknik Multimedia dan Jaringan

Presentasi serupa


Presentasi berjudul: "TEXT OPERATION Muhammad Yusuf Teknik Multimedia dan Jaringan"— Transcript presentasi:

1 TEXT OPERATION Muhammad Yusuf Teknik Multimedia dan Jaringan
Universitas Trunojoyo Madura

2 Knowledge Discovering Technique
Knowledge Discovery adalah teknik yang digunakan untuk mengaplikasikan hasil dari data mining dan memberikan pengertian terhadap hasil tersebut. Beberapa tekniknya antara lain : Ontology construction Clustering Text categorization Subtechniques: - information extraction, text analysis

3 Ontology Construction
An ontology adalah suatu konsep hierarki yang terstruktur menggambarkan domain yang spesifik dari pengetahuan, yang dapat digunakan untuk membuat basis pengetahuan. Ontology berisi konsep, a subsumption hierarchy, hubungan yang berubah-ubah diantara konsep, dan aksioma. Hal ini berarti berisi batasan dan fungsi lainnya.

4 Clustering Clustering adalah metode analisa data, yang sering dimasukkan sebagai salah satu metode Data Mining, yang tujuannya adalah untuk mengelompokkan data dengan karakteristik yang sama ke suatu ‘wilayah’ yang sama dan data dengan karakteristik yang berbeda ke ‘wilayah’ yang lain

5 Information Extraction
The Information Extraction (IE) task: dari masing- masing teks dalam sekumpulan teks natural language yang mengekstraksi informasi tentang predefined Classes dari entitas dan hubungan serta tempat dari informasi ini ke dalam template atau database record.

6 Text Categorization Text categorization yaitu proses pengelompokan Dokumen yang bisa berupa konten web page, ke dalam beberapa kelas yang telah ditentukan. Jika tidak ada overlap antar kelas, yaitu Setiap dokumen hanya dikelompokan kedalam satu kelas maka text categorization ini disebut single label text categorization . Text categorization bertujuan untuk menemukan model dalam mengkategorisasikan teks natural language. Model tersebut akan digunakan untuk menentukan kelas dari suatu dokumen.

7 Text Analysis Text analytics menggambarkan tentang kumpulan linguistik, statistikal, dan teknik machine learning yang memodelkan dan menyusun konten informasi dari sumber tekstual untuk business intelligence, exploratory data analysis, research, atau investigasi.

8 Text Operation Ada 2 yaitu : General Document Preprocessing
Query Preprocessing

9 General Document Preprocessing
1. Lexical analysis/Tokenization (memilah kalimat per kata) 2. Parts-of-speech tagging (menemukan bagian-bagian kalimat) 3. Stopwords (menghapus kata yang tidak perlu) 4. Stemming/lemmatization (menghapus variasi kata untuk mendapatkan kata dasar) 5. Index terms. 6. Thesaurus (daftar kesamaan kata)

10 Query Preprocessing 1. Phrasing (menggabungkan kata yang memiliki arti khusus) 2. Anti-phrasing (menghilangkan kata-kata yang dapat mengganggu proses pencarian)

11 General Document Preprocessing

12 1. Lexical Analysis / Tokenization
Memilah Kata perkata berdasar : Angka Tanda penghubung Tanda baca Othographic variation

13 Contoh Tokenization Saya sedang kuliah di Universitas Trunojoyo
Madura. Pemotongan Pertama Saya // Sedang // kuliah // di // Universitas //Trunojoyo // Madura //

14 2. Parts-of-speech tagging
Menemukan bagian-bagian kalimat Saya (s) sedang(ket) kuliah(kk) di(ks) Universitas Trunojoyo Madura (o). Pemakaian POS Menghapus perbedaan yang tidak relevan Menghapus Ambiguities Membantu Steamming Membantu Mencari Kata Benda

15 3. Stopword menghapus kata sambung Alasan pemakaian stopword
Hampir 80% kata dalam suatu dokumen tidak bisa digunakan dalam IR Mengurangi jumlah index (40%)

16 Contoh Stopword Kata Ganti (kami, kita, mereka, itu)
Kata Bilangan (beberapa, banyak, sedikit) Kata Keterangan (sangat, hanya, lebih) Kata Tugas (bagi, dari, dengan, pada) Kata Penghubung (sesudah, selesai,sebelum) dll

17 4. Stemming menghapus variasi kata untuk mendapatkan kata dasar Contoh
Diperdengarkannya = Di per dengar kan nya Memperlakukan = mem per laku kan

18 Metoda Stemming Succesor Variety N-gram Stemmers
Affiks Removal Stemmers - Longest Match - Simple Removal Table Look up

19 4. Lemmatization Memetakan kata kedalam satu kata yang diterima Contoh
- Better => good - Best => good - Writes => write - Written => write

20 5. Selection of Index Terms
All Word Not all words used as index terms - Nouns carry most of the semantics; - Noun group - combination of 2 or 3 nouns (computer science); (Collocations; to be analyzed later)

21 6. Thesaurus Control vocabulary untuk indexing dan searching
Membuat list kata-kata yang penting Mengumpulkan kata lain yang berhubungan dengan kata dalam daftar kata penting

22 Query Preprocessing

23 1. Phrasing Beberapa kata kunci diinterpretasikan
sebagai kalimat agar menaikkan keakuratan Contoh Information Retrieval => doc “Information Retrieval” => doc New york art museum ”New york” +art +museum +”Art Museum”

24 2. Anti-phrasing Menghapus kata yang tidak relevan dari
sebuah kata kunci Contoh Where can I find the economist The economist

25 Phrasing vs Anti phrasing
Where do I find the New York Phrasing Where do I find the “New York” Anti Phrasing “New York”


Download ppt "TEXT OPERATION Muhammad Yusuf Teknik Multimedia dan Jaringan"

Presentasi serupa


Iklan oleh Google