TEXT OPERATION Muhammad Yusuf Teknik Multimedia dan Jaringan

Slides:



Advertisements
Presentasi serupa
Konsep Dasar Sistem Temu Kembali Informasi
Advertisements

Praktikum Sistem Temu Balik Informasi
BASIS DATA LANJUTAN.
StopList dan Stemming yasmi afrizal
Sistem Temu-Balik Pengantar Temu-Balik Informasi Pertemuan ke-2
DATABASE & TABLE By : d e w i.
Pengenalan Data Warehouse
“Image Retrieval” Shinta P.
Text Mining.
OASE Project Husni Komputasi.wordpress.com oaseproject.trunojoyo.ac.id O pen & A ctive S earch E ngine.
Mata Kuliah :Web Mining Dosen
di Sistem Temu Balik Informasi (STBI) Syafri Arlis, S.Kom, M.Kom
Sistem Temu Kembali Informasi/ Information Retrieval
Muhammad Yusuf Teknik Multimedia dan Jaringan UNIVERSITAS TRUNOJOYO.
Pertemuan ke-2 Model dalam sistem temu kembali informasi yasmi afrizal
Information Retrieval
PENGANTAR DATA MINING.
Gambar Kerangka dari sistem temu-kembali informasi sederhana
Text Mining Patrick Cash.
Informasi Dalam Praktik
Sistem Temu-Balik Informasi INFORMATION RETRIEVAL SYSTEMS (IRS)
Final Project Temu Balik Informasi
Text Pre-Processing M. Ali Fauzi.
Review Jurnal Nasional
METODE DAN MODEL TEMU BALIK INFORMASI Luthfi Nurrohman ( )
Temu Balik Informasi BY : Taufik Ari Arnandan ( )
Penambangan data Pertemuan 2.
TEMU BALIK INFORMASI.
Pertemuan 7 : Latent Semantic Indexing
Text Mining and Information Retrieval
Natural Language Processing (NLP)
TEMU BALIK INFORMASI Multimedia Dalam Temu Balik Informasi.
DATAWAREHOUSING & BUSINESS INTELLIGENT <<Pertemuan – 12>>
EFEKTIFITAS SELEKSI FITUR DALAM SISTEM TEMU-KEMBALI INFORMASI
Temu Balik Informasi Materi Pertemuan Ke – 3 Stoplist dan Stemming
Anggota Kelompok : Kurniawan Novi Pambudi
PENGINDEKSAN.
Sistem Temu-Balik Informasi yasmi afrizal
Stoplist dan Stemming Anggota Kelompok :
STOPLIST DAN STEEMING Temu Balik Informasi.
Text Preprocessing.
Data dan Informasi Daurat Sinaga, M.Kom.
SISTEM TEMU KEMBALI INFORMASI
Perkenalan Pertemuan ke-1 Sistem Temu-Balik Informasi.
VECTOR SPACE MODEL.
Temu balik informasi Anggota Kelompok Ikhsan Fauji
Data Mining.
TEMU BALIK INFORMASI TI 14 A.
TUJUAN (1) Mahasiswa dapat menjelaskan Ilmu Pengolahan Text dan Informasi. (C2) Mahasiswa dapat menjelaskan Model-model Sistem Temu Balik Informasi. (C2)
Review Konsep Dasar IRS/ STI
Sistem temu balik multimedia
StopList dan Stemming yasmi afrizal
STOPWORDLIST dan STEMMING
Business Intelligent Ramos Somya, S.Kom., M.Cs.
KELOMPOK 6 Nama Kelompok: Lulus Irmawati ( )
Temu Balik Informasi Anggota Kelomopok :
Sistem Temu-Balik Informasi INFORMATION RETRIEVAL SYSTEMS (IRS)
Teknik Informatika Universitas Trunojoyo Semester Genap
Database Management System
Text Mining ..
Pengenalan Temu Balik Informasi.
M Ali Fauzi Indriati Sigit Adinugroho
Nugraha Iman Santosa ( )
Pembobotan Kata (Term Weighting)
CLUSTERING.
Information Retrieval “Document Preprocessing”
FEATURE SELECTION.
TEXT MINING.
Cross-Language Information Retrieval (CLIR)
Stored Procedure & Trigger
Transcript presentasi:

TEXT OPERATION Muhammad Yusuf Teknik Multimedia dan Jaringan Universitas Trunojoyo Madura

Knowledge Discovering Technique Knowledge Discovery adalah teknik yang digunakan untuk mengaplikasikan hasil dari data mining dan memberikan pengertian terhadap hasil tersebut. Beberapa tekniknya antara lain : Ontology construction Clustering Text categorization Subtechniques: - information extraction, text analysis

Ontology Construction An ontology adalah suatu konsep hierarki yang terstruktur menggambarkan domain yang spesifik dari pengetahuan, yang dapat digunakan untuk membuat basis pengetahuan. Ontology berisi konsep, a subsumption hierarchy, hubungan yang berubah-ubah diantara konsep, dan aksioma. Hal ini berarti berisi batasan dan fungsi lainnya.

Clustering Clustering adalah metode analisa data, yang sering dimasukkan sebagai salah satu metode Data Mining, yang tujuannya adalah untuk mengelompokkan data dengan karakteristik yang sama ke suatu ‘wilayah’ yang sama dan data dengan karakteristik yang berbeda ke ‘wilayah’ yang lain

Information Extraction The Information Extraction (IE) task: dari masing- masing teks dalam sekumpulan teks natural language yang mengekstraksi informasi tentang predefined Classes dari entitas dan hubungan serta tempat dari informasi ini ke dalam template atau database record.

Text Categorization Text categorization yaitu proses pengelompokan Dokumen yang bisa berupa konten web page, ke dalam beberapa kelas yang telah ditentukan. Jika tidak ada overlap antar kelas, yaitu Setiap dokumen hanya dikelompokan kedalam satu kelas maka text categorization ini disebut single label text categorization . Text categorization bertujuan untuk menemukan model dalam mengkategorisasikan teks natural language. Model tersebut akan digunakan untuk menentukan kelas dari suatu dokumen.

Text Analysis Text analytics menggambarkan tentang kumpulan linguistik, statistikal, dan teknik machine learning yang memodelkan dan menyusun konten informasi dari sumber tekstual untuk business intelligence, exploratory data analysis, research, atau investigasi.

Text Operation Ada 2 yaitu : General Document Preprocessing Query Preprocessing

General Document Preprocessing 1. Lexical analysis/Tokenization (memilah kalimat per kata) 2. Parts-of-speech tagging (menemukan bagian-bagian kalimat) 3. Stopwords (menghapus kata yang tidak perlu) 4. Stemming/lemmatization (menghapus variasi kata untuk mendapatkan kata dasar) 5. Index terms. 6. Thesaurus (daftar kesamaan kata)

Query Preprocessing 1. Phrasing (menggabungkan kata yang memiliki arti khusus) 2. Anti-phrasing (menghilangkan kata-kata yang dapat mengganggu proses pencarian)

General Document Preprocessing

1. Lexical Analysis / Tokenization Memilah Kata perkata berdasar : Angka Tanda penghubung Tanda baca Othographic variation

Contoh Tokenization Saya sedang kuliah di Universitas Trunojoyo Madura. Pemotongan Pertama Saya // Sedang // kuliah // di // Universitas //Trunojoyo // Madura //

2. Parts-of-speech tagging Menemukan bagian-bagian kalimat Saya (s) sedang(ket) kuliah(kk) di(ks) Universitas Trunojoyo Madura (o). Pemakaian POS Menghapus perbedaan yang tidak relevan Menghapus Ambiguities Membantu Steamming Membantu Mencari Kata Benda

3. Stopword menghapus kata sambung Alasan pemakaian stopword Hampir 80% kata dalam suatu dokumen tidak bisa digunakan dalam IR Mengurangi jumlah index (40%)

Contoh Stopword Kata Ganti (kami, kita, mereka, itu) Kata Bilangan (beberapa, banyak, sedikit) Kata Keterangan (sangat, hanya, lebih) Kata Tugas (bagi, dari, dengan, pada) Kata Penghubung (sesudah, selesai,sebelum) dll

4. Stemming menghapus variasi kata untuk mendapatkan kata dasar Contoh Diperdengarkannya = Di per dengar kan nya Memperlakukan = mem per laku kan

Metoda Stemming Succesor Variety N-gram Stemmers Affiks Removal Stemmers - Longest Match - Simple Removal Table Look up

4. Lemmatization Memetakan kata kedalam satu kata yang diterima Contoh - Better => good - Best => good - Writes => write - Written => write

5. Selection of Index Terms All Word Not all words used as index terms - Nouns carry most of the semantics; - Noun group - combination of 2 or 3 nouns (computer science); (Collocations; to be analyzed later)

6. Thesaurus Control vocabulary untuk indexing dan searching Membuat list kata-kata yang penting Mengumpulkan kata lain yang berhubungan dengan kata dalam daftar kata penting

Query Preprocessing

1. Phrasing Beberapa kata kunci diinterpretasikan sebagai kalimat agar menaikkan keakuratan Contoh Information Retrieval => 1.000.000 doc “Information Retrieval” => 6.300 doc New york art museum ”New york” +art +museum +”Art Museum”

2. Anti-phrasing Menghapus kata yang tidak relevan dari sebuah kata kunci Contoh Where can I find the economist The economist

Phrasing vs Anti phrasing Where do I find the New York Phrasing Where do I find the “New York” Anti Phrasing “New York”