TEXT MINING.

Slides:



Advertisements
Presentasi serupa
KNOWLEGDE DISCOVERY in DATABASE (KDD)
Advertisements

Data Mining S2 Kom.
Aplikasi Basis Data.
Konsep Dasar Sistem Temu Kembali Informasi
Praktikum Sistem Temu Balik Informasi
BASIS DATA LANJUTAN.
Topik-Topik Lanjutan Sistem Informasi Johanes Kevin Lumadi Deny Setiawan Machliza Devi Sasmita Silvia Line Billie.
StopList dan Stemming yasmi afrizal
Sistem Temu-Balik Pengantar Temu-Balik Informasi Pertemuan ke-2
Konsep Dasar Sistem Temu Kembali Informasi
Pengertian Microsoft Access
Text Mining.
McGraw-Hill/Irwin Copyright © 2008, The McGraw-Hill Companies, Inc. All rights reserved.McGraw-Hill/Irwin Copyright © 2008 The McGraw-Hill Companies, Inc.
Data Mining.
Pertemuan XIV FUNGSI MAYOR Assosiation. What Is Association Mining? Association rule mining: –Finding frequent patterns, associations, correlations, or.
Mata Kuliah :Web Mining Dosen
Database Management System
Muhammad Yusuf Teknik Multimedia dan Jaringan UNIVERSITAS TRUNOJOYO.
Pertemuan ke-2 Model dalam sistem temu kembali informasi yasmi afrizal
Information Retrieval
Data Mining: Klasifikasi dan Prediksi Naive Bayesian & Bayesian Network . April 13, 2017.
PENGANTAR DATA MINING.
Pengenalan Data Mining
Text Mining Patrick Cash.
A rsitektur dan M odel D ata M ining. Arsitektur Data Mining.
Sistem Temu-Balik Informasi INFORMATION RETRIEVAL SYSTEMS (IRS)
Text Pre-Processing M. Ali Fauzi.
DATA MINING 25 Januari 2008.
Temu Balik Informasi BY : Taufik Ari Arnandan ( )
Penambangan data Pertemuan 2.
Presented by Team Basis Data
Text Mining and Information Retrieval
TEMU BALIK INFORMASI Multimedia Dalam Temu Balik Informasi.
DATAWAREHOUSING & BUSINESS INTELLIGENT <<Pertemuan – 12>>
EFEKTIFITAS SELEKSI FITUR DALAM SISTEM TEMU-KEMBALI INFORMASI
Sistem Temu-Balik Informasi yasmi afrizal
Text Preprocessing.
SISTEM TEMU KEMBALI INFORMASI
Perkenalan Pertemuan ke-1 Sistem Temu-Balik Informasi.
MODUL 06 – 1/19 MODUL 06 DATABASE MANAGEMENT SYSTEMS Tujuan Belajar
Pengenalan Pola Materi 1
Data Mining.
Konsep Data Mining Ana Kurniawati.
StopList dan Stemming yasmi afrizal
Data Mining.
Chapter 10 Manajemen Database
Deni Cynthia Cahya Kelvin Iskandar Yolanda Fluoren Melly Giana R
Business Intelligent Ramos Somya, S.Kom., M.Cs.
KELOMPOK 6 Nama Kelompok: Lulus Irmawati ( )
Classification Supervised learning.
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Temu Balik Informasi Anggota Kelomopok :
TEXT OPERATION Muhammad Yusuf Teknik Multimedia dan Jaringan
Introduction group DATA RESOURCE MANAGEMENT (Manajemen Sumber Daya Data) MEDICARE ( ) CANDRA NUR RAHMAN ( ) KHARISMA AGUNG ( )
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Analisis Klastering K-Means Model Datamining Kelompok 1 Eko Suryana
Sistem Temu-Balik Informasi INFORMATION RETRIEVAL SYSTEMS (IRS)
Concept Information Systems
Defri Kurniawan DATA dan INFORMASI Defri Kurniawan
USING DATA MINING TO MODEL PLAYER EXPERIENCE
Sistem & Informasi Sistem adalah kumpulan komponen yg bekerja bersama-sama, berinteraksi utk mencapai tujuan tertentu Informasi adalah data yg diolah menjadi.
Text Mining ..
M Ali Fauzi Indriati Sigit Adinugroho
Danang Wahyu Utomo DATA dan INFORMASI Danang Wahyu Utomo
Apa dan untuk apa data mining
Konsep Data Mining Ana Kurniawati.
Information Retrieval “Document Classification dengan Naive Bayes”
Information Retrieval “Document Preprocessing”
DECISION SUPPORT SYSTEM [MKB3493]
Intro Algoritma K-Nearest Neighbor (K- NN) adalah sebuah metode klasifikasi terhadap sekumpulan data maupun dokumen berdasarkan pembelajaran  data yang.
Transcript presentasi:

TEXT MINING

Complex Data Types Berkembangnya data komplek Spatial data: Data geographis, data kesehatan dan data gambar satellite Multimedia data: images, audio, dan video Time-series data: Data perbangkan dan stock exchange data Text data: Word descriptions for objects World-Wide-Web: teks dan data multimedia yang sangat tidak terstruktur FOCUS

Basisdata Teks Dalam prakteknya terdapat banyak basisdata teks: Artikel berita Paper riset Buku Perpustakaan digital E-mail Halaman web Berkembang dengan cepat, baik dari segi jumlah maupun kepentingan (80%)

Text Mining Text mining merujuk pada data mining yang menggunakan dokumen teks sebagai data Hampir semua tugas Text Mining menggunakan metode Information Retrieval (IR) untuk pra-proses dokumen teks. Metode ini sedikit berbeda daripada metode pra-proses data yang digunakan dalam tabel relasional Web search juga berakar pada IR

Text Mining Menemukan informasi yang berguna dari kumpulan teks besar dimana informasi sebelumnya tidak diketahui Pola Trends Associations (Hubungan yang menarik yang tersembunyi dalam dataset besar).

Definisi Text Mining Text mining di pahami sebagai proses secara otomatis untuk mengekstrak informasi yang bermakna, berguna, dimana sebelumnya tidak di ketahui dan pada akhirnya dapat di pahami dari penyimpanan dokumen tekstual. Text Mining = Data Mining (yang diterapkan dalam bentuk data teks) + basic linguistic

Text Mining Bagaimana Text Mining bekerja? Langkah dasar dalam text mining melibatkan konversi teks menjadi data semi terstruktur Setelah mengubah teks yang tidak terstruktur menjadi data semi terstruktur, langkah selanjutnya adalah menerapkan teknik analisis untuk proses classification, clustering, prediction Menemukan pola yang lebih baik dari hasil perubahan teks yang tidak terstruktur menjadi data semi terstruktur Melakukan pelatihan model untuk mendeteksi pola pada teks baru dan tidak terlihat

Text Processing

Word, Token and Tokenization Kata-kata dipisahkan oleh karakter khusus: a blank space Setiap kata disebut token Proses discretizing words dalam dokumen disebut tokenization Untuk tujuan kita di sini, setiap kalimat dapat dianggap sebagai dokumen terpisah, walaupun dokumen individual mungkin bergantung pada konteksnya Untuk saat ini, sebuah dokumen di sini hanyalah kumpulan token sekuensial

Perbedaan Data Mining dan Text Mining Object of Investigation Numerical and categorical data Texts Object structure Relational databases Free form texts Goal Predict outcames of future situations Retrieve relevant information, distill the meaning, categorize and target-deliver Methods Machine learning: SKAT, DT, NN, GA, MBR, MBA Indexing, special neural network processing, linguistics, ontologies Current market size 100.000 analysts at large and midsize companies 100.000.000 corporate workers and individual users Maturity Broad implementation since 1994 Broad implementation starting 2000

“Search” vs “Discover” (Goal-Oriented) Discover (Opportunistic) Structured Data Data Retrieval Data Mining Unstructured Data (Text) Information Retrieval Text Mining Discover = temukan Information Retrieval (IR) atau sering disebut “temu kembali infromasi” adalah ilmu yang mempelajari prosedur-prosedur dan metode-metode untuk menemukan kembali informasi yang tersimpan dari berbagai sumber (resources) yang relevan atau koleksi sumber informasi yang dicari atau dibutuhkan. Dengan tindakan  index (indexing), panggilan (searching), pemanggilan data kembali (recalling).

Aplikasi Text Mining Pemasaran: Menemukan kelompok pembeli yang potensial berdasarkan profil teks pengguna. Contoh: Amazon Industri: Mengidentifikasi situs web kelompok pesaing Contoh: pesaing dan harganya Pencarian kerja: Mengidentifikasi parameter dalam pencarian pekerjaan Contoh: www.flipdog.com

Aplikasi Text Mining Search engines Enterprise portals Knowledge management systems e-Business systems Vertical applicaton E-mail categorization and routing Call center notes categorization CRM Systems

Search Subsystem Stemmed terms = istilah bertangkai Inverted file system = system file terbaik

Indexing Subsystem

Text Mining

Proses Text Mining

Proses Text Mining Text preprocessing Syntactic/Semantic text analysis Features Generation Bag of words Features Selection Simple counting Statistics Text/Data Mining Classification-Supervised learning Clustering-Unsupervised learning Analyzing results

Text Mining: Classification Definition Given: Kumpulan dari labeled records (Training set) Setiap record berisi satu set feature (attributes), dan class yang benar (label) Find: Model untuk class sebagai fungsi dari nilai fitur Goal: records yang belum tercatat, harus ditentukan class nya secara akurat. Data Uji digunakan untuk menentukan keakuratan model. Kumpulan data dibagi menjadi data training dan data uji, dengan data training digunakan untuk membangun model dan data uji digunakan untuk mem-validasi

Text Mining: Clustering Definition Given: satu set document dan ukuran kesamaan antar dokumen Find: cluster seperti; Dokumen dalam satu cluster memiliki kemiripan Dokumen dalam kelompok yang terpisah tidak memiliki kemiripan Goal: Menemukan dokumen yang benar Mengukur kemiripan: Euclidean distance jika atribut bersifat continuous Tindakan khusus untuk masalah lainnya. mis: berapa banyak kata yang umum dalam dokumen tersebut

Classification: An Example

Text Classification: An Example

Terima Kasih