Oleh: Achmad Zakki Falani Universitas Narotama Fakultas Ilmu Komputer Pertemuan III Topik Khusus 1 Oleh: Achmad Zakki Falani Universitas Narotama Fakultas Ilmu Komputer
Permasalahan Kenapa Harus ada DM?.. Topik Khusus 1 Permasalahan Kenapa Harus ada DM?.. Data yang disimpan dalam waktu yang lama akan menjadi kumpulan data yang berukuran sangat besar. Permasalahan: Bagaimana caranya agar data tersebut dapat menjadi PENGETAHUAN / KNOWLEDGE (INFORMASI yang PENTING / BERHARGA).
Definis Data Mining Topik Khusus 1 Ekstraksi atau "menambang" pengetahuan dari data dalam jumlah yang besar. (Jia Weihan) Proses pencarian terhadap pengetahuan – yang sebelumnya tidak diketahui; valid; dan dapat digunakan ‐‐ dari database yang besar dan kemudian menggunakan pengetahuan tersebut untuk membuat keputusan bisnis yang penting. (Cabena)
Data Mining Solusi BI Topik Khusus 1 Apa itu Data Mining?.. Data?..
Istilah2 Database dalam DM Topik Khusus 1 Istilah2 Database dalam DM Field (Columns) = Attributes Record (Rows) = Instance
Topik Khusus 1 KDD vs DM Data Mining = Knowledge Discovery in Databases / KDD. (Cabena). Data Mining = subset (salah satu tahap) dari KDD saja (Jiawei Han). Batasan ini yang selanjutnya digunakan. KDD DM
Tujuan DM (1) Topik Khusus 1 Top Level Management Knowledge Medium Level Management Informasi Low Level Management Data Menemukan pola‐pola pengetahuan yang tersembunyi dalam data. Dimana knowledge tersebut dapat digunakan untuk decision making, process control, information management, atau query processing.
Tujuan DM (2) Topik Khusus 1 Contoh-contoh yang dapat dilakukan DM: Market segmentation ‐ Identify the common characteristics of customers who buy the same products from your company. Customer churn ‐ Predict which customers are likely to leave your company and go to a competitor. Fraud detection ‐ Identify which transactions are most likely to be fraudulent. Direct marketing ‐ Identify which prospects should be included in a mailing list to obtain the highest response rate. Interactive marketing ‐ Predict what each individual accessing a Web site is most likely interested in seeing. Market basket analysis ‐ Understand what products or services are commonly purchased together; e.g., beer and diapers. Trend analysis ‐ Reveal the difference between a typical customer this month and last. Sumber: http://www.laits.utexas.edu/~norman/BUS.FOR/course.mat/Alex
Jenis Data yang Dapat di Mining Topik Khusus 1 Jenis Data yang Dapat di Mining Non / Relational Databases Data Warehouse Transactional Database Text Database Multimedia Database World Wide Web (Web Mining)
Tahapan Proses KDD versi Jia Weihan Topik Khusus 1 Tahapan Proses KDD versi Jia Weihan Knowledge Evaluation & Presentation Patterns Data Mining Data Mining Selection & Transformation Data Warehouse Cleaning & Integration Database
Tahapan Proses KDD versi Peter Cabena Topik Khusus 1 Tahapan Proses KDD versi Peter Cabena Business Objective Determination Data Preparation: - Data Selection - Data Preprocessing - Data Transformation Data Mining Analisys of Results Knowledge
Business Objective Determination (1) Topik Khusus 1 Business Objective Determination (1) Mendefinisikan permasalahan atau tantangan bisnis dengan jelas. Tahapan ini sangat penting tapi sering diabaikan/jarang disebut. Dengan ditentukan Business Objective Determinationnya, dapat diketahui atribut mana yang diperlukan untuk proses mining
Business Objective Determination Contoh: Topik Khusus 1 Business Objective Determination Contoh: Suatu bank hendak melakukan penawaran produk investasi (reksadana), tabungan berjangka (deposito), atau aplikasi kartu kredit. Bank tersebut akan menggunakan data yang telah ada, dimana dari data tersebut didapatkan beberapa perilaku customer yang dapat dipelajari dan dijadikan referensi.
Data Preparation (2) Contoh: Topik Khusus 1 Data Cleaning: Digunakan untuk menghilangkan noise dan yang inkonsisten. Data integration: Menggabungkan berbagai macam sumber data.
Data Preparation (2) Topik Khusus 1 Mempersiapkan data yang diperlukan untuk proses data mining. Tujuan: agar data yang digunakan benar - benar sesuai dengan permasalahan yang akan dipecahkan, dapat dijamin kebernarannya, dan dalam format yang sesuai. Tahapan ini paling banyak menghabiskan resources (manusia, biaya, dan waktu) yang tersedia. Biasanya mencapai 60% dari seluruh proyek KDD
Motivasi Preparation (2) Topik Khusus 1 Motivasi Preparation (2) Garbage in Garbage Out: Tanpa tersedianya data yang berkualitas, hasil dari proses mining akan kurang bermutu / baik. Pengambilan keputusan yang bermutu harus dihasilkan dari data yang bermutu pula. Contoh: Alamat -> Surabaya sby sby-jatim
Noisy Data Topik Khusus 1 Noise adalah kesalahan yang terjadi secara random atau karena variasi yang terjadi dalam pengukuran variabel Bagaimana mengatasinya?? Solusi: Smoothing Pendekatan Smoothing: Binning Clustering Regression
Topik Khusus 1 Binning Metode‐metode binning menghaluskan nilai pada data yang terurut dengan memperhatikan nilai‐nilai yang ada di sekitarnya. Nilai‐nilai yang terurut didistribusikan ke dalam sejumlah “buckets” atau bins. Penghalusan data dilakukan secara lokal.
Binning Topik Khusus 1 Binning ada 3 pendekatan yaitu: Bin‐means Bin‐medians Bin‐boundaries
Contoh Soal Topik Khusus 1 Terdapat data acak dengan urutan sebagai berikut: 4,15,21,8,25,34,28,24,21 Lakukan binning dengan equidepth=3 Sorting data : 4,8,15,21,21,24,25,28,34 Partition into (equidepth) binning: Bin 1: 4, 8 , 15 Bin 2: 21, 21, 24 Bin 3: 25, 28, 34
Bin-Means (nilai rata-rata) Topik Khusus 1 Bin-Means (nilai rata-rata) Bin 1: 9, 9, 9 Bin 2: 22, 22, 22 Bin 3: 29, 29, 29
Bin-Median (nilai tengah) Topik Khusus 1 Bin-Median (nilai tengah) Bin 1: 8, 8, 8 Bin 2: 21, 21, 21 Bin 3: 28, 28, 28
Bin-Boundaris (nilai batas) Topik Khusus 1 Bin-Boundaris (nilai batas) Bin 1: 4, 4, 15 Bin 2: 21, 21, 24 Bin 3: 25, 25, 34
Contoh Soal Topik Khusus 1 Terdapat data acak dengan urutan sebagai berikut: 2,16,20,9,24,31,29,23,27 Lakukan binning dengan equidepth=3
Data Mining Teknik Topik Khusus 1 PRISM R1-HOLTE Clasification Rule Hunts ID3 …dll…
Data Mining PRISM Topik Khusus 1 Diperkenalkan oleh J. Cendrowska (1987). Termasuk kategori algoritma covering, berbeda dengan ID3 yang termasuk dalam kategori algoritma divide and conquer. Disebut dengan pendekatan covering, karena pada setiap stage diidentifikasi rule yang mengcover sejumlah instances. Output algoritma PRISM adalah sejumlah classification rules. PRISM hanya menghasilkan rule‐rule yang sempurna atau 100% benar.
Topik Khusus 1 Data Mining Algoritma PRISM
Topik Khusus 1 PRISM Datasheet Total Instance?...
Topik Khusus 1 Data Mining PRISM
Topik Khusus 1 Data Mining PRISM
Topik Khusus 1 Data Mining PRISM
Topik Khusus 1 Data Mining PRISM
Topik Khusus 1 Data Mining PRISM
Topik Khusus 1 Data Mining PRISM
Topik Khusus 1 Data Mining PRISM – Latihan Soal