Data Mining: Klasifikasi dan Prediksi Naive Bayesian & Bayesian Network . April 13, 2017.

Slides:

Advertisements

Presentasi serupa

Kesimpulan BUKU Data Mining

Advertisements

Diadaptasi dari slide Jiawei Han

Model Datamining Dr. Sri Kusumadewi, S.Si., MT. Materi Kuliah [10]:

BASIS DATA LANJUTAN.

Peran Utama Data Mining

BAYESIAN CLASSIFICATION

Klasifikasi (Season 1) Naive Bayes

Chapter 11 k- Fold Cross Validation

Algoritma Data Mining Object-Oriented Programming Algoritma Data Mining

Modeling Statistik untuk Computer Vision

BUDIYONO Program Pascasarjana UNS

Mata Kuliah :Web Mining Dosen

Bina Nusantara Model Simulasi Peretemuan 23 (Off Clas) Mata kuliah: K0194-Pemodelan Matematika Terapan Tahun: 2008.

Pertemuan 05 Sebaran Peubah Acak Diskrit

1 Pertemuan 10 Statistical Reasoning Matakuliah: T0264/Inteligensia Semu Tahun: Juli 2006 Versi: 2/1.

Dasar probabilitas.

Pengenalan Supervised dan Unsupervised Learning

NIPRL 1.4 Probabilitas Bersyarat Definisi Probabilitas Bersyarat(1/2) Probabilitas Bersyarat Probabilitas bersyarat kejadian A pada kejadian B adalah.

A rsitektur dan M odel D ata M ining. Arsitektur Data Mining.

Naive Bayesian & Bayesian Network

DATA MINING (Machine Learning)

2. Data & Proses Datamining

Klasifikasi Data Mining.

Thinking about Instrumental Variables (IV) Christopher A. Sims (2001)

Klasifikasi Data Mining Berdasarkan Rule

Peran Utama Data Mining

PEMBUATAN POHON KEPUTUSAN

Bayes’ Theorem: Basics

STATISTIKA Abdul Rohman Bagian Kimia Farmasi, Fakultas Farmasi UGM

Pengaruh incomplete data terhadap

Statistika Chapter 4 Probability.

Pengujian Hipotesis (I) Pertemuan 11

Konsep Data Mining Ana Kurniawati.

Klasifikasi Berdasarkan Teorema Bayes

Clustering Best Practice

Data Mining: Klasifikasi Naive Bayesian & Bayesian Network

Naïve Bayes Classification.

Pohon Keputusan (Decision Trees)

Klasifikasi dengan Naive Bayes

Classification Supervised learning.

MATERI PERKULIAHAN KECERDASAN BUATAN

Naïve Bayes Classification.

Fungsi Kepekatan Peluang Khusus Pertemuan 10

Oleh : Rahmat Robi Waliyansyah, M.Kom.

.:: NAive bayes ::. DSS - Wiji Setiyaningsih, M.Kom.

PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN

DATA MINING with W E K A.

Machine Learning Naïve Bayes

Anggota Dwita Eprila ( ) Mayang Hermeiliza Eka Putri ( ) Nadiah Amelia ( ) Rafif Abdusalam ( ) Shofyan.

Data Mining: Klasifikasi dan Prediksi Naive Bayesian & Bayesian Network . November 8, 2018.

Konsep Aplikasi Data Mining

Klasifikasi dengan Naive Bayes

CSG3G3 Kercerdasan Mesin dan Artifisial Pertemuan 10: Learning (Naive Bayes) Author-Tim Dosen KK ICM 21/11/2018.

Arsitektur dan Model Data Mining

Pengetahuan Data Mining

Pertemuan 1 & 2 Pengantar Data Mining 12/6/2018.

Konsep Data Mining Ana Kurniawati.

Information Retrieval “Document Classification dengan Naive Bayes”

IMPLEMENTASI ALGORITMA k-NN

DECISION SUPPORT SYSTEM [MKB3493]

Konsep Aplikasi Data Mining

Klasifikasi dengan Naive Bayes

Universitas Gunadarma

Transcript presentasi:

Data Mining: Klasifikasi dan Prediksi Naive Bayesian & Bayesian Network . April 13, 2017

Chapter 6. Classification and Prediction Apa itu klasifikasi ? Apa itu prediksi Beberapa hal terkait dengan klassifikasi and prediksi Klasifikasi Bayesian April 13, 2017 Data Mining: Concepts and Techniques

Supervised vs. Unsupervised Learning Supervised learning (classification) Supervision (terawasi): Data training (observations, measurements, etc.) ada kelas dalam data training Data baru diklasifikasikan didasarkan pada data training Unsupervised learning (clustering) Label kelas data training tidak diketahui Measurements, pengamatan dengan tujuan pembentukan adanya kelas atau kelompok dalam data April 13, 2017 Data Mining: Concepts and Techniques

Classification vs. Prediction Memprediksi label clas (diskrit atau kontinu) mengklasifikasi data (membangun model) didasarkan pada data training dan nilai label class dalam mengklasifikasikan atribut dan menggunakannya saat mengklasifikasikan data baru Prediksi Memodelkas fungsi bernilai kontinu;yaitu memprediksi nilai yang tidak diketahui Bentuk aplikasinya Persetujuan pinjaman atau kredit: Diagnosa medis: apakah hepatitis A atau B Deteksi kegagalan: April 13, 2017 Data Mining: Concepts and Techniques

Process (1): Model Construction Classification Algorithms Training Data Classifier (Model) IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’ April 13, 2017 Data Mining: Concepts and Techniques

Process (2): Using the Model in Prediction Classifier Testing Data Unseen Data (Jeff, Professor, 4) Tenured? April 13, 2017 Data Mining: Concepts and Techniques

Issues: Data Preparation Data cleaning Memproses awal data untuk mengurangi noise dan mengatasi nilai-nilai yang hilang Analisa relevansi (seleksi fitur) Menghilangkan atribut-atribut yang tidak relevan atau atribut yang redundan Transformasi data Membangun normalisasi data April 13, 2017 Data Mining: Concepts and Techniques

Issues: Evaluating Classification Methods Akurasi Keakuratan klasifikasi : memperkirakan label class Keakurasisan prediksi: nilai yang ditebak dari atribut yang diprediksi Kecepatan Waktu untuk membangun model (training time) Waktu dalam menggunakan model (classification/prediction time) Kehandalan: mengatasi noise dan missing values April 13, 2017 Data Mining: Concepts and Techniques

Chapter 6. Classification and Prediction What is classification? What is prediction? Issues regarding classification and prediction Classification by decision tree induction Bayesian classification April 13, 2017 Data Mining: Concepts and Techniques

Bayesian Classification: Why? A statistical classifier: membangun probabilistic prediction, yaitu memprediksi probabilitas keanggotaan kelas Didasarkan pada Bayes’ Theorem. Performance: A simple Bayesian classifier, naïve Bayesian classifier, has comparable performance with decision tree and selected neural network classifiers Incremental: Each training example can incrementally increase/decrease the probability that a hypothesis is correct — prior knowledge can be combined with observed data Standard: Even when Bayesian methods are computationally intractable, they can provide a standard of optimal decision making against which other methods can be measured April 13, 2017 Data Mining: Concepts and Techniques

Bayesian Theorem: Basics X adalah data sample (“evidence”): label kelas tidak diketahui H adalah dugaan (hypothesis ) bahwa X adalah anggota C Klasifikasi ditentukan P(H|X), (posteriori probability), probabilitas bahwa dugaan terhadap data sample X P(H) (prior probability), initial probability Misal X akan membeli computer, tidak memperhatikan age, income, … P(X): probabilitas dari sample data yang diamatii P(X|H) (likelyhood), probabilitas dari sample X, dengan the memperhatikan dugaan Misal , X akan membeli computer, probabilitas bahwa X. Adalah 31..40, penghasilan sedang April 13, 2017 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques Bayesian Theorem Dari training data X, posteriori probabilitas dari hypothesis H, P(H|X), teorema Bayes Ini dapat ditulis dengan posterior = likelihood x prior/evidence Prediksi X anggota C2 jika dan hanya jika probabilitas P(C2|X) paling tinggi diantara semua P(Ck|X) dari semua kelas k Prakteknya sulit : perlu pengetahuan awal dari banyak probabilitas , biaya komputasi yang signifikan April 13, 2017 Data Mining: Concepts and Techniques

Naïve Bayesian Classifier: Training Dataset April 13, 2017 Data Mining: Concepts and Techniques 13 13

Klasifikasi Naïve Bayesian Perhatikan D adalah record training dan ditetapkan label-label kelasnya dan masing-masing record dinyatakan n atribut ( n field ) X = (x1, x2, …, xn) Misalkan terdapat m kelas C1, C2, …, Cm. Klassifikasi adalah diperoleh maximum posteriori yaitu maximum P(Ci|X) Ini dapat diperoleh dari teorema Bayes Karena P(X) adalah konstan untuk semua kelas, hanya Perlu dimaksimumkan April 13, 2017 Data Mining: Concepts and Techniques

Derivation of Naïve Bayes Classifier Diasumsikan: atribut dalam kondisi saling bebas (independent) yaitu tidak ada kebergantungan antara atribut-atribut : Ini sangat mengurangi biaya .Hanya menghitung distribusi dari kelas Ak adalah categorical, P(xk|Ci) adalah jumlah record dalam kelas Ci yang memiliki nilai xk untuk Ak dibagi dengan |Ci, D| jumlah record dalam Ci dalam D) Jika Ak bernilai kontinu , P(xk|Ci) biasanya dihitung berdasarkan pada distribusi Gausian dengan mean μ and standar deviasi σ Dan P(xk|Ci) adalah April 13, 2017 Data Mining: Concepts and Techniques

Naïve Bayesian Classifier: Training Dataset C1:buys_computer = ‘yes’ C2:buys_computer = ‘no’ Data sample X = (age <=30, Income = medium, Student = yes Credit_rating = Fair) D= 14 April 13, 2017 Data Mining: Concepts and Techniques

Naïve Bayesian Classifier: An Example P(Ci): P(buys_computer = “yes”) = 9/14 = 0.643 P(buys_computer = “no”) = 5/14= 0.357 Compute P(X|Ci) for each class P(age = “<=30” | buys_computer = “yes”) = 2/9 = 0.222 P(age = “<= 30” | buys_computer = “no”) = 3/5 = 0.6 P(income = “medium” | buys_computer = “yes”) = 4/9 = 0.444 P(income = “medium” | buys_computer = “no”) = 2/5 = 0.4 P(student = “yes” | buys_computer = “yes) = 6/9 = 0.667 P(student = “yes” | buys_computer = “no”) = 1/5 = 0.2 P(credit_rating = “fair” | buys_computer = “yes”) = 6/9 = 0.667 P(credit_rating = “fair” | buys_computer = “no”) = 2/5 = 0.4 X = (age <= 30 , income = medium, student = yes, credit_rating = fair) P(X|Ci) : P(X|buys_computer = “yes”) = 0.222 x 0.444 x 0.667 x 0.667 = 0.044 P(X|buys_computer = “no”) = 0.6 x 0.4 x 0.2 x 0.4 = 0.019 P(X|Ci)*P(Ci) : P(X|buys_computer = “yes”) * P(buys_computer = “yes”) =0,044*0.643 = 0.028 P(X|buys_computer = “no”) * P(buys_computer = “no”) = 0.007 Sehingga , X belongs to class (“buys_computer = yes”) April 13, 2017 Data Mining: Concepts and Techniques

Menghindari masalah Probabilitas 0 Prediksi Naïve Bayesian membutuhkan masing-masing probabilitas tidak nol , Dengan kata lain. Probabilitas yang dihitung tidak menjadi nol Misalkan data dengan 1000 record , income=low (0), income= medium (990), and income = high (10), Menggunakan Laplacian correction (atau Laplacian estimator) Tambahkan 1 untuk masing-masing case Prob(income = low) = 1/1003 Prob(income = medium) = 991/1003 Prob(income = high) = 11/1003 The “corrected” prob. estimates are close to their “uncorrected” counterparts April 13, 2017 Data Mining: Concepts and Techniques

Penjelasan Naïve Bayesian Classifier: Keuntungan Mudah diimplementasikan Hasil baik dalam banyak kasus Kerugian Asumsi : kondisi kelas saling bebas , sehingga kurang akurat Pada prakteknya , kebergantungan anda diantara variabel Misal hospitals: patients: Profile: age, family history, etc. Gejala (symptom: demam (fever), batuk (cough) etc., Disease: lung cancer, diabetes, etc. Kebergantunagn diantara variabel ini tidak dapat dimodelkan dengan menggunakan Naïve Bayesian Classifier How to deal with these dependencies? Bayesian Belief Networks April 13, 2017 Data Mining: Concepts and Techniques

Bayesian Belief Networks Bayesian belief network memungkinkan sebagain variabel dalam kondisi saling bebas Model grafik menyatakan keterhubungan sebab akibat Menyatakan kebergantungan (dependency) diantara variabel-variabel Gives a specification of joint probability distribution Node (simpul ): variabel-variabel bebas Links: kebergantungan X dan Y adalah parents dari Z, dan Y adalan parent dari P tidak ada kebergantungan diantara Z dan P Tidak memiliki loop atau siklus Y Z P X April 13, 2017 Data Mining: Concepts and Techniques