Naive Bayesian & Bayesian Network

Slides:



Advertisements
Presentasi serupa
Kesimpulan BUKU Data Mining
Advertisements

Hamdani Mahasiswa ilkom ipb Dari berbagai sumber
Pendahuluan Landasan Teori.
BAYESIAN CLASSIFICATION
Klasifikasi (Season 1) Naive Bayes
Naïve Bayes Fajar Agung Nugroho, S.Kom, M.CS
Bayesian: Multi-Parameter Model
Dasar probabilitas.
Modeling Statistik untuk Computer Vision
KECERDASAN BUATAN (ARTIFICIAL INTELLIGENCE)
© 2002 Prentice-Hall, Inc.Chap 4-1 Bab 4 Probabilitas.
Presented By : Group 2. A solution of an equation in two variables of the form. Ax + By = C and Ax + By + C = 0 A and B are not both zero, is an ordered.
Data Mining: Klasifikasi dan Prediksi Naive Bayesian & Bayesian Network . April 13, 2017.
Pertemuan 05 Sebaran Peubah Acak Diskrit
1 Pertemuan 10 Statistical Reasoning Matakuliah: T0264/Inteligensia Semu Tahun: Juli 2006 Versi: 2/1.
Dasar probabilitas.
PERTEMUAN KE-6 UNIFIED MODELLING LANGUAGE (UML) (Part 2)
Pertemuan 07 Peluang Beberapa Sebaran Khusus Peubah Acak Kontinu
NIPRL 1.4 Probabilitas Bersyarat Definisi Probabilitas Bersyarat(1/2) Probabilitas Bersyarat Probabilitas bersyarat kejadian A pada kejadian B adalah.
Sebaran Peluang Kontinu (I) Pertemuan 7 Matakuliah: I0014 / Biostatistika Tahun: 2008.
1 Pertemuan #2 Probability and Statistics Matakuliah: H0332/Simulasi dan Permodelan Tahun: 2005 Versi: 1/1.
Data Mining: 4. Algoritma Klasifikasi
4- Classification: Logistic Regression 9 September 2015 Intro to Logistic Regression.
Data Mining: 4. Algoritma Klasifikasi
A rsitektur dan M odel D ata M ining. Arsitektur Data Mining.
DATA MINING (Machine Learning)
Sistem Berbasis Fuzzy Materi 4
Artificial Intelligence
Thinking about Instrumental Variables (IV) Christopher A. Sims (2001)
Klasifikasi Data Mining Berdasarkan Rule
Bayes’ Theorem: Basics
Matakuliah : I0014 / Biostatistika Tahun : 2005 Versi : V1 / R1
Distribusi Sampling Juweti Charisma.
STATISTIKA Abdul Rohman Bagian Kimia Farmasi, Fakultas Farmasi UGM
Statistika Chapter 4 Probability.
Pengujian Hipotesis (I) Pertemuan 11
Data Mining.
Konsep Data Mining Ana Kurniawati.
Klasifikasi Berdasarkan Teorema Bayes
Clustering Best Practice
Ketidakpastian (Uncertainty)
Klasifikasi.
Data Mining: Klasifikasi Naive Bayesian & Bayesian Network
Naïve Bayes Classification.
Pohon Keputusan (Decision Trees)
DISTRIBUSI PROBABILITA
Klasifikasi dengan Naive Bayes
KECERDASAN BUATAN (ARTIFICIAL INTELLIGENCE)
Classification Supervised learning.
Tutun Juhana Review probabilitas Tutun Juhana
Tutun Juhana Review probabilitas Tutun Juhana
Naïve Bayes Classification.
Oleh : Rahmat Robi Waliyansyah, M.Kom.
.:: NAive bayes ::. DSS - Wiji Setiyaningsih, M.Kom.
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
Master data Management
KLASIFIKASI.
Machine Learning Naïve Bayes
Anggota Dwita Eprila ( ) Mayang Hermeiliza Eka Putri ( ) Nadiah Amelia ( ) Rafif Abdusalam ( ) Shofyan.
Data Mining: Klasifikasi dan Prediksi Naive Bayesian & Bayesian Network . November 8, 2018.
Teknik Klasifikasi & Pengenalan Pola
Klasifikasi dengan Naive Bayes
KECERDASAN BUATAN (ARTIFICIAL INTELLIGENCE)
CSG3G3 Kercerdasan Mesin dan Artifisial Pertemuan 10: Learning (Naive Bayes) Author-Tim Dosen KK ICM 21/11/2018.
Pertemuan 1 & 2 Pengantar Data Mining 12/6/2018.
KLASIFIKASI.
Information Retrieval “Document Classification dengan Naive Bayes”
DECISION SUPPORT SYSTEM [MKB3493]
Klasifikasi dengan Naive Bayes
Universitas Gunadarma
Transcript presentasi:

Naive Bayesian & Bayesian Network . September 30, 2017

Bayesian Theorem: Basics X adalah data sample (“evidence”): label kelas tidak diketahui H adalah dugaan (hypothesis ) bahwa X adalah anggota C Klasifikasi ditentukan P(H|X), (posteriori probability), probabilitas bahwa dugaan terhadap data sample X P(H) (prior probability), initial probability Misal X akan membeli computer, tidak memperhatikan age, income, … P(X): probabilitas dari sample data yang diamatii P(X|H) (likelyhood), probabilitas dari sample X, dengan the memperhatikan dugaan Misal , X akan membeli computer, probabilitas bahwa X. Adalah 31..40, penghasilan sedang September 30, 2017 Data Mining: Concepts and Techniques

Data Mining: Concepts and Techniques Bayesian Theorem Dari training data X, posteriori probabilitas dari hypothesis H, P(H|X), teorema Bayes Ini dapat ditulis dengan posterior = likelihood x prior/evidence Prediksi X anggota C2 jika dan hanya jika probabilitas P(C2|X) paling tinggi diantara semua P(Ck|X) dari semua kelas k Prakteknya sulit : perlu pengetahuan awal dari banyak probabilitas , biaya komputasi yang signifikan September 30, 2017 Data Mining: Concepts and Techniques

Naïve Bayesian Classifier: Training Dataset September 30, 2017 Data Mining: Concepts and Techniques 4 4

Bayesian Classification: Why? A statistical classifier: membangun probabilistic prediction, yaitu memprediksi probabilitas keanggotaan kelas Didasarkan pada Bayes’ Theorem. Performance: A simple Bayesian classifier, naïve Bayesian classifier, has comparable performance with decision tree and selected neural network classifiers Incremental: Each training example can incrementally increase/decrease the probability that a hypothesis is correct — prior knowledge can be combined with observed data Standard: Even when Bayesian methods are computationally intractable, they can provide a standard of optimal decision making against which other methods can be measured September 30, 2017 Data Mining: Concepts and Techniques

Klasifikasi Naïve Bayesian Perhatikan D adalah record training dan ditetapkan label-label kelasnya dan masing-masing record dinyatakan n atribut ( n field ) X = (x1, x2, …, xn) Misalkan terdapat m kelas C1, C2, …, Cm. Klassifikasi adalah diperoleh maximum posteriori yaitu maximum P(Ci|X) Ini dapat diperoleh dari teorema Bayes Karena P(X) adalah konstan untuk semua kelas, hanya Perlu dimaksimumkan September 30, 2017 Data Mining: Concepts and Techniques

Derivation of Naïve Bayes Classifier Diasumsikan: atribut dalam kondisi saling bebas (independent) yaitu tidak ada kebergantungan antara atribut-atribut : Ini sangat mengurangi biaya .Hanya menghitung distribusi dari kelas Ak adalah categorical, P(xk|Ci) adalah jumlah record dalam kelas Ci yang memiliki nilai xk untuk Ak dibagi dengan |Ci, D| jumlah record dalam Ci dalam D) Jika Ak bernilai kontinu , P(xk|Ci) biasanya dihitung berdasarkan pada distribusi Gausian dengan mean μ and standar deviasi σ Dan P(xk|Ci) adalah September 30, 2017 Data Mining: Concepts and Techniques

Naïve Bayesian Classifier: Training Dataset C1:buys_computer = ‘yes’ C2:buys_computer = ‘no’ Data sample X = (age <=30, Income = medium, Student = yes Credit_rating = Fair) D= 14 September 30, 2017 Data Mining: Concepts and Techniques

Naïve Bayesian Classifier: An Example P(Ci): P(buys_computer = “yes”) = 9/14 = 0.643 P(buys_computer = “no”) = 5/14= 0.357 Compute P(X|Ci) for each class P(age = “<=30” | buys_computer = “yes”) = 2/9 = 0.222 P(age = “<= 30” | buys_computer = “no”) = 3/5 = 0.6 P(income = “medium” | buys_computer = “yes”) = 4/9 = 0.444 P(income = “medium” | buys_computer = “no”) = 2/5 = 0.4 P(student = “yes” | buys_computer = “yes) = 6/9 = 0.667 P(student = “yes” | buys_computer = “no”) = 1/5 = 0.2 P(credit_rating = “fair” | buys_computer = “yes”) = 6/9 = 0.667 P(credit_rating = “fair” | buys_computer = “no”) = 2/5 = 0.4 X = (age <= 30 , income = medium, student = yes, credit_rating = fair) P(X|Ci) : P(X|buys_computer = “yes”) = 0.222 x 0.444 x 0.667 x 0.667 = 0.044 P(X|buys_computer = “no”) = 0.6 x 0.4 x 0.2 x 0.4 = 0.019 P(X|Ci)*P(Ci) : P(X|buys_computer = “yes”) * P(buys_computer = “yes”) =0,044*0.643 = 0.028 P(X|buys_computer = “no”) * P(buys_computer = “no”) = 0.007 Sehingga , X belongs to class (“buys_computer = yes”) September 30, 2017 Data Mining: Concepts and Techniques

Menghindari masalah Probabilitas 0 (nol) Prediksi Naïve Bayesian membutuhkan masing-masing probabilitas tidak nol , Dengan kata lain. Probabilitas yang dihitung tidak menjadi nol Misalkan data dengan 1000 record , income=low (0), income= medium (990), and income = high (10), Menggunakan Laplacian correction (atau Laplacian estimator) Tambahkan 1 untuk masing-masing case Prob(income = low) = 1/1003 Prob(income = medium) = 991/1003 Prob(income = high) = 11/1003 The “corrected” prob. estimates are close to their “uncorrected” counterparts September 30, 2017 Data Mining: Concepts and Techniques

Penjelasan Naïve Bayesian Classifier: Keuntungan Mudah diimplementasikan Hasil baik dalam banyak kasus Kerugian Asumsi : kondisi kelas saling bebas , sehingga kurang akurat Pada prakteknya , kebergantungan ada diantara variabel Misal hospitals: patients: Profile: age, family history, etc. Gejala (symptom: demam (fever), batuk (cough) etc., Disease: lung cancer, diabetes, etc. Kebergantungan diantara variabel ini tidak dapat dimodelkan dengan menggunakan Naïve Bayesian Classifier How to deal with these dependencies? Bayesian Belief Networks September 30, 2017 Data Mining: Concepts and Techniques

Bayesian Belief Networks Bayesian belief network memungkinkan sebagian variabel dalam kondisi saling bebas Model grafik menyatakan keterhubungan sebab akibat Menyatakan kebergantungan (dependency) diantara variabel-variabel Gives a specification of joint probability distribution Node (simpul ): variabel-variabel bebas Links: kebergantungan X dan Y adalah parents dari Z, dan Y adalan parent dari P tidak ada kebergantungan diantara Z dan P Tidak memiliki loop atau siklus Y Z P X September 30, 2017 Data Mining: Concepts and Techniques

Latihan Temperature Kelembapan ION CO Status 54 32 24 84 ???? 64 32 25 84 KEBAKARAN 69 24 23 86 70 30 21 88 53 85 67 28 22 90 40 35 120 TIDAK 29 118 192 41 36 101 38 27 100 Merubah setiap variabel menjadi diskrit Temperature, <51 dan >=51 Kelembapan, <35 dan >=35 ION, <28 dan >=28 CO, <91 dan >=91 Temperature Kelembapan ION CO Status 54 32 24 84 ???? September 30, 2017

Bayesian network Sumber: Handayani Tjandrasa, Teknik Informatika ITS Ruli Manurung, Fakultas Ilmu Komputer Universitas Indonesia Bayesian network September 30, 2017

Contoh Weather independent dari semua variable lain. Toothache dan Catch conditionally independent karena Cavity.

Contoh I'm at work, neighbor John calls to say my alarm is ringing, but neighbor Mary doesn't call. Sometimes it's set off by minor earthquakes. Is there a burglar? Variables: Burglary, Earthquake, Alarm, JohnCalls, MaryCalls Network topology reflects "causal" knowledge: A burglar can set the alarm on An earthquake can set the alarm on The alarm can cause Mary to call The alarm can cause John to call September 30, 2017

Bayesian Network Example September 30, 2017

Full joint distribution bisa diperoleh dari local conditional distribution: Contoh: hitung probabilitas John menelpon, Mary menelpon, alarm nyala, tidak ada perampok, tidak ada gempa bumi. P (j ∧ m ∧ a ∧¬b ∧¬e) =??? September 30, 2017

P (j |a)P (m|a)P (a|¬b, ¬e)P (¬b)P (¬e) = P (j ∧ m ∧ a ∧¬b ∧¬e) = P (j |a)P (m|a)P (a|¬b, ¬e)P (¬b)P (¬e) = 0.9 × 0.7 × 0.001 × 0.999 × 0.998 = 0.00062 September 30, 2017

Latihan September 30, 2017