Teknik Klasifikasi & Pengenalan Pola Kuliah 2
Statistical Pattern Recognition pola Pra-pemrosesan Ekstraksi ciri Pengklasifikasi Recognition Training Pra-pemrosesan Seleksi ciri Pembelajaran Pola-pola + Label klas
Keputusan Bayes Pengenalan pola metode statistik berkaitan erat dengan Aturan Bayes dimana
Kerapatan peluang dengan distribusi normal (Gaussian): dimana: = rerata x 2 = variansi
Contoh klasifikasi ikan 2 klas Keadaan Peluang prior
Contoh klasifikasi ikan Klasifikasi ikan sea bass/salmon 4 istilah (Prior, likelihood, evidence, Posteriori) Distribusi peluang salmon dan sea bass ( Prior - P(i) ) Distribusi kerapatan ciri ikan-ikan dari klas yang diberikan (likelihood - p(x | i) ) Peluang kerapatan ciri x (evidence – p(x)) Peluang satu klas i untuk nilai ciri x yang diberikan (Posteriori- P(j | x) ) The catch of salmon and sea bass is equiprobable P(1) = P(2) (uniform priors) P(1) + P( 2) = 1 (exclusivity and exhaustivity )
Keputusan klasifikasi Keputusan satu ikan peluang posteriori P(j | x) Secara matematis dapat dinyatakan
Peluang salah Aturan keputusan memberiak peluang posterior x data observasi: jika P(1 | x) > P(2 | x) keadaan yang benar = 1 jika P(1 | x) < P(2 | x) keadaan yang benar = 2 Olehkarenanya: Kesalahan peluang posterior x: P(kesalahan | x) = P(1 | x) jika diputuskan 2 P(kesalahan | x) = P(2 | x) jika diputuskan 1
Peluang kesalahan minimum Olehkarenanya: P(kesalahan | x) = min [P(1 | x), P(2 | x)] (keputusan Bayes)
Pembelajaran Probabilitas diperlukan fungs-fungsi f(i) untuk masing-masing klas diassumsikan bahwa f(i) = p(a|ci) p(b|ci) ........ p(z|ci) p(ci) Nilai probabilitas diperoleh dari training data set: p(ci) = (jumlah data yang dicatat dengan label klas i)/jumlah total data p(A = a|ci) = (jumlah data yang dicatat dengan label klas i dan atribut A)/jumlah total data dengan atribut label klas ci (untuk masing-masing i klas)
Tahap Pembelajaran Fase 1: Pelatihan (model pembelajaran) Menentukan tabel p(ci) dan p(atribut|ci) dari database Dalam database ini label klas dikethui Disebut dengan data pelatihan (training data) “training” terjadi secara “offline”
Tahap Pembelajaran Fase 2: Pengujian (menggunakan model untuk klasifikasi) Setelah model dibuat pada fase 1 Mendapatkan nilai-nilai atribut [a, b, d, ..... z] Target adalah memprediksi nilai satu klas dari data yang belum diketahui Hitung fungsi f(i)untuk masing-masing nilai klas
(Data Pelatihan: trouble-reporting database) ATTRIBUTES CLASS ID Manufacturer Operating Symptom Problem System Cause 1678 Dell Windows95 Can’t print Driver 7262 Compaq Windows95 Can’t print Driver 1716 Dell Windows95 Can’t print Driver 6353 Gateway Linux Can’t print Driver 5242 Dell Windows95 Can’t print Driver 1425 Compaq Windows95 No display Hardware 3435 Gateway Linux Can’t print Hardware 6953 Dell Windows95 No display Hardware 9287 Compaq Windows95 No display Hardware 6252 Compaq Windows95 Can’t print Hardware
Contoh Perhitungan Keputusan 2 klas: d = driver, h = hardware Dalam kasus ini terdapat 3 atribut: m adalah nilai untuk atribut manufacturer o adalah nilai untuk atribut operating system s adalah nilai untuk atribut symptom Fungsi f(i): (dimana i=d, and i =h) f(Class = d) = p(m | d) p(o | d) p( s | d) p(Class = d) f(Class = h) = p(m | h) p(o | h) p( s | h) p(Class = h) Prosedure klasifikasi berikan nilai atribut (m, o, s) Hitung f(Class=d) dan f(Class=h) Pemilihan keputusan klas
Tabel Estimasi Probabilitas dari database Class Value = Driver, d p(d) = 5/10 = 0.5 Manufacturer Attribute p(Dell|d) = 3/5 = 0.6 p(Com|d) = 1/5 = 0.2 p(Gat|d) = 1/5 = 0.2 OS attribute p(W95|d) = 4/5 = 0.8 p(Lin|d) = 1/5 = 0.2 Symptom Attribute p(CP|d) = 5/5 = 1 p(ND|d) = 0/5 = 0 Class Value = Hardware, h p(h) = 5/10 = 0.5 Manufacturer Attribute p(Dell|h) = 1/5 = 0.2 p(Com|h) = 3/5 = 0.6 p(Gat|h) = 1/5 = 0.2 OS attribute p(W95|h) = 4/5 = 0.8 p(Lin|h) = 1/5 = 0.2 Symptom Attribute p(CP|h) = 2/5 = 0.4 p(ND|h) = 3/5 = 0.6
Contoh: Bentuk klasifikasi Data baru yang yang klas nya tidak diketahui, misalnya: (Manufacturer = Dell, OS = Linux, Symptom=Can’t print, Klas = ?) Proses klasifikasi yang dapat dihitung: f(d) = p(Dell | d) p(Linux | d) p(CP | d) p(d) = 0.6 0.2 1 0.5 = 0.06
Contoh… f(h) = p(Dell |h) p(Linux | h) p(CP | h) p(h) = 0.2 0.2 0.4 0.5 = 0.008 Maka, max (f(d), f(h)) = max(0.06, 0.008) = 0.06 => d (driver) adalah klas yang dimaksud Akhirnya dapat diperoleh peluang d, p(d|Dell, Linux, Can’tPrint) = f(d)/(f(d) + f(h)) = 0.06/ 0.068 = 0.88 => klasifikasi dari data yang tidak diketahui adalah “driver problem” dengan nilai peluang 0.88
Fungsi Diskriminan Pengklasifikasi ke klas jika dimana disebut fungsi diskriminan
Pengklasifikasi 2 kategori dengan 2 dimensi
Fungsi Diskriminan Fungsi diskriminant untuk pengklasifikasi Bayes Untuk pengklasifikasi fungsi diskriminan minimum- error-rate
Keputusan batas penyekatan klas
Konsep pemrosesan akhir Laju kesalahan (Error rate) Resiko (Risk) Total perkiraan biaya Perkalian beberapa pengklasifikasi Kecocokan atau akurasi pengenalan