Oleh : Rahmat Robi Waliyansyah, M.Kom.

Slides:



Advertisements
Presentasi serupa
Kesimpulan BUKU Data Mining
Advertisements

Diadaptasi dari slide Jiawei Han
Model Datamining Dr. Sri Kusumadewi, S.Si., MT. Materi Kuliah [10]:
Peran Utama Data Mining
BAYESIAN CLASSIFICATION
Klasifikasi (Season 1) Naive Bayes
DATA MINING 1.
Fachrul Reza ( ) Julpan ( ) M. Nur Cipta Hidayah Lubis ( ) Oleh:
Robert Groth, “Data Mining: Building Competitive Advantage”, chap 2
Naïve Bayes Fajar Agung Nugroho, S.Kom, M.CS
Algoritma Data Mining Object-Oriented Programming Algoritma Data Mining
Mata Kuliah :Web Mining Dosen
Data Mining: Klasifikasi dan Prediksi Naive Bayesian & Bayesian Network . April 13, 2017.
Pertemuan 05 Sebaran Peubah Acak Diskrit
1 Pertemuan 10 Statistical Reasoning Matakuliah: T0264/Inteligensia Semu Tahun: Juli 2006 Versi: 2/1.
Pengenalan Supervised dan Unsupervised Learning
NIPRL 1.4 Probabilitas Bersyarat Definisi Probabilitas Bersyarat(1/2) Probabilitas Bersyarat Probabilitas bersyarat kejadian A pada kejadian B adalah.
1 Pertemuan 8 Klasifikasi dan Rekognisi Pola (2) Matakuliah: T0283 – Computer Vision Tahun: 2005 Versi: Revisi 1.
A rsitektur dan M odel D ata M ining. Arsitektur Data Mining.
Naive Bayesian & Bayesian Network
DATA MINING (Machine Learning)
Sistem Berbasis Fuzzy Materi 4
Data Mining Junta Zeniarja, M.Kom, M.CS
Oleh: Aditya Nugroho G Dibimbing Oleh: Ir. Agus Buono, M.Si., M.Kom.
Peran Utama Data Mining
Data Mining.
Bayes’ Theorem: Basics
Statistika Chapter 4 Probability.
Data Mining.
Konsep Data Mining Ana Kurniawati.
Klasifikasi Berdasarkan Teorema Bayes
Clustering Best Practice
Klasifikasi.
Disiplin Ilmu, Metode Penelitian, Computing Method
Data Mining: Klasifikasi Naive Bayesian & Bayesian Network
Learning Theory Artificial Intelligence Teknik Informatika – UNIKOM
Naïve Bayes Classification.
Klasifikasi dengan Naive Bayes
Review probabilitas (1)
Classification Supervised learning.
MATERI PERKULIAHAN KECERDASAN BUATAN
Naïve Bayes Classification.
.:: NAive bayes ::. DSS - Wiji Setiyaningsih, M.Kom.
Analisis Klastering K-Means Model Datamining Kelompok 1 Eko Suryana
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
Algoritma kNN (k-Nearest Neighbor)
USING DATA MINING TO MODEL PLAYER EXPERIENCE
MIK | FAKULTAS ILMU-ILMU KESEHATAN
KLASIFIKASI.
Machine Learning Naïve Bayes
Anggota Dwita Eprila ( ) Mayang Hermeiliza Eka Putri ( ) Nadiah Amelia ( ) Rafif Abdusalam ( ) Shofyan.
Data Mining: Klasifikasi dan Prediksi Naive Bayesian & Bayesian Network . November 8, 2018.
Konsep Aplikasi Data Mining
Teknik Klasifikasi & Pengenalan Pola
Klasifikasi dengan Naive Bayes
CSG3G3 Kercerdasan Mesin dan Artifisial Pertemuan 10: Learning (Naive Bayes) Author-Tim Dosen KK ICM 21/11/2018.
TEKNIK KLASIFIKASI DAN PENGENALAN POLA
Pengetahuan Data Mining
Pertemuan 1 & 2 Pengantar Data Mining 12/6/2018.
KLASIFIKASI.
Konsep Data Mining Ana Kurniawati.
Information Retrieval “Document Classification dengan Naive Bayes”
IMPLEMENTASI ALGORITMA k-NN
By : Rahmat Robi Waliyansyah, M.Kom
DECISION SUPPORT SYSTEM [MKB3493]
Klasifikasi dengan Naive Bayes
Universitas Gunadarma
Intro Algoritma K-Nearest Neighbor (K- NN) adalah sebuah metode klasifikasi terhadap sekumpulan data maupun dokumen berdasarkan pembelajaran  data yang.
Algoritma kNN (k-Nearest Neighbor)
Transcript presentasi:

Oleh : Rahmat Robi Waliyansyah, M.Kom. Text Classification Oleh : Rahmat Robi Waliyansyah, M.Kom.

Classification Lebih mudah kalau dokumen dikelompokkan menjadi misalnya dua kelas, yaitu dokumen tentang multicore computer chips dan dokumen BUKAN tentang multicore computer chips. Kelas biasanya merujuk ke topik dokumen. Prosesnya sering disebut sebagai text classification, text categorization, topic classification, topic spotting.

Categorization/Classification Given : Deskripsi dokumen d€X, dimana X adalah kumpulan dokumen. Himpunan kelas atau kategori: C = {c1, c2,…, cn} Tujuan : Menentukan kategori dari d : c(d)€C, dimana c(d) adalah fungsi kategorisasi (classifier).

Kita mempelajari fungsi klasifikasi yang memetakan dokumen ke kategori tertentu. Disebut juga supervised learning, karena supervisor (orang yang menentukan kategori dokumen) berperan langsung di dalam proses pembelajaran. Learning Method

METODE MANUAL Digunakan oleh Yahoo!, Looksmart, about.com, ODP, Medline. Sangat akurat karena dilakukan oleh ahli. Konsisten pada saat ukurannya kecil/sedikit. Sulit dan mahal.

METODE Automatic document classification Hand-coded rule-based systems Digunakan oleh CS dept’s spam filter, Reuters, CIA, Verity, … Masukkan ke kategori jika dokumen mengandung kombinasi kata tertentu. Akurasi tinggi jika rule dibuat dengan sangat baik oleh ahli dan kompleks.

Metode Automatic document classification Supervised learning - Beberapa menggunakan machine learning (Autonomy, MSN, Verity, Enkata, Yahoo!, …) k-Nearest Neighbors (simple, powerful) Naive Bayes (simple, common method) Support-vector machines (new, more powerful) dsb

Supervised vs Unsupervised Learning Supervised learning (classification) Supervision (terawasi): Data training (observations, measurements, etc.) ada kelas dalam data training Data baru diklasifikasikan didasarkan pada data training Unsupervised learning (clustering) Label kelas data training tidak diketahui Measurements, pengamatan dengan tujuan pembentukan adanya kelas atau kelompok dalam data

Process (1): Model Construction Classification Algorithms Training Data Classifier (Model) IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’

Process (2): Using the Model in Prediction Classifier Testing Data Unseen Data (Jeff, Professor, 4) Tenured?

Algoritma Naive Bayes Algoritma Naive Bayes merupakan sebuah metoda klasifikasi menggunakan metode probabilitas dan statistik yg dikemukakan oleh ilmuwan Inggris Thomas Bayes. Algoritma Naive Bayes memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya sehingga dikenal sebagai Teorema Bayes. Ciri utama dr Naïve Bayes Classifier ini adalah asumsi yg sangat kuat (naïf) akan independensi dari masing-masing kondisi / kejadian.

Tahapan dari proses algoritma Naive Bayes adalah: Menghitung jumlah kelas / label. Menghitung Jumlah Kasus Per Kelas Kalikan Semua Variable Kelas Bandingkan Hasil Per Kelas

Kelebihan & Kekurangan Naive Bayes Mudah untuk dibuat Hasil bagus Asumsi independence antar atribut membuat akurasi berkurang (karena biasanya ada keterkaitan)

Bayesian Theorem: Basics X adalah data sample (“evidence”): label kelas tidak diketahui H adalah dugaan (hypothesis ) bahwa X adalah anggota C Klasifikasi ditentukan P(H|X), (posteriori probability), probabilitas bahwa dugaan terhadap data sample X P(H) (prior probability), initial probability Misal X akan membeli computer, tidak memperhatikan age, income, … P(X): probabilitas dari sample data yang diamatii P(X|H) (likelyhood), probabilitas dari sample X, dengan the memperhatikan dugaan Misal , X akan membeli computer, probabilitas bahwa X. Adalah 31..40, penghasilan sedang

Bayesian Theorem Dari training data X, posteriori probabilitas dari hypothesis H, P(H|X), teorema Bayes Ini dapat ditulis dengan posterior = likelihood x prior/evidence Prediksi X anggota C2 jika dan hanya jika probabilitas P(C2|X) paling tinggi diantara semua P(Ck|X) dari semua kelas k Prakteknya sulit : perlu pengetahuan awal dari banyak probabilitas , biaya komputasi yang signifikan

Naïve Bayesian Classifier: Training Dataset C1:buys_computer = ‘yes’ C2:buys_computer = ‘no’ Data sample X = (age <=30, Income = medium, Student = yes Credit_rating = Fair) Doc = 14

Naïve Bayesian Classifier : An Example P(Ci): P(buys_computer = “yes”) = 9/14 = 0.643 P(buys_computer = “no”) = 5/14= 0.357 Compute P(X|Ci) for each class P(age = “<=30” | buys_computer = “yes”) = 2/9 = 0.222 P(age = “<= 30” | buys_computer = “no”) = 3/5 = 0.6 P(income = “medium” | buys_computer = “yes”) = 4/9 = 0.444 P(income = “medium” | buys_computer = “no”) = 2/5 = 0.4 P(student = “yes” | buys_computer = “yes) = 6/9 = 0.667 P(student = “yes” | buys_computer = “no”) = 1/5 = 0.2 P(credit_rating = “fair” | buys_computer = “yes”) = 6/9 = 0.667 P(credit_rating = “fair” | buys_computer = “no”) = 2/5 = 0.4 X = (age <= 30 , income = medium, student = yes, credit_rating = fair) P(X|Ci) : P(X|buys_computer = “yes”) = 0.222 x 0.444 x 0.667 x 0.667 = 0.044 P(X|buys_computer = “no”) = 0.6 x 0.4 x 0.2 x 0.4 = 0.019 P(X|Ci)*P(Ci) : P(X|buys_computer = “yes”) * P(buys_computer = “yes”) =0,044*0.643 = 0.028 P(X|buys_computer = “no”) * P(buys_computer = “no”) = 0.007 Sehingga , X belongs to class (“buys_computer = yes”)