Oleh : Rahmat Robi Waliyansyah, M.Kom.

Oleh : Rahmat Robi Waliyansyah, M.Kom.
Text Classification Oleh : Rahmat Robi Waliyansyah, M.Kom.

Classification Lebih mudah kalau dokumen dikelompokkan menjadi misalnya dua kelas, yaitu dokumen tentang multicore computer chips dan dokumen BUKAN tentang multicore computer chips. Kelas biasanya merujuk ke topik dokumen. Prosesnya sering disebut sebagai text classification, text categorization, topic classification, topic spotting.

Categorization/Classification
Given : Deskripsi dokumen d€X, dimana X adalah kumpulan dokumen. Himpunan kelas atau kategori: C = {c1, c2,…, cn} Tujuan : Menentukan kategori dari d : c(d)€C, dimana c(d) adalah fungsi kategorisasi (classifier).

Kita mempelajari fungsi klasifikasi yang memetakan dokumen ke kategori tertentu.
Disebut juga supervised learning, karena supervisor (orang yang menentukan kategori dokumen) berperan langsung di dalam proses pembelajaran. Learning Method

METODE MANUAL Digunakan oleh Yahoo!, Looksmart, about.com, ODP, Medline. Sangat akurat karena dilakukan oleh ahli. Konsisten pada saat ukurannya kecil/sedikit. Sulit dan mahal.

METODE Automatic document classification Hand-coded rule-based systems
Digunakan oleh CS dept’s spam filter, Reuters, CIA, Verity, … Masukkan ke kategori jika dokumen mengandung kombinasi kata tertentu. Akurasi tinggi jika rule dibuat dengan sangat baik oleh ahli dan kompleks.

Metode Automatic document classification Supervised learning
- Beberapa menggunakan machine learning (Autonomy, MSN, Verity, Enkata, Yahoo!, …) k-Nearest Neighbors (simple, powerful) Naive Bayes (simple, common method) Support-vector machines (new, more powerful) dsb

Supervised vs Unsupervised Learning
Supervised learning (classification) Supervision (terawasi): Data training (observations, measurements, etc.) ada kelas dalam data training Data baru diklasifikasikan didasarkan pada data training Unsupervised learning (clustering) Label kelas data training tidak diketahui Measurements, pengamatan dengan tujuan pembentukan adanya kelas atau kelompok dalam data

Process (1): Model Construction
Classification Algorithms Training Data Classifier (Model) IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’

Process (2): Using the Model in Prediction
Classifier Testing Data Unseen Data (Jeff, Professor, 4) Tenured?

Algoritma Naive Bayes Algoritma Naive Bayes merupakan sebuah metoda klasifikasi menggunakan metode probabilitas dan statistik yg dikemukakan oleh ilmuwan Inggris Thomas Bayes. Algoritma Naive Bayes memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya sehingga dikenal sebagai Teorema Bayes. Ciri utama dr Naïve Bayes Classifier ini adalah asumsi yg sangat kuat (naïf) akan independensi dari masing-masing kondisi / kejadian.

Tahapan dari proses algoritma Naive Bayes adalah:
Menghitung jumlah kelas / label. Menghitung Jumlah Kasus Per Kelas Kalikan Semua Variable Kelas Bandingkan Hasil Per Kelas

Kelebihan & Kekurangan Naive Bayes
Mudah untuk dibuat Hasil bagus Asumsi independence antar atribut membuat akurasi berkurang (karena biasanya ada keterkaitan)

Bayesian Theorem: Basics
X adalah data sample (“evidence”): label kelas tidak diketahui H adalah dugaan (hypothesis ) bahwa X adalah anggota C Klasifikasi ditentukan P(H|X), (posteriori probability), probabilitas bahwa dugaan terhadap data sample X P(H) (prior probability), initial probability Misal X akan membeli computer, tidak memperhatikan age, income, … P(X): probabilitas dari sample data yang diamatii P(X|H) (likelyhood), probabilitas dari sample X, dengan the memperhatikan dugaan Misal , X akan membeli computer, probabilitas bahwa X. Adalah , penghasilan sedang

Bayesian Theorem Dari training data X, posteriori probabilitas dari hypothesis H, P(H|X), teorema Bayes Ini dapat ditulis dengan posterior = likelihood x prior/evidence Prediksi X anggota C2 jika dan hanya jika probabilitas P(C2|X) paling tinggi diantara semua P(Ck|X) dari semua kelas k Prakteknya sulit : perlu pengetahuan awal dari banyak probabilitas , biaya komputasi yang signifikan

Naïve Bayesian Classifier: Training Dataset
C1:buys_computer = ‘yes’ C2:buys_computer = ‘no’ Data sample X = (age <=30, Income = medium, Student = yes Credit_rating = Fair) Doc = 14

Naïve Bayesian Classifier : An Example
P(Ci): P(buys_computer = “yes”) = 9/14 = 0.643 P(buys_computer = “no”) = 5/14= 0.357 Compute P(X|Ci) for each class P(age = “<=30” | buys_computer = “yes”) = 2/9 = 0.222 P(age = “<= 30” | buys_computer = “no”) = 3/5 = 0.6 P(income = “medium” | buys_computer = “yes”) = 4/9 = 0.444 P(income = “medium” | buys_computer = “no”) = 2/5 = 0.4 P(student = “yes” | buys_computer = “yes) = 6/9 = 0.667 P(student = “yes” | buys_computer = “no”) = 1/5 = 0.2 P(credit_rating = “fair” | buys_computer = “yes”) = 6/9 = 0.667 P(credit_rating = “fair” | buys_computer = “no”) = 2/5 = 0.4 X = (age <= 30 , income = medium, student = yes, credit_rating = fair) P(X|Ci) : P(X|buys_computer = “yes”) = x x x = 0.044 P(X|buys_computer = “no”) = 0.6 x 0.4 x 0.2 x 0.4 = 0.019 P(X|Ci)*P(Ci) : P(X|buys_computer = “yes”) * P(buys_computer = “yes”) =0,044*0.643 = 0.028 P(X|buys_computer = “no”) * P(buys_computer = “no”) = 0.007 Sehingga , X belongs to class (“buys_computer = yes”)

Oleh : Rahmat Robi Waliyansyah, M.Kom.

Presentasi serupa

Presentasi berjudul: "Oleh : Rahmat Robi Waliyansyah, M.Kom."— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan

Masuk

Otorisasi melalui jaringan sosial:

Oleh : Rahmat Robi Waliyansyah, M.Kom.

Presentasi serupa

Presentasi berjudul: "Oleh : Rahmat Robi Waliyansyah, M.Kom."— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan