KLASIFIKASI.

Slides:



Advertisements
Presentasi serupa
Kesimpulan BUKU Data Mining
Advertisements

Diadaptasi dari slide Jiawei Han
Peran Utama Data Mining
BAYESIAN CLASSIFICATION
Klasifikasi (Season 1) Naive Bayes
DATA MINING 1.
Kategori SPK.
? 1. Konsep Statistika STATISTIKA : Kegiatan untuk : mengumpulkan data
Marselina Silvia Suhartinah / 4IA05
Aplikasi Komputer & Pengolahan Data SKALA PENGUKURAN DATA
Data Mining: Klasifikasi dan Prediksi Naive Bayesian & Bayesian Network . April 13, 2017.
Pengenalan Supervised dan Unsupervised Learning
1 Pertemuan 8 Klasifikasi dan Rekognisi Pola (2) Matakuliah: T0283 – Computer Vision Tahun: 2005 Versi: Revisi 1.
A rsitektur dan M odel D ata M ining. Arsitektur Data Mining.
DATA MINING (Machine Learning)
ANALISIS OUTLIER 1 Data Mining.
Sistem Berbasis Fuzzy Materi 4
Data Mining Junta Zeniarja, M.Kom, M.CS
Decision Tree.
K-SUPPORT VECTOR NEAREST NEIGHBOR UNTUK KLASIFIKASI BERBASIS K-NN
Sistem Berbasis Fuzzy Materi 5
PENGANTAR STATISTIKA.
Klasifikasi.
STUDI KASUS KLASIFIKASI Algoritma C 4.5
Peran Utama Data Mining
PEMBUATAN POHON KEPUTUSAN
Pengaruh incomplete data terhadap
Pertemuan 9 MODEL MATEMATIKA (OFF CLASS)
Konsep Data Mining Ana Kurniawati.
Klasifikasi Berdasarkan Teorema Bayes
Clustering Best Practice
PENGUKURAN Pengukuran :pemberian “angka” terhadap fenomena dengan mengikuti aturan tertentu Proses pengukuran : investigasi mengenai ciri-ciri yang mendasari.
Aplikasi Kecerdasan Komputasional
DATA By irfan.
PENGANTAR STATISTIKA.
Algoritma kNN (k-Nearest Neighbor)
Naïve Bayes Classification.
Pohon Keputusan (Decision Trees)
Klasifikasi dengan Naive Bayes
Classification Supervised learning.
Oleh : Rahmat Robi Waliyansyah, M.Kom.
.:: NAive bayes ::. DSS - Wiji Setiyaningsih, M.Kom.
Analisis Klastering K-Means Model Datamining Kelompok 1 Eko Suryana
Pengantar Statistik Juweti Charisma.
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
Algoritma kNN (k-Nearest Neighbor)
Klasifikasi Nearest Neighbor
USING DATA MINING TO MODEL PLAYER EXPERIENCE
DATA MINING with W E K A.
Machine Learning Naïve Bayes
Anggota Dwita Eprila ( ) Mayang Hermeiliza Eka Putri ( ) Nadiah Amelia ( ) Rafif Abdusalam ( ) Shofyan.
Perancangan Sistem Klasifikasi Masa Studi Mahasiswa Menggunakan Data Mining Berbasis Algoritma ID3 (Studi Kasus:Jurusan Teknik Komputer –Unikom) Oleh:
Konsep Aplikasi Data Mining
Klasifikasi dengan Naive Bayes
Fungsi diskriminan linear, klasifikasi diskret dan regresi
Decision Tree Pertemuan : 13.
ILMU PENGETAHUAN DAN JENIS PENELITIAN 29
Pertemuan 1 & 2 Pengantar Data Mining 12/6/2018.
KLASIFIKASI.
Konsep Data Mining Ana Kurniawati.
Information Retrieval “Document Classification dengan Naive Bayes”
IMPLEMENTASI ALGORITMA k-NN
Pertemuan 10.
DECISION SUPPORT SYSTEM [MKB3493]
Universitas Gunadarma
Klasifikasi dengan Naive Bayes
Pengukuran Penilaian Tes dan Evaluasi. 1. Pengukuran Proses memberi bentuk kuantitatif pada atribut seseorang, kelompok atau objek lain berdasar aturan.
Universitas Gunadarma
Intro Algoritma K-Nearest Neighbor (K- NN) adalah sebuah metode klasifikasi terhadap sekumpulan data maupun dokumen berdasarkan pembelajaran  data yang.
Algoritma kNN (k-Nearest Neighbor)
Transcript presentasi:

KLASIFIKASI

PENGANTAR Klasifikasi adalah sebuah proses untuk menemukan model yang menjelaskan atau membedakan kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang kelasnya tidak diketahui (Tan et all, 2004). Di dalam klasifikasi diberikan sejumlah record yang dinamakan training set, yang terdiri dari beberapa atribut, atribut dapat berupa kontinyu ataupun kategoris, salah satu atribut menunjukkan kelas untuk record.

Model Klasifikasi terdiri dari (Tan et all, 2006): 1. Pemodelan Deskriptif Dapat bertindak sebagai suatu alat yang bersifat menjelaskan untuk membedakan antara objek dengan klas yang berbeda. 2. Pemodelan Prediktif Model klasifikasi juga dapat menggunakan prediksi label kelas yang belum diketahui recordnya.

Tujuan dari klasifikasi adalah untuk: 1 Tujuan dari klasifikasi adalah untuk: 1. Menemukan model dari training set yang membedakan record kedalam kategori atau kelas yang sesuai, model tersebut kemudian digunakan untuk mengklasifikasikan record yang kelasnya belum diketahui sebelumnya pada test set. 2. Mengambil keputusan dengan memprediksikan suatu kasus, berdasarkan hasil klasifikasi yang diperoleh .

Konsep Pembuatan Model dalam Klasifikasi Untuk mendapatkan model, kita harus melakukan analisis terhadap data latih(training set). Sedangkan data uji (test set) digunakan untuk mengetahui tingkat akurasi dari model yang telah dihasilkan. Klasifikasi dapat digunakan untuk memprediksi nama atau nilai kelas dari suatu obyek data.

Proses klasifikasi data dapat dibedakan dalam 2 tahap, yaitu : 1 Proses klasifikasi data dapat dibedakan dalam 2 tahap, yaitu : 1. Pembelajaran / Pembangunan Model Tiap – tiap record pada data latih dianalisis berdasarkan nilai – nilai atributnya, dengan menggunakan suatu algoritma klasifikasi untuk mendapatkan model. 2. Klasifikasi Pada tahap ini, data uji digunakan untuk mengetahui tingkat akurasi dari model yang dihasilkan. Jika tingkat akurasi yang diperoleh sesuai dengan nilai yang ditentukan, maka model tersebut dapat digunakan untuk mengklasifikasikan record – record data baru yang belum pernah dilatihkan atau diujikan sebelumnya

Pembuatan model menguraikan sebuah set dari penentuan kelas-kelas sebagai: 1. Setiap tuple diasumsikan sudah mempunyai kelas yang dikenal seperti ditentukan oleh label kelas atribut. 2. Kumpulan tuple yang digunakan untuk membuat model disebut kumpulan pelatihan (training set) 3. Model direpresentasikan sebagai classification rules, decision tree atau formula matematika.

Penggunaan model menguraikan pengklasifikasian masa yang akan datang atau obyek yang belum ketahui, yaitu taksiran keakuratan dari model yang terdiri dari: 1. Label yang telah diketahui dari contoh tes dibandingkan dengan hasil klasifikasi dari model. 2. Nilai keakuratan adalah prosentase dari kumpulan contoh tes yang diklasifikasikan secara tepat oleh model. 3. Kumpulan tes tidak terikat pada kumpulan pelatihan, 4. Jika akurasi diterima, gunakan model untuk mengklasifikasikan data tuple yang label kelasnya belum diketahui.

Untuk mengevaluasi performansi sebuah model yang dibangun oleh algoritma klasifikasi dapat dilakukan dengan menghitung jumlah dari test record yang di prediksi secara benar (akurasi) atau salah (error rate) oleh model tersebut. Algoritma klasifikasi berusaha untuk mencari model yang mempunyai akurasi yang tinggi atau error rate yang rendah ketika model diterapkan pada test set. Akurasi dan error rate didefinisikan sebagai berikut.

Teknik Klasifikasi Didalam Klasifikasi sebagaimana telah dijelaskan, ada beberapa teknik klasifikasi yang digunakan, antara lain: pohon keputusan, rule based, neural network, Support vector machine, naive bayes, nearest neighbour. linear discriminant analysis (LDA), voting feature interval 5 (VFI5)

K-NEAREST NEIGHBOR K-nearest neighbor (KNN) merupakan algoritma klasifikasi data baru berdasar kepada kategori mayoritas tetangga terdekat ke-K. Data untuk KNN terdiri dari beberapa atribut multivariat Xi yang akan digunakan untuk mengklasifikasikan Y. Data untuk KNN dapat berupa data ordinal, nominal sampai dengan skala kuantitatif namun yang akan dibahas hanya skala kuantitatif Xi dan (nominal) Y.

ALGORITMA KNN Tentukan parameter K = jumlah tetangga terdekat Hitung jarak antara data baru dengan semua data training Urutkan jarak tersebut dan tetapkan tetangga terdekat berdasarkan jarak minimum ke-K Periksa kelas dari tetangga terdekat Gunakan mayoritas sederhana dari kelas tetangga terdekat sebagai nilai prediksi data baru

Contoh aplikasi KNN. Diberikan data training berikut sebanyak 4 record, terdiri dari atribut X1 dan X2 serta Y dengan kategori baik dan buruk. Jika terdapat data baru dengan nilai X1=3 dan X2=7, tentukan termasuk kategori baik atau buruk ! X1 X2 Y 7 7 Buruk 7 4 Buruk 3 4 Baik 1 4 Baik

Penyelesaian Tentukan parameter K = jumlah tetangga terdekat misalkan ditetapkan K = 3 Hitung jarak antara data baru dengan semua data training

Urutkan jarak tersebut dan tetapkan tetangga terdekat berdasarkan jarak minimum ke-K

Periksa kelas dari tetangga terdekat

Gunakan mayoritas sederhana dari kelas tetangga terdekat sebagai nilai prediksi data baru Hasil pada langkah ke 4 menunjukkan bahwa dari 3 tetangga terdekat, terdapat 2 kelas Baik dan 1 kelas Buruk, maka disimpulkan bahwa data baru termasuk ke dalam kelas Baik.

Kelebihan dan kelemahan algoritma KNN Beberapa kelebihan algoritma KNN antara lain adalah: Robust terhadap data training yang memiliki noise Efektif jika data training berukuran besar

Kelemahan algoritma KNN. Beberapa kelemahan dari KNN antara lain: Perlu menentukan parameter K Jarak sebagai basis pembelajaran tidak jelas, tipe jarak apa yang harus digunakan dan atribut mana saja yang harus digunakan untuk mendapatkan hasil yang optimal. Apakah semua atribut harus digunakan atau hanya atribut tertentu saja? Computation cost sangat tinggi karena harus menghitung jarak antara data baru dengan semua data training.

Contoh soal x1 x2 Kelas 1 3 2 4 ?