Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

KLASIFIKASI.

Presentasi serupa


Presentasi berjudul: "KLASIFIKASI."— Transcript presentasi:

1 KLASIFIKASI

2 PENGANTAR Klasifikasi adalah sebuah proses untuk menemukan model yang menjelaskan atau membedakan kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang kelasnya tidak diketahui (Tan et all, 2004). Di dalam klasifikasi diberikan sejumlah record yang dinamakan training set, yang terdiri dari beberapa atribut, atribut dapat berupa kontinyu ataupun kategoris, salah satu atribut menunjukkan kelas untuk record.

3 Model Klasifikasi terdiri dari (Tan et all, 2006):
1. Pemodelan Deskriptif Dapat bertindak sebagai suatu alat yang bersifat menjelaskan untuk membedakan antara objek dengan klas yang berbeda. 2. Pemodelan Prediktif Model klasifikasi juga dapat menggunakan prediksi label kelas yang belum diketahui recordnya.

4 Tujuan dari klasifikasi adalah untuk: 1
Tujuan dari klasifikasi adalah untuk: 1. Menemukan model dari training set yang membedakan record kedalam kategori atau kelas yang sesuai, model tersebut kemudian digunakan untuk mengklasifikasikan record yang kelasnya belum diketahui sebelumnya pada test set. 2. Mengambil keputusan dengan memprediksikan suatu kasus, berdasarkan hasil klasifikasi yang diperoleh .

5 Konsep Pembuatan Model dalam Klasifikasi
Untuk mendapatkan model, kita harus melakukan analisis terhadap data latih(training set). Sedangkan data uji (test set) digunakan untuk mengetahui tingkat akurasi dari model yang telah dihasilkan. Klasifikasi dapat digunakan untuk memprediksi nama atau nilai kelas dari suatu obyek data.

6 Proses klasifikasi data dapat dibedakan dalam 2 tahap, yaitu : 1
Proses klasifikasi data dapat dibedakan dalam 2 tahap, yaitu : 1. Pembelajaran / Pembangunan Model Tiap – tiap record pada data latih dianalisis berdasarkan nilai – nilai atributnya, dengan menggunakan suatu algoritma klasifikasi untuk mendapatkan model. 2. Klasifikasi Pada tahap ini, data uji digunakan untuk mengetahui tingkat akurasi dari model yang dihasilkan. Jika tingkat akurasi yang diperoleh sesuai dengan nilai yang ditentukan, maka model tersebut dapat digunakan untuk mengklasifikasikan record – record data baru yang belum pernah dilatihkan atau diujikan sebelumnya

7 Pembuatan model menguraikan sebuah set dari penentuan kelas-kelas sebagai: 1. Setiap tuple diasumsikan sudah mempunyai kelas yang dikenal seperti ditentukan oleh label kelas atribut. 2. Kumpulan tuple yang digunakan untuk membuat model disebut kumpulan pelatihan (training set) 3. Model direpresentasikan sebagai classification rules, decision tree atau formula matematika.

8 Penggunaan model menguraikan pengklasifikasian masa yang akan datang atau obyek yang belum ketahui, yaitu taksiran keakuratan dari model yang terdiri dari: 1. Label yang telah diketahui dari contoh tes dibandingkan dengan hasil klasifikasi dari model. 2. Nilai keakuratan adalah prosentase dari kumpulan contoh tes yang diklasifikasikan secara tepat oleh model. 3. Kumpulan tes tidak terikat pada kumpulan pelatihan, 4. Jika akurasi diterima, gunakan model untuk mengklasifikasikan data tuple yang label kelasnya belum diketahui.

9 Untuk mengevaluasi performansi sebuah model yang dibangun oleh algoritma klasifikasi dapat dilakukan dengan menghitung jumlah dari test record yang di prediksi secara benar (akurasi) atau salah (error rate) oleh model tersebut. Algoritma klasifikasi berusaha untuk mencari model yang mempunyai akurasi yang tinggi atau error rate yang rendah ketika model diterapkan pada test set. Akurasi dan error rate didefinisikan sebagai berikut.

10 Teknik Klasifikasi Didalam Klasifikasi sebagaimana telah dijelaskan, ada beberapa teknik klasifikasi yang digunakan, antara lain: pohon keputusan, rule based, neural network, Support vector machine, naive bayes, nearest neighbour. linear discriminant analysis (LDA), voting feature interval 5 (VFI5)

11

12 K-NEAREST NEIGHBOR K-nearest neighbor (KNN) merupakan algoritma klasifikasi data baru berdasar kepada kategori mayoritas tetangga terdekat ke-K. Data untuk KNN terdiri dari beberapa atribut multivariat Xi yang akan digunakan untuk mengklasifikasikan Y. Data untuk KNN dapat berupa data ordinal, nominal sampai dengan skala kuantitatif namun yang akan dibahas hanya skala kuantitatif Xi dan (nominal) Y.

13 ALGORITMA KNN Tentukan parameter K = jumlah tetangga terdekat
Hitung jarak antara data baru dengan semua data training Urutkan jarak tersebut dan tetapkan tetangga terdekat berdasarkan jarak minimum ke-K Periksa kelas dari tetangga terdekat Gunakan mayoritas sederhana dari kelas tetangga terdekat sebagai nilai prediksi data baru

14 Contoh aplikasi KNN. Diberikan data training berikut sebanyak 4 record, terdiri dari atribut X1 dan X2 serta Y dengan kategori baik dan buruk. Jika terdapat data baru dengan nilai X1=3 dan X2=7, tentukan termasuk kategori baik atau buruk ! X1 X2 Y 7 7 Buruk 7 4 Buruk 3 4 Baik 1 4 Baik

15 Penyelesaian Tentukan parameter K = jumlah tetangga terdekat misalkan ditetapkan K = 3 Hitung jarak antara data baru dengan semua data training

16 Urutkan jarak tersebut dan tetapkan tetangga terdekat berdasarkan jarak minimum ke-K

17 Periksa kelas dari tetangga terdekat

18 Gunakan mayoritas sederhana dari kelas tetangga terdekat sebagai nilai prediksi data baru
Hasil pada langkah ke 4 menunjukkan bahwa dari 3 tetangga terdekat, terdapat 2 kelas Baik dan 1 kelas Buruk, maka disimpulkan bahwa data baru termasuk ke dalam kelas Baik.

19 Kelebihan dan kelemahan algoritma KNN
Beberapa kelebihan algoritma KNN antara lain adalah: Robust terhadap data training yang memiliki noise Efektif jika data training berukuran besar

20 Kelemahan algoritma KNN.
Beberapa kelemahan dari KNN antara lain: Perlu menentukan parameter K Jarak sebagai basis pembelajaran tidak jelas, tipe jarak apa yang harus digunakan dan atribut mana saja yang harus digunakan untuk mendapatkan hasil yang optimal. Apakah semua atribut harus digunakan atau hanya atribut tertentu saja? Computation cost sangat tinggi karena harus menghitung jarak antara data baru dengan semua data training.

21 Contoh soal x1 x2 Kelas 1 3 2 4 ?


Download ppt "KLASIFIKASI."

Presentasi serupa


Iklan oleh Google