Klasifikasi Nearest Neighbor

Slides:



Advertisements
Presentasi serupa
Analisis Outlier.
Advertisements

Kesimpulan BUKU Data Mining
K Nearest Neighbour. Nearest Neighbour Rule Tersedia beberapa data (x,y) yang terklasifikasi menjadi 2 kelas k = 1 k = 3 Diberikan query point q, titik.
Self Organizing Maps Tim Asprak Metkuan
PENERAPAN ALGORITMA MODIFIED K-NEAREST NEIGHBOR (MKNN) UNTUK MENGKLASIFIKASIKAN LETAK PROTEIN PADA BAKTERI E.COLI Kelompok : Rosangelina / Prasetia.
Model Sistem Pengenalan Pola
Computer Vision Materi 8
Klasifikasi (Season 2) Nearest Neighbor
Klasifikasi (Season 1) Naive Bayes
Sistem Berbasis Fuzzy Materi 4
Support Vector Machine (SVM)
Informatics Theory & Programming (ITP) Informatics Eng. Dept. – IT Telkom.
Fuzzy Clustering Logika Fuzzy Materi Kuliah Prodi Teknik Informatika
Clustering (Season 2) Self-Organizing Map
Pengolahan Citra Digital Materi 6
Kriptografi Kunci Publik (Asimetry Key) Algoritma Pertukaran Kunci Simetri (Diffie-Hellman) Materi 10 Pemrograman Jaringan Dosen: Eko Prasetyo Teknik.
Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY
Artificial Immune System
Pertemuan 3 JARINGAN PERCEPTRON
MODUL KULIAH 10 Ekstraksi Fitur Bentuk
ANALISIS OUTLIER 1 Data Mining.
Sistem Berbasis Fuzzy Materi 4
Pertemuan 12 ARTIFICIAL NEURAL NETWORKS (ANN) - JARINGAN SYARAF TIRUAN - Betha Nurina Sari, M.Kom.
Decision Tree.
Inferensi Dua Nilaitengah Ganda (I)
K-SUPPORT VECTOR NEAREST NEIGHBOR UNTUK KLASIFIKASI BERBASIS K-NN
Sistem Berbasis Fuzzy Materi 5
Klasifikasi.
STUDI KASUS KLASIFIKASI Algoritma C 4.5
Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY
Algoritma C4.5. Algoritma C4.5 Object-Oriented Programming Introduction Algoritma C4.5 merupakan algoritma yang digunakan.
Data Mining Junta Zeniarja, M.Kom, M.CS
MODUL16 Aplikasi Fitur Bentuk
Pengenalan Pola Materi 1
Pertemuan 3 Pengolahan Citra Digital
Segmentasi Citra Materi 6
Pengaruh incomplete data terhadap
Konsep Data Mining Ana Kurniawati.
Klasifikasi Berdasarkan Teorema Bayes
Clustering Best Practice
Kelas XII Program IPA Semester 1
Aplikasi Kecerdasan Komputasional
Computer Vision Materi 7
Algoritma kNN (k-Nearest Neighbor)
K-Nearest Neighbor dan K-means
Clustering (Season 1) K-Means
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
Classification Supervised learning.
Clustering (Season 2) Self-Organizing Map
Analisis Klastering K-Means Model Datamining Kelompok 1 Eko Suryana
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
Algoritma kNN (k-Nearest Neighbor)
KLASIFIKASI.
Anggota Dwita Eprila ( ) Mayang Hermeiliza Eka Putri ( ) Nadiah Amelia ( ) Rafif Abdusalam ( ) Shofyan.
Pembelajaran terbimbing dengan pendekatan parametriks dan nonparametriks Kuliah 3.
Fungsi diskriminan linear, klasifikasi diskret dan regresi
K-Nearest Neighbourhood (KNN)
CLUSTERING.
KLASIFIKASI.
Segmentasi Citra Materi 6
REKOGNISI CITRA Konsep Dasar Rekognisi
Konsep Data Mining Ana Kurniawati.
IMPLEMENTASI ALGORITMA k-NN
By : Rahmat Robi Waliyansyah, M.Kom
HIERARCHICAL CLUSTERING
DECISION SUPPORT SYSTEM [MKB3493]
Universitas Gunadarma
Intro Algoritma K-Nearest Neighbor (K- NN) adalah sebuah metode klasifikasi terhadap sekumpulan data maupun dokumen berdasarkan pembelajaran  data yang.
Materi bahasa indonesia Pertemuan kedua Di kelas 8 b.
Algoritma kNN (k-Nearest Neighbor)
Transcript presentasi:

Klasifikasi Nearest Neighbor Data Mining Materi 3 Eko Prasetyo Teknik Informatika 2012

K-Nearest Neighbor (K-NN)

K-Nearest Neighbor Algoritma yang melakukan klasifikasi berdasarkan kedekatan lokasi (jarak) suatu data dengan data yang lain. Prinsip sederhana yang diadopsi oleh algoritma K- NN adalah: “Jika suatu hewan berjalan seperti bebek, bersuara kwek-kwek seperti bebek, dan penampilannya seperti bebek, maka hewan itu mungkin bebek”. Pada algoritma K-NN, data berdimensi q, dapat dihitung jarak dari data tersebut ke data yang lain, Nilai jarak ini yang digunakan sebagai nilai kedekatan/kemiripan antara data uji dengan data latih.

K-Nearest Neighbor 1 tetangga terdekat (1-NN)

Algoritma K-NN z = (x’,y’), adalah data uji dengan vektor x’ dan label kelas y’ yang belum diketahui Hitung jarak d(x’,x), jarak diantara data uji z ke setiap vektor data latih, simpan dalam D Pilih Dz  D, yaitu K tetangga terdekat dari z

Contoh Data latih Data X Y Kelas 1 2 3 4 5 7 6 8 9 10 11 12 13 14 15 16 17 Data uji adalah data (3,4), fitur X=3, Y=4. Akan dilakukan prediksi, masuk dalam kelas yang manakah seharusnya ? Gunakan jarak Euclidean !

Jarak data uji ke data latih Prediksi dengan K-NN Jarak data uji (3,4) ke 17 data latih Nomor data x y Kelas asli Jarak data uji ke data latih 1-NN 3-NN 7-NN 1 3.6055 --- 2 3.1622 3 4 NN 5 7 4.4721 6 2.2360 1.4142 8 9 10 11 12 13 2.8284 14 15 16 17

Jarak data uji ke data latih Prediksi dengan K-NN Jarak data uji (3,4) ke 17 data latih Nomor data x y Kelas asli Jarak data uji ke data latih 1-NN 3-NN 7-NN 9 4 2 1 NN 7 3 1.414 --- 6 2.236 8 5 11 14 13 2.828 15 10 3.162 12 16 17 3.606 4.472

Prediksi dengan K-NN Untuk K=1 Data latih yang terdekat adalah data nomor 9 (4,4) dengan kelas 2, maka data uji (3,4) diprediksi masuk kelas 2. Untuk K=3 Data latih yang terdekat adalah data nomor 9 (4,4) dengan kelas 2, data nomor 7 (2,3) dan data nomor 4 (3,2) dengan kelas 1, karena kelas 2 berjumlah 1 dan kelas 1 berjumlah 2 (lebih banyak kelas 1 daripada kelas 2) maka data uji (3,4) diprediksi masuk kelas 1. Untuk K=7 Data latih yang terdekat adalah data nomor 8 (5,3), 9 (4,4), 14 (4,6) dengan kelas 2, data nomor 4 (3,2), 6 (1,3), 7 (2,3), dan 11 (1,5) dengan kelas 1, karena kelas 2 berjumlah 3 dan kelas 1 berjumlah 4 (lebih banyak kelas 1 daripada kelas 2) maka data uji (3,4) diprediksi masuk kelas 1.

K-NN di matlab Class = knnclassify(Sample, Training, Group, k, distance, rule) Parameter Keterangan Sample Matrik dimana baris merupakan data, kolom merupakan fitur. Sample merupakan data uji yang akan diklasifikasikan kedalam kelas. Matrik Sample harus mempunyai jumlah kolom (fitur) yang sama dengan matrik Training. Training Matrik yang digunakan untuk mengelompokkan baris didalam matrik Sample. Matrik Traning harus mempunyai jumlah kolom yang sama dengan Sample. Setiap baris dalam matrik Training mempunyai relasi kelas pada baris yang sama pada matrik Group. Group Vektor (matrik 1 kolom) yang setiap barisnya menyatakan kelas dari baris yang sama dalam matrik Training. k Jumlah tetangga terdekat yang digunakan untuk klasifikasi. Nilai defaultnya adalah 1. distance String yang menyatakan metrik jarak yang digunakan untuk mencari tetangga terdekat, pilihannya: ‘euclidean’, jarak Euclidean (default) ‘cityblock’, jarak Manhattan atau jumlah absolut perbedaan nilai antar fitur ‘cosine’, jarak 1 – cos(sudut antara 2 titik) ‘correlation’, jarak 1 – korelasi diantara titik (nilai sekuen) ‘hamming’, jarak prosentase bit yang berbeda (cocok untuk data biner) rule String untuk menetapkan aturan dalam memutuskan bagaimana mengklasifikasikan Sample, pilihannya: ‘nearest’, aturan mayoritas pada titik terdekat (default); ‘random’, aturan mayoritas pada titik secara acak; ‘consensus’, aturan kesepakatan

>> contoh_knn kelas_uji = 2 %Nama file: dataset_buatan.m %x 1 2 3 3 7 1 2 5 3 4 6 1 6 1 4 5 2 4 %y 1 1 1 2 2 3 3 3 4 4 4 5 5 6 6 6 7 7 0.1 0.2 0.1 0.4 0.1 0.2 0.1 0.4 0.1 0.2 0.1 0.4 0.1 0.2 0.1 0.4 0.9 0.8 %kelas 1 1 1 1 2 1 1 2 1 2 2 1 2 1 2 2 2 2 ]; data = data'; %Nama file: contoh_knn.m dataset_buatan idx_latih = [1:8 10:18]; idx_uji = [9]; data_latih = data(idx_latih,1:2); data_uji = data(idx_uji,1:2); kelas_latih = data(idx_latih,3); K = 1; kelas_uji = knnclassify(data_uji, data_latih, kelas_latih, K) >> contoh_knn kelas_uji = 2

Evaluasi K-NN Algoritma yang menggunakan seluruh data latih untuk melakukan proses klasifikasi (complete storage). Mengakibatkan untuk data dalam jumlah yang sangat besar, proses prediksi menjadi sangat lama. Tidak membedakan setiap fitur dengan suatu bobot Pada ANN (Artificial Neural Network) yang berusaha menekan fitur yang tidak punya kontribusi terhadapklasifikasi menjadi 0 pada bagian bobot, NN tidak ada bobot untuk masing-masing fitur. Menyimpan sebagian atau semua data dan hampir tidak ada proses pelatihan, maka K-NN sangat cepat dalam proses training (karena memang tidak ada) tetapi sangat lambat dalam proses prediksi. Hal yang rumit adalah menentukan nilai K yang paling sesuai K-NN pada prinsipnya memilih tetangga terdekat, Parameter jarak juga penting untuk dipertimbangkan sesuai dengan kasus datanya. Euclidean sangat cocok untuk menggunakan jarak terdekat (lurus) antara dua data, tetapi Manhattan sangat robust untuk mendeteksi outlier dalam data.

To Be Continued … Klasifikasi Decision Tree ANY QUESTION ?