K-SUPPORT VECTOR NEAREST NEIGHBOR UNTUK KLASIFIKASI BERBASIS K-NN

Slides:



Advertisements
Presentasi serupa
Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Syiah Kuala
Advertisements

Analisis Outlier.
Pengelompokan Jenis Tanah Menggunakan Algoritma Clustering K-Means
Klasifikasi (Season 1) Naive Bayes
DATA MINING 1.
Nama : Muhammad Mirza NPM : Kelas : B
Thinning Disusun Oleh: Andreas Nataniel ( x)
TOWARDS MULTIPLE IDENTITY DETECTION IN SOCIAL NETWORKS & RESEARCH METODOLOGY 3KS2 ERMA FITRIANA RANITA RIZKI APRILLIA.
RATRI WIJAYANTI ANINDITA
TUGAS RESUME PENGENDALIAN DAN PENJAMINAN MUTU
Support Vector Machine (SVM)
METODE NUMERIK.
Fuzzy Clustering Logika Fuzzy Materi Kuliah Prodi Teknik Informatika
PERSIMPANGAN BERSINYAL
Clustering (Season 2) Self-Organizing Map
Pembangkit Bilangan Acak Semu
Artificial Immune System
1 Pertemuan 8 Klasifikasi dan Rekognisi Pola (2) Matakuliah: T0283 – Computer Vision Tahun: 2005 Versi: Revisi 1.
TUGAS MENEMUKAN MASALAH Nama: SURYA ADE SAPUTRA Nim:
DATA MINING (Machine Learning)
INTEGER PROGRAMMING Modul 8. PENELITIAN OPERASIONAL Oleh : Eliyani
Sistem Berbasis Fuzzy Materi 4
Data Mining Junta Zeniarja, M.Kom, M.CS
ALHURIYAH :Aplikasi Pengenalan Huruf Hijaiyah Berbasis speech recognition Menggunakan Mel Frequency Cepstral Coefficients (MFCC) Kelompok 10 Dian.
SUPPORT VECTOR MACHINE
PENERAPAN METODE TAGUCHI UNTUK PROSES OPTIMISASI TERHADAP DAYA TAHAN SPOT WELDING OLEH : NOVI RAMADHANNY
Sistem Berbasis Fuzzy Materi 5
Klasifikasi.
Oleh: Aditya Nugroho G Dibimbing Oleh: Ir. Agus Buono, M.Si., M.Kom.
TERAPAN POHON BINER.
EFEKTIFITAS SELEKSI FITUR DALAM SISTEM TEMU-KEMBALI INFORMASI
PEMBUATAN POHON KEPUTUSAN
Tujuan Pembelajaran 1) Mengetahui definisi variabel dummy
Konsep Data Mining Ana Kurniawati.
Aplikasi Kecerdasan Komputasional
Algoritma kNN (k-Nearest Neighbor)
K-Nearest Neighbor dan K-means
Clustering (Season 1) K-Means
TUGAS RESUME JURNAL PRA UTS
Pengolahan Data Dan Prototyping
Deteksi Spatial Outliers pada Data hasil PILKADA Kota Bogor
Classification Supervised learning.
POHON KEPUTUSAN (DECISION TREE)
Clustering (Season 2) Self-Organizing Map
Analisis Klastering K-Means Model Datamining Kelompok 1 Eko Suryana
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
Statistika, Vol. 2, No. 2, November 2014
Pengolahan Data Dan Prototyping
Aurilia Triani Aryaningtyas
Algoritma kNN (k-Nearest Neighbor)
Klasifikasi Nearest Neighbor
USING DATA MINING TO MODEL PLAYER EXPERIENCE
ANALISIS CLUSTER Part 1.
KLASIFIKASI.
Pengolahan Data Dan Prototyping
Anggota Dwita Eprila ( ) Mayang Hermeiliza Eka Putri ( ) Nadiah Amelia ( ) Rafif Abdusalam ( ) Shofyan.
Pembimbing : Aziz Kustiyo, S.Si., M.Kom. Endang Purnama Giri, S.Kom.
K-Nearest Neighbourhood (KNN)
K-MEANS ALGORITHM CLUSTERING
Segmentasi Citra Materi 6
REKOGNISI CITRA Konsep Dasar Rekognisi
Konsep Data Mining Ana Kurniawati.
IMPLEMENTASI ALGORITMA k-NN
Implementasi clustering K-MEANS (dengan IRIS dataset)
By : Rahmat Robi Waliyansyah, M.Kom
DECISION SUPPORT SYSTEM [MKB3493]
© presentationgo.compresentationgo.com By:.com PROSES DAN TEKNIK PENGAMBILAN KEPUTUSAN OLEH : Ikrima M. Mustafa, S.Sos.,MM Your Logo FAKULTAS EKONOMI BISNIS.
Intro Algoritma K-Nearest Neighbor (K- NN) adalah sebuah metode klasifikasi terhadap sekumpulan data maupun dokumen berdasarkan pembelajaran  data yang.
Universitas Gunadarma
Algoritma kNN (k-Nearest Neighbor)
Transcript presentasi:

K-SUPPORT VECTOR NEAREST NEIGHBOR UNTUK KLASIFIKASI BERBASIS K-NN Eko Prasetyo Program Studi Teknik Informatika, Fakultas Teknik Universitas Bhayangkara Surabaya

Abstrak K-Nearest Neighbor (K-NN): Algoritma klasifikasi yang sangat populer Keunggulan:kesederhanaan dalam algoritma prediksi, Kelemahan: lambat dalam proses prediksi. Sebab: K-NN memproses semua data yang sebenarnya hanya beberapa saja yang berpengaruh pada keputusan hasil prediksi. Berbagai penelitian Meningkatkan akurasi prediksinya Mengurangi waktu komputasi pada saat proses prediksi K-Support Vector Nearest Neighbor (K-SVNN) untuk mendapatkan sejumlah support vector, dimana support vector inilah yang punya pengaruh besar pada hyperplane fungsi tujuan. Hasil pengujian: kinerja prediksi K-SVNN relatif lebih baik dibandingkan metode-metode berbasis K-NN sebelumnya.

Latar Belakang K-Nearest Neighbor (K-NN) merupakan algoritma yang melakukan klasifikasi berdasarkan ketidakmiripan (kedekatan lokasi / jarak) suatu data dengan data yang lain. K-NN menjadi pilihan metode klasifikasi yang paling popular. Kelebihannya: Sederhana Mampu memodelkan fungsi tujuan yang kompleks dengan sejumlah perkiraan kompleks local Informasi yang tersimpan dalam data latih tidak pernah hilang Kelemahan nya: Harus menyimpan dalam jumlah dan karakteristik yang sangat besar pada data latih. Membutuhkan waktu yang sangat besar pada saat proses prediksi.

Penelitian Terkait (1) Srisawat et al. [4] mengusulkan SV-KNN dengan melakukan reduksi jumlah data latih untuk mempercepat kinerja K-NN Ada 3 langkah: Menerapkan SVM untuk mendapatkan data latih signifikan Menggunakan K-Means Clustering untuk mempartisi data signifikan menjadi sejumlah centroid terbobot berdasarkan prosentasi komposisi data dari masing-masing kelas Menggunakan prototype tersebut untuk proses prediksi Trade-off: Akurasi prediksi yang cukup siginifikan Reduksi data latih yang sangat tinggi, Komputasi yang lama untuk proses mendapat support vector

Penelitian Terkait (2) Fayed dan Atiya [5] mengusulkan Template Reduction K- Nearest Neighbor (TRKNN) Berusaha mengurangi data latih yang tidak berpengaruh siginifikan pada saat proses prediksi. Data latih tersebut adalah data latih yang posisinya tidak berada diposisi data didekat hyperplane fungsi tujuan. Sisanya merupakan data latih yang punya pengaruh signifikan, yang digunakan sebagai data latih (template) baru K-NN untuk proses prediksinya Trade-off: Berhasil mengurangi data latih secara signifikan dibandingkan dengan metode sebelumnya, Akurasi prediksi secara umum tidak lebih tinggi dari lain [5]

Framework K-Support Vector Nearest Neighbor (K-SVNN) (1) K-SVNN berusaha mengurangi data latih berdasarkan properti skor (score) dan properti relevansi / derajat signifikansi (significant degree) pada setiap data latih berdasarkan prinsip K tetangga terdekat. Properti skor ada 2 nilai: Nilai kiri (Left Value / LV)  untuk kelas yang sama Nilai kanan (Right Value / RV)  untuk kelas yang berbeda Jumlah LV dan RV dari semua data latih sama dengan N×K, seperti dinyatakan oleh persamaan: Properti derajat signifikansi….

Framework K-Support Vector Nearest Neighbor (K-SVNN) (2) Properti derajat signifikansi (Significant Degree / SD) adalah nilai yang menyatakan tingkat signifikansi (relevansi) data latih tersebut pada fungsi tujuan Nilainya dalam rentang 0 sampai 1 [0,1] Semakin tinggi nilainya maka relevansinya untuk menjadi support vector juga semakin tinggi. Nilai 0 pada derajat signifikansi sebuah data latih berarti data latih tersebut harus dibuang (tidak digunakan sebagai support vector) Nilai SD didapatkan dengan membagi LV terhadap RV atau RV terhadap LV sesuai syarat yang terpenuhi seperti pada persamaan:

Framework K-Support Vector Nearest Neighbor (K-SVNN) (3) Properti lain yang penting: Nilai K. Nilai K yang disarankan untuk digunakan adalah K>1. Pengaruh besarnya nilai K yang digunakan pada saat pelatihan adalah: Semakin kecil nilai K maka: Semakin sedikit jumlah support vector (semakin besar reduksinya), Semakin cepat waktu kerjanya saat prediksi Semakin kecil pula akurasi yang didapatkan, demikian pula sebaliknya. Nilai K yang besar tidak menjamin akurasi kinerja yang semakin baik K-SVNN dengan K=3 Dari data latih d1 dan d2 saja, untuk data A1 nilai LV=1,RV=0, untuk data A2 nilai LV=1,RV=1, untuk data A3 nilai LV=1,RV=0

Framework K-Support Vector Nearest Neighbor (K-SVNN) (4) Algoritma pelatihan K-SVNN : Inisialisasi: D adalah set data latih, K adalah jumlah tetangga terdekat, T adalah threshold SD yang dipilih, LV dan RV untuk semua data latih = 0. Untuk setiap data latih diD, lakukan langkah 3 sampai 5 Hitung ketidakmiripan (jarak) dari di ke data latih yang lain. Pilih dt sebagai K data latih tetangga terdekat (tidak termasuk di). Untuk setiap data latih dalam dt, jika label kelas sama dengan di, maka tambahkan nilai 1 pada LVi, jika tidak sama maka tambahkan nilai 1 pada RVi. Untuk setiap data latih di, hitung SDi menggunakan persamaan (2) Pilih data latih dengan SD ≥ T, simpan dalam memori (variabel) sebagai template untuk prediksi.

Pengujian dan Analisis Tabel 1. Hasil uji coba untuk mendapatkan skor dan derajat signifikansi Uji coba pendahuluan untuk mendapatkan support vector. Untuk data set ini, digunakan K=5, dengan parameter jarak adalah Euclidean. No Fitur Skor SD X Y LV RV 1 5 2 3 4 6 0.5 7 8 9 0.8 10 0.1429 11 0.1667 12 13 14 15 0.2 16 17 18 Hasil uji coba pendahuluan untuk mendapatkan support vector, K=5

Pengujian dan Analisis Pengujian kinerja pada 4 data set utama yang diambil data set publik [6]: Iris (150 record) Vertebral Column (310 record) Wine (178 record) Glass (214 record). Sistem pengujian menggunakan 5 fold 80% sebagai data latih 20% sebagai data uji

Pengujian dan Analisis Perbandingan penggunaan nilai K dengan prosentase akurasi dan jumlah reduksi data latih data set Iris data set Vertebral Column data set Wine data set Glass

Pengujian dan Analisis Perbandingan penggunaan nilai K dengan waktu eksekusi ketika proses prediksi data set Iris data set Vertebral Column data set Wine data set Glass

Perbandingan dengan metode sebelumnya Perbandingan akurasi prediksi Perbandingan reduksi data latih Data set K-NN TR-KNN SV-KNN K-SVNN Iris 82.90% 64.52% 80.00% 84.19% Vertebral Column 94.67% 48.67% 92.00% 95.33% Wine 77.14% 56.57% 80.57% Glass 92.86% 83.81% 90.00% 89.52% Data set K-NN TR-KNN SV-KNN K-SVNN Iris 0.00% 73.55% 60.00% 56.69% Vertebral Column 89.67% 82.17% 83.67% Wine 69.79% 80.00% 49.37% Glass 88.49% 86.05% 80.58% Perbandingan waktu eksekusi prediksi (dalam satuan milidetik) Data set K-NN TR-KNN SV-KNN K-SVNN Iris 8.95 4.49 12.46 4.80 Vertebral Column 4.31 2.20 10.75 2.29 Wine 3.49 2.77 4.34 8.91 Glass 4.10 2.99 5.08 3.16

Simpulan Metode K-SVNN dapat digunakan untuk pekerjaan klasifikasi dengan akurasi prediksi yang lebih baik disbanding metode-metode sebelumnya. K-SVNN menggunakan basis K-NN sehingga algoritma prediksi juga sederhana, sama dengan K- NN. Karena K-SVNN menggunakan sebuah proses untuk mendapatkan support vector untuk keperluan prediksi maka K-SVNN dapat dikategorikan kedalam semi eiger learning.

Saran K-SVNN masih bekerja hanya untuk dua kelas, belum bisa bekerja untuk kelas lebih dari dua. K-SVNN mempunyai kinerja waktu prediksi yang belum lebih baik bahkan dibandingkan dengan metode yang lain, sehingga masih terbuka kemungkinan untuk meningkatkan kinerja dari sisi waktu eksekusi prediksi dan jumlah data latih yang tereduksi. K-SVNN masih menggunakan prediksi pada K-NN klasik sehingga masih dimungkinkan adanya penurunan akurasi kinerja akibat jumlah data latih yang berkontribusi pada saat prediksi semakin berkurang.

Terima Kasih