PENINGKATAN AKURASI PADA METODE KLASIFIKASI K-NEAREST NEIGHBOR MENGGUNAKAN LOCAL MEAN BASED DAN DISTANCE WEIGHT K-NEAREST NEIGHBOR Khairul Umam Syaliman.

Presentasi serupa


Presentasi berjudul: "PENINGKATAN AKURASI PADA METODE KLASIFIKASI K-NEAREST NEIGHBOR MENGGUNAKAN LOCAL MEAN BASED DAN DISTANCE WEIGHT K-NEAREST NEIGHBOR Khairul Umam Syaliman."— Transcript presentasi:

1 PENINGKATAN AKURASI PADA METODE KLASIFIKASI K-NEAREST NEIGHBOR MENGGUNAKAN LOCAL MEAN BASED DAN DISTANCE WEIGHT K-NEAREST NEIGHBOR Khairul Umam Syaliman 157038069 Tesis Program Studi Magister (S-2) Teknik Informatika Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara Pembimbing Prof. Dr. Opim Salim Sitompul Dr. Erna Budhiarti Nababan Pembanding Prof. Dr. Muhammad Zarlis Prof. Dr. Marwan Ramli

2 1.1 Latar Belakang Pada beberapa penelitian, nilai akurasi yang dihasilkan oleh K- NN masih tergolong rendah, terlebih lagi jika dibandingkan dengan algoritma klasifikasi lainnya. Danades et al. (2016), Support Vector Machine (SVM) dan K- NN. Nilai akurasi K-NN 71.28%, sedangkan SVM sebesar 92.40%. Tamatjita & Mahasta (2016), Nearest Centroid Classifier (NCC) dan K-NN. NCC mendapati nilai akurasi tertinggi sebesar 96.67% dan KNN hanya sebesar 26.7% Brown (2017), Menggunakan KNN untuk metode klasifikasi dan hanya mampu mencapai nilai akurasi sebesar 48.78%.

3 1.1 Latar Belakang (Count) Faktor-faktor yang menyebabkan rendahnya nilai akurasi dari K- NN diantaranya : Salah satunya karena setiap karakterisitik data dalam metode ini memiliki pengaruh yang sama terhadap penentuan jarak yang merupakan ukuran dari kemiripan antar data. Solusi dari permasalah ini adalah dengan memberikan bobot pada setiap karakteristik data (Kuhkan, 2016). Pada Penelitian Akan Mengatasi Kekurangan Pada sistem vote majority

4 1.1 Latar Belakang (Count) Faktor-faktor yang menyebabkan rendahnya nilai akurasi dari K- NN diantaranya : Kemungkinan munculnya kelas mayoritas ganda. Dimana sistem vote majority mengabaikan kedekatan antar data (Gou, 2011). Tentu saja hal ini tidak rasional ketika jarak antar data sangat berbeda jauh (Pan et al, 2016). Solusi : Distance Weight K-Nearest Neighbor (DWKNN) (Batista & Silva, 2009), Solusi : Local Mean Based K-Nearest Neighbor (LMKNN) (Mitani & Hamamoto, 2006)

5 1.1 Latar Belakang (Count) Berdasarkan penelitian terdahulu, maka pada penelitian ini akan menggantikan sistem vote majority menggunakan metode Distance Weight, dimana untuk mendapati bobot antar data akan dilakukan dengan cara menggabungkan metode LMKNN dan DWKNN

6 1.2 Rumusan Masalah Rendahnya hasil akurasi dari K-NN konvensional disebabkan oleh setiap karakteristik data memiliki pengaruh yang sama terhadap penentuan jarak (yang merupakan tingkat kemiripan) antar data, dan dalam penentuan kelas data baru, jarak (yang merupakan tingkat kemiripan) antar data diabaikan, karena K-NN konvensional menggunakan vote majority, dimana sistem vote majority juga memungkinanan munculnya kelas mayoritas ganda yang dapat menimbulkan miss klasifikasi.

7 1.3 Tujuan Penelitian Penelitian ini dilakukan dengan tujuan untuk meningkatkan nilai akurasi dari metode K-Nearest Neighbor (K-NN) konvensional dengan cara menggantikan sistem vote majority pada K- Nearest Neighbor Konvensional menggunakan metode Distance Weight. Untuk mendapati bobot dari jarak antar data akan dilakukan penggabungan metode Local Mean Based K- Nearest Neighbor (LMKNN) dan metode Distance Weight K-Nearest Neighbor (DWKNN).

8 1.4 Batasan Masalah Penelitian ini menggabungkan beberapa tahapan LMKNN dan DWKNN untuk mengatasi masalah sistem vote majority pada metode K-NN Konvensional. Data yang digunakan adalah data ionosphere dan data iris dari UCI Machine Learning, data yang didapat dari Kaggle, yaitu voice genre dan lower back pain symptoms, data thyroid disease (new thyroid) dari Keel Repository, dan 1 set data real penjursan siswa Kinerja diukur hanya berdasarkan dari tingkat akurasi.

9 1.5 Manfaat Penelitian Mendalami metode tentang klasifikasi terutama metode K-NN Memberi kontribusi kepada ilmu pengetahuan khususnya dalam bidang klasifikasi data.

10 2.2 LMKNN Tentukan Nilai K Hitung jarak data uji keseluruh data dari masing-masing kelas data dengan menggunakan model jarak Euclidean. Urutkan jarak antar data dari yang terkecil ke yang terbesar sebanyak K dari setiap kelas Hitung local mean vector dari setiap kelas

11 2.2 LMKNN Tentukan kelas data uji Nilai K pada LMKNN sangat berbeda jauh dari K- NN konvensional, dimana pada K-NN konvensional nilai K merupakan jumlah tetangga terdekat yang dipilih dari seluruh data latih, sedangkan pada LMKNN nilai K merupakan jumlah tetangga terdekat yang dipilih dari setiap kelas pada data latih (Pan et al, 2016).

12 2.3 DWKNN Batista & Silva (2009) memberi solusi dalam menentukan bobot jarak dengan persamaan atau :

13 2.3 DWKNN Gou & Xiong (2011)

14 2.3 DWKNN Tentukan nilai K Hitung jarak data uji keseluruh data dengan menggunakan model jarak. Urutkan jarak antar data dari yang terkecil hingga ke yang terbesar sebanyak K. Hitung bobot dari jarak antar data yang telah diurutkan.

15 2.3 DWKNN Tentukan rata-rata bobot untuk setiap kelas data berdasarkan K tetangga terdekat Tentukan rata-rata nilai bobot tertinggi untuk untuk dijadikan kelas bagi data baru.

16 3.2 Arsitektur Umum Penentuan Tetangga Terdekat, mengikuti aturan dari LMKNN Pembobotan Berdasarkan Jarak Antar Data, tahapan ini merupakan kontribusi dari DWKNN Penentuan Kelas Data Baru, tahapan ini juga merupakan kontribusi dari DWKNN

17 Penentuan Tetangga Terdekat Penentuan Nilai K Selanjutnya akan dilakukan perhitungan jarak dari data uji ke seluruh data sampel menggunakan model jarak Euclidean. Urutkan data secara ascending sebanyak K dari setiap kelas data.

18 Pembobotan Berdasarkan Jarak Antar Data Hitungan bobot menggunakan persamaan (Batista & Silva, 2006): Hitung rata-rata bobot dari setiap kelas Tentukan Kelas Bagi Data Baru

19 3.3 Tahapan Analisa Kinerja Metode

20

21

22 3.3.1 Penentuan Data Latih dan Data Uji No X1X2X3X4X5KelasKeterangan 1 85 90851 Data Latih 1 2 87737071741 Data Latih 2 3 80717882801 Data Latih 3 4 8290 80841 Data Latih 4 5 77918390841 Data Latih 5 6 70 71762 Data Latih 6 7 70 72702 Data Latih 7 8 75848081752 Data Latih 8 9 70 71702 Data Latih 9 10 7675718076 2Data Uji 1 11 75787080812 Data Uji 2

23 3.3.2 Proses Klasifikasi Jarak Antar Data Latih 1Latih 2Latih 3Latih 4Latih 5Latih 6…Latih 9 Uji 123.6214.5310.0526.1923.7711.96…13.37 Uji 222.1417.2911.9624.5421.2413.96… 17.06 Tabel 3.2 Jarak Data Uji ke Setiap Data Latih

24 3.3.2 Proses Klasifikasi Urutan Jarak Terdekat 1 st 2 nd 3 rd 4 th 5 th 6 th 7 th 8 th 9 th Data Latih Uji 1 367892154 Uji 2 386792514 Tabel 3.3 Urutan Jarak Terdekat Antara Data Uji ke Seluruh Data Latih DataKelasUrutan Data Latih Uji 1 1Data Latih 3Data Latih 2Data Latih 1 2Data Latih 6Data Latih 7Data Latih 8 Uji 2 1Data Latih 3Data Latih 2Data Latih 1 2Data Latih 8Data Latih 6Data Latih 7 Tabel 3.4 Urutan Jarak Terdekat Untuk Setiap Kelas Data

25 3.3.2 Proses Klasifikasi DataKelasBobot JarakRata-rata Uji 1 10.09950.06880.04230.0702 20.08360.07860.07880.0800 Uji 2 10.08360.05780.04520.0622 20.07600.07160.06040.0693 Tabel 3.5 Bobot Jarak Setiap Kelas Berdasarkan tabel 3.5 terlihat bahwa rata-rata bobot jarak tertinggi pada data uji 1 dan 2 didapati oleh kelas 2 (dua), sehingga data uji 1 dan data uji 2 berada pada kelas 2 (dua).

26 3.3.2 Proses Klasifikasi Pada K-NN konvensional Data Latih 1 st 2 nd 3 rd 1 st 2 nd 3 rd Data Uji 1367 Data Uji 2386 Kelas122 122 Tabel 3.6 Urutan K Tetangga Terdekat Dengan menggunakan sistem vote majority. (Berdasarkan tabel 3.6) terlihat bahwa kelas mayoritas adalah kelas 2 (dua), sehingga data uji 1 dan data uji 2 berada pada kelas 2 (dua).

27 3.3.2 Analisa Kinerja Metode Berdasarkan sub bab sebelumnya maka nilai akurasi dari K-NN konvensional adalah sebesar 100% dan metode gabungan LMKNN dan DWKNN adalah sebesar 100%. Hal ini dikarenakan kedua metode mampu memprediksi seluruh data uji dengan benar. Maka hasil analisa dari kedua metode adalah sama baiknya.

28 3.4 Software dan Tools yang digunakan Untuk mempermudah perhitungan dalam penelitian ini penulis menggunakan bantuan aplikasi MATLAB ®. Dimana langkah-langkah dari metode gabungan LMKNN dan DWKNN diimplementasikan secara manual, dan untuk K-NN konvensional penulis menggunakan fungsi yang sudah terdapat di MATLAB ®

29 HASIL DAN PEMBAHASAN 4.1 Hasil Pengujian Hasil Pengujian Terhadap Dataset Ionosphare NoK K-NN KonvensionalLMKNN+DWKNN Metode Dengan Akurasi Tertinggi Prediksi Benar Akurasi Prediksi Benar Akurasi BadGoodBadGood 11154585.71%154585.71%Kedua Metode 22154585.71%154687.14%LMKNN+DWKNN 33144685.71%144685.71%Kedua Metode 44144685.71%154788.57%LMKNN+DWKNN 55134684.29%144787.14%LMKNN+DWKNN 66124682.86%144787.14%LMKNN+DWKNN 77134684.29%144687.14%LMKNN+DWKNN 88124682.86%154687.14%LMKNN+DWKNN 9913 4684.29% 154687.14%LMKNN+DWKNN 10 13 4684.29% 144685.71%LMKNN+DWKNN Rata-rata84.57% 86.86%LMKNN+DWKNN Tabel 4.6 Perbandingan Akurasi Pada Dataset Ionosphare

30 4.1 Hasil Pengujian Hasil Pengujian Terhadap Dataset Ionosphare Gambar 4.1 Grafik Perbandingan Akurasi Pada Dataset Ionosphare

31 4.1 Hasil Pengujian Hasil Pengujian Terhadap Dataset Iris Tabel 4.11 Perbandingan Akurasi Pada Dataset Iris NoK K-NN KonvensionalLMKNN+DWKNN Metode Dengan Akurasi Tertinggi Prediksi Benar Akurasi Prediksi Benar Akurasi SVerVirSVerVir 11139796.67%139796.67% Kedua Metode 22139796.67%139796.67% Kedua Metode 33139796.67%139796.67% Kedua Metode 441397 96.67%139796.67% Kedua Metode 5513 9 796.67%139796.67% Kedua Metode 6613 9 796.67%1398100.00% LMKNN+ DWKNN 77 13 9796.67%1398100.00% LMKNN+ DWKNN 88 13 98100.00%1398100.00% LMKNN+ DWKNN 99138793.33%1398100.00% LMKNN+ DWKNN 10 138896.67%1398100.00% LMKNN+ DWKNN Average96.67%98.33% LMKNN+ DWKNN

32 4.1 Hasil Pengujian Hasil Pengujian Terhadap Dataset Iris Gambar 4.2 Grafik Perbandingan Akurasi Pada Dataset Iris

33 4.1 Hasil Pengujian Hasil Pengujian Terhadap Dataset Voice Genre Tabel 4.17 Perbandingan Akurasi Pada Dataset Voice Genre NoK K-NN KonvensionalLMKNN+DWKNN Metode Dengan Akurasi Tertinggi Prediksi Benar Akurasi Prediksi Benar Akurasi Male Female Male Female 11220 222 69.72% 220 222 69.72% Kedua Metode 22220 222 69.72% 224 70.66% LMKNN+DWKN N 33232 214 70.35% 230 22471.61% LMKNN+DWKN N 44233 217 70.98% 234 22271.92% LMKNN+DWKN N 55226 215 69.56% 234 22572.40% LMKNN+DWKN N 66229 214 69.87% 235 22171.92% LMKNN+DWKN N 77224 214 69.09% 237 22472.71% LMKNN+DWKN N 88231 211 69.72% 236 21971.77% LMKNN+DWKN N 99226 209 68.61% 234 22271.92% LMKNN+DWKN N 10 234 211 70.19% 233 21971.29% LMKNN+DWKN N Rata-rata69.78 %71.59% LMKNN+DWKN N

34 4.1 Hasil Pengujian Hasil Pengujian Terhadap Dataset Voice Genre Gambar 4.3 Grafik Perbandingan Akurasi Pada Dataset Voice Genre

35 4.1 Hasil Pengujian Hasil Pengujian Terhadap Dataset Lower Back Pain Symptomps Tabel 4.23 Perbandingan Akurasi Pada Dataset Lower Back Pain Symptomps NoK K-NN KonvensionalLMKNN+DWKNN Metode Dengan Akurasi Tertinggi Prediksi Benar Akurasi Prediksi Benar Akurasi Abnrml Nrml Abnrml Nrml 1136870.97%36870.97% Kedua Metode 2236870.97%381077.42% LMKNN+DWKNN 33361379.03%381483.87% LMKNN+DWKNN 44351377.42%371482.26% LMKNN+DWKNN 55361582.26%371482.26% LMKNN+DWKNN 66351580.65%381483.87% LMKNN+DWKNN 77361480.65%381483.87% LMKNN+DWKNN 88351377.42%361582.26% LMKNN+DWKNN 99371279.03%351682.26% LMKNN+DWKNN 10 361175.81%351682.26% LMKNN+DWKNN Rata-rata77.42%81.13% LMKNN+DWKNN

36 4.1 Hasil Pengujian Hasil Pengujian Terhadap Dataset Lower Back Pain Symptomps Gambar 4.4 Grafik Perbandingan Akurasi Pada Dataset Lower Back Pain Symptomps

37 4.1 Hasil Pengujian Hasil Pengujian Terhadap Dataset New Thyroid Tabel 4.29 Perbandingan Akurasi Pada Dataset New Thyroid NoK K-NN KonvensionalLMKNN+DWKNN Metode Dengan Akurasi Tertinggi Prediksi Benar Akurasi Prediksi Benar Akurasi C1C2C3C1C2C3 11259488.37%259488.37% Kedua Metode 22259488.37%279493.02% LMKNN+ DWKNN 33278490.70%279493.02% LMKNN+ DWKNN 44279493.02%279493.02% Kedua Metode 55277488.37%279493.02% LMKNN+ DWKNN 66278490.70%279493.02% LMKNN+ DWKNN 77277488.37%279493.02% LMKNN+ DWKNN 88277488.37%278490.70% LMKNN+ DWKNN 99276486.05%278490.70% LMKNN+ DWKNN 10 277488.37%278490.70% LMKNN+ DWKNN Rata-rata89.07%91.86% LMKNN+ DWKNN

38 4.1 Hasil Pengujian Hasil Pengujian Terhadap Dataset New Thyroid Gambar 4.5 Grafik Perbandingan Akurasi Pada Dataset New Thyroid

39 4.1 Hasil Pengujian Hasil Pengujian Terhadap Data Penjurusan Siswa Tabel 4.35 Perbandingan Akurasi Pada Data Penjurusan Siswa NoK K-NN KonvensionalLMKNN+DWKNN Metode Dengan Akurasi Tertinggi Prediksi Benar Akurasi Prediksi Benar Akurasi IPAIPSIPAIPS 1114 84.85%14 84.85%Both 2214 84.85%151487.88% LMKNN+ DWKNN 33141381.82%151384.85% LMKNN+ DWKNN 44141381.82%151487.88% LMKNN+ DWKNN 5513 78.79%151487.88% LMKNN+ DWKNN 66141381.82%151487.88% LMKNN+ DWKNN 77141381.82%151487.88% LMKNN+ DWKNN 88141381.82%151487.88% LMKNN+ DWKNN 99141381.82%151487.88% LMKNN+ DWKNN 10 14 84.85%15 90.91% LMKNN+ DWKNN Rata-rata82.42%87.58% LMKNN+ DWKNN

40 4.1 Hasil Pengujian Hasil Pengujian Terhadap Dataset Penjurusan Siswa Gambar 4.6 Grafik Perbandingan Akurasi Pada Data Penjurusan Siswa

41 4.2 Kesimpulan Pengujian Gambar 4.7 Grafik Rata-rata Nilai Akurasi Dari Seluruh Data

42 KESIMPULAN DAN SARAN Kesimpulan Peningkatan akurasi tertinggi diperoleh pada dataset Lower Back Pain Symptopms 3.71%, dan nilai rata- rata akurasi terendah diperoleh pada dataset iris yaitu sebesar 1.66%. Peningkatan rata-rata yang diperoleh dari seluruh dataset adalah sebesar 2.452%. Tingkat akurasi tertinggi 90.91% saat K = 10. Selisih yang dihasilkan dari rata-rata nilai akurasi pada data ini sebesar 5.15%. Dimana peningkatan akurasi untuk seluruh data (dataset dan data penjurusan siswa) adalah sebesar 2.903%.

43 KESIMPULAN DAN SARAN Saran Adapun saran yang dapat diberikan dalam penelitian ini adalah sebagai berikut. Pengujian yang lebih mendalam terhadap jenis-jenis data set yang digunakan. Menganalisa pengaruh outlier terhadap gabungan metode LMKNN dan DWKNN. Menganalisa model jarak yang digunakan.

44 Terimakasih

45 D D+5 Kekurangan Pada Sistem Vote Majority


Download ppt "PENINGKATAN AKURASI PADA METODE KLASIFIKASI K-NEAREST NEIGHBOR MENGGUNAKAN LOCAL MEAN BASED DAN DISTANCE WEIGHT K-NEAREST NEIGHBOR Khairul Umam Syaliman."

Presentasi serupa


Iklan oleh Google