Pengaruh incomplete data terhadap Pengaruh incomplete data terhadap akurasi Voting feature intervals-5 (VFI5) Oleh : Atik Pawestri Sulistyo G64103011 Pembimbing: Aziz Kustiyo, S.Si, M.Kom Ir. Agus Buono, M.Si, M.Kom
Latar Belakang Data hilang merupakan permasalahan umum yang terjadi pada lingkungan medis Data hilang dapat menyebabkan terjadinya penurunan tingkat akurasi atau kesalahan klasifikasi Pengaruh data hilang pada data pengujian lebih tinggi daripada data pelatihan (Markey & Patel 2004) Algoritma VFI5 memiliki tingkat akurasi yang lebih tinggi bila dibandingkan dengan algoritma nearest-neighbor dan decision tree (Guvenir 1998)
Tujuan Mengetahui pengaruh data hilang terhadap akurasi algoritma klasifikasi VFI5 Ruang Lingkup Bobot setiap feature pada setiap data diasumsikan seragam Data yang digunakan adalah data interval (IonosphereData) dan data ordinal (DermatologyData). Metode yang digunakan untuk mengatasi data hilang adalah dengan diabaikan, dihapus satu baris dan diganti dengan mean atau modus.
Manfaat Memberikan informasi mengenai akurasi algoritma klasifikasi voting feature intervals pada pengklasifikasian data yang memiliki data hilang
Tinjauan Pustaka 1. K-Fold Cross Validation Metode untuk memperkirakan generalisasi error berdasarkan ”resampling” Membagi himpunan contoh ke dalam k himpunan bagian secara acak Pengulangan dilakukan sebanyak k kali dan pada setiap ulangan disisakan satu subset untuk pengujian dan subset-subset lainnya untuk pelatihan (Sarle 2004)
Tinjauan Pustaka (Cont…) 2. Algoritma VFI5 Merupakan algoritma klasifikasi yang merepresentasikan deskripsi sebuah konsep oleh sekumpulan interval nilai-nilai feature atau atribut (Demiroz 1997). Bersifat non-incremental dan supervised Membuat dua buah interval yaitu 1. Point interval 2. Range interval
Tinjauan Pustaka (Cont…) Algoritma klasifikasi VFI5 terbagi menjadi 2 tahap yaitu a. Pelatihan - Mencari nilai end point - Mengurutkan nilai end point menjadi suatu interval - Menghitung jumlah instance pelatihan - Melakukan proses normalisasi
Tinjauan Pustaka (Cont…) b. Klasifikasi - Inisialisasi awal vote setiap kelas dengan nilai nol - Menjumlahkan nilai vote setiap feature f - Kelas yang memiliki vote tertinggi diprediksi sebagai kelas dari instance tes e.
Algoritma pelatihan VFI5 train(Training Set); begin for each feature f for each class c EndPoints[f] = EndPoints[f] U find_end_points(TrainingSet, f, c); sort(EndPoints[f]); If f is linear for each end point p in EndPoints[f] form a poin interval from end point p form a range interval between p and the next endpoint p else /*f is nominal*/ each distinct point in EndPoints[f] forms a point interval for each interval I on feature dimension f interval_count[f, I, c] = 0 count_instances(f, TrainingSet); interval_vote[f, I, c] = interval_count[f, I, c]/class_count[c] normalize interval_vote[f, i, c] /*such that c interval_vote[f, I, c] = 1*/ end
Algoritma pengujian VFI5 classify(e); /*e:example to be classified*/ begin for each class c vote[c] = 0 for each feature f feature_vote[f, c] = 0 /*vote of feature f for class c*/ if ef value is known i=find_interval(f, ef) feature_vote[f, c] = interval_vote[f, I, c] vote[c] = vote[c] + feature_vote[f, c] * weight[f]; return the class c with highest vote[c]; end
Contoh End Point 90 91 End Point Data 38,1,91 36.5,1,91 39,0,90 39.7,0,90 38,0,90 36.6,0,90 39.5,0,90 End Point 90 91 F1 36.6 36.5 39.7 38 F2 0,1 diurutkan 36.5,1,91 38,1,91 36.6,0,90 38,0,90 39,0,90 39.5,0,90 39.7,0,90 End Point F1 36.5,36.6,38,39.7 F2 0,1
36.5 36.6 38 39.7 36.5 36.6 38 39.7 F1 36.5 36.6 38 39.7 1 F2
diurutkan 36.5,1,91 38,1,91 36.6,0,90 38,0,90 39,0,90 39.5,0,90 39.7,0,90 i13 i15 i17 i19 36.5 36.6 38 39.7 i11 90: 0 91: 0 91: 1 90: 1 91: 2 90: 2 F1 i23 i25 1 i21 90: 5 91: 0 90: 0 91: 3 F2
interval_vote[f, I, c] = interval_count[f, I, c]/class_count[c] 36.5 36.6 38 39.7 i11 90: 0 91: 0 91: 0.33 90: 0.2 91: 0.66 90: 0.4 F1 i23 i25 1 i21 90: 1 91: 0 90: 0 91: 1 F2
i13 i15 i17 i19 36.5 36.6 38 39.7 i11 90: 0 91: 0 91: 1 90: 1 90: 0.23 91: 0.76 F1 i23 i25 1 i21 90: 1 91: 0 90: 0 91: 1 F2
Instance tes t 38,1,? i13 i15 i17 i19 i11 F1 i23 i25 i21 F2 36.5 36.6 39.7 i11 90: 0 91: 0 91: 1 90: 1 90: 0.23 91: 0.76 F1 i23 i25 1 i21 90: 1 91: 0 90: 0 91: 1 F2
kelas 90 kelas 91 Feature vote => F1 : 0.23 0.76 Feature vote => F2 : 0 1 --------------------------------------------------------- Total Vote : 0.23 1.76 Instance tes t diklasifikasikan sebagai kelas 91
Tinjauan Pustaka (Cont…) 3. Missing Values (Data hilang) Ada beberapa metode untuk mengatasi data hilang yaitu 1. Menghapus satu baris data yang mengandung data hilang 2. Mengganti semua data hilang dengan mean untuk data interval dan modus untuk data ordinal
Metode Penelitian Data Praproses Hapus satu baris data hilang Mengganti data hilang dengan mean atau modus Data latih Data uji Pelatihan VFI5 Model Klasifikasi Akurasi
Hasil dan Pembahasan Data 25%-75% 50%-50% Ionosphere 8 feature Data yang digunakan adalah data ordinal (Dermatology Data) dan data interval (Ionosphere Data) Data Dermatology terdiri atas enam kelas, 366 instances dan 34 attributes Data Ionosphere terdiri atas dua kelas, 351 instances dan 34 attributes Penghilangan data dilakukan secara random dengan persentase data hilangnya adalah 2%, 5%, 10% dan 20% Jumlah feature yang memiliki data hilang Data 25%-75% 50%-50% Ionosphere 8 feature 17 feature Dermatology
Data Interval Persentase akurasi VFI5 untuk 25% - 75 % (25% feature memiliki data hilang) pada data interval Jumlah data hilang Diabaikan Dihapus Diganti dengan mean 0% 80.06 % 2% 80.63 % 80.34 % 5% 79.49 % 80.06% 10% 79.20 % 20% 78.91 % Rata-rata 79.60 % 79.77 % 79.89 %
Persentase akurasi VFI5 untuk 50% - 50 % (50% feature memiliki data hilang) pada data interval Jumlah data hilang Diabaikan Dihapus Diganti dengan mean 0% 80.06 % 2% 80.91 % 78.77 % 5% 79.20 % 78.91 % 10% 79.49 % 79.48 % 20% 79.21 % 74.65 % Rata-rata 79.60 % 78.92 % 79.69 %
Grafik Grafik Tingkat akurasi VFI5 pada data interval terhadap jumlah data hilang untuk 25%-75% Grafik Tingkat akurasi VFI5 pada data interval terhadap jumlah data hilang untuk 50%-50%
Pada persentase 25%-75% dan 50%-50% tingkat akurasi cenderung mengalami penurunan ketika data hilangnya diabaikan, dihapus dan diganti dengan mean Rata-rata tingkat akurasi tertinggi dicapai dengan mengganti data hilang dengan mean untuk mengatasi data hilang
Data Ordinal Persentase akurasi VFI5 untuk 25% - 75 % (25% feature memiliki data hilang) pada data ordinal Jumlah data hilang Diabaikan Dihapus Diganti dengan modus 0% 96.38 % 96.38% 2% 95.54 % 95.54% 95.26% 5% 95.82 % 96.09% 94.15% 10% 93.31 % 93.88% 93.59% 20% 92.19 % 88.85% 91.90% Rata-rata 94.65 % 94.26%
Persentase akurasi VFI5 untuk 50% - 50 % (50% feature memiliki data hilang) pada data ordinal Jumlah data hilang Diabaikan Dihapus Diganti dengan modus 0% 96.38 % 96.38% 2% 94.43 % 95.26% 94.99% 5% 94.14 % 94.15% 93.87% 10% 93.03 % 93.59% 93.03% 20% 90.52 % 91.90% 90.80% Rata-rata 93.70 % 94.26% 93.81%
Grafik Grafik Tingkat akurasi VFI5 pada data ordinal terhadap jumlah data hilang untuk 25%-75% Grafik Tingkat akurasi VFI5 pada data ordinal terhadap jumlah data hilang untuk 50%-50%
Pada persentase 25%-75% dan 50%-50% tingkat akurasi cenderung mengalami penurunan ketika data hilangnya diabaikan, dihapus dan diganti dengan modus Rata-rata tingkat akurasi tertinggi pada persentase 25%-75% dicapai dengan diabaikan sedangkan pada persentase 50%-50% dicapai dengan mengganti data hilang dengan modus.
Data Ordinal dan Data Interval Tingkat akurasi mengalami penurunan ketika data hilangnya diabaikan, dihapus dan diganti dengan mean atau modus Rata-rata tingkat akurasi tertinggi dicapai dengan diabaikan mengganti data hilang dengan modus atau mean.
Kesimpulan dan Saran Kesimpulan - Semakin banyak jumlah data yang hilang dan semakin banyak jumlah feature yang memiliki data hilang maka tingkat akurasinya juga akan semakin menurun - Pada data interval, tingkat akurasi tertinggi adalah 80.91% dan tingkat akurasi terendah adalah 74.65%. - Pada data ordinal, Tingkat akurasi tertinggi adalah 96.38% dan tingkat akurasi terendah adalah 88.85% - Tingkat akurasi tertinggi dicapai dengan mengganti data hilang dengan mean atau modus. - Rata-rata tingkat akurasi pada data ordinal mencapai 96.38% dan pada data interval mencapai 80.91% - Algoritma VFI5 dapat mengatasi data hilang dengan mengabaikan data hilang tersebut, tetapi tingkat akurasinya mengalami penurunan dengan semakin banyaknya jumlah data yang hilang.
Saran - Penelitian ini dapat dikembangkan dengan menggunakan data yang atributnya adalah atribut nominal atau atributnya merupakan gabungan dari atribut nominal dan interval - Menggunakan bobot yang berbeda
DAFTAR PUSTAKA Demiröz G dan Güvenir HA. 1997. Classification by Voting Feature Intervals. http://www.cs.ucf.edu/~ecl/papers/demiros97classification.pdf. [November 2006]. Ennett CM, Frize M, Walker CR. 2001. Influence of Missing Values on Artificial Neural Network Performance. Amsterdam : IOS Press. Guvenir HA. 1998. A Classification Learning Algorithm Robust to Irrelevant Features. http://www.cs.bilkent.edu.tr/tech-reports/1998/BU-CEIS 9810.ps.gz [November 2006] Guvenir HA, Demiroz G, Ilter N. 1998. Learning Differential Diagnosis of Erythemato- Squamous Diseases using Voting Feature Intervals. Artificial Intelligence in Medicine, 13(3), 147-165. Markey MK, Patel A. 2004. Impact of Missing Data in Training Artificial Neural Network for Computer-Aided Diagnosis. Computers in Biology and Medicine. Sarle W. 2004. What are cross-validation and bootstrapping? http://faqs.org/faqs/ai-faq/neural-nets/part3/section-12.html [November 2006] Shyu Mei-Ling, dkk. 2005. Handling Missing Values Via Decomposition of the Conditioned Set. Department of Electrical and Computer Engineering, University of Miami. Sudarmanto, Tri Priyo. 2006. Pengaruh Ukuran Contoh Terhadap Kinerja Algoritma Voting Feature Intervals (VFI5). Bogor: Institut Pertanian Bogor.
TERIMA KASIH