Pengaruh incomplete data terhadap

Pengaruh incomplete data terhadap
Pengaruh incomplete data terhadap akurasi Voting feature intervals-5 (VFI5) Oleh : Atik Pawestri Sulistyo G Pembimbing: Aziz Kustiyo, S.Si, M.Kom Ir. Agus Buono, M.Si, M.Kom

Latar Belakang Data hilang merupakan permasalahan umum yang terjadi pada lingkungan medis Data hilang dapat menyebabkan terjadinya penurunan tingkat akurasi atau kesalahan klasifikasi Pengaruh data hilang pada data pengujian lebih tinggi daripada data pelatihan (Markey & Patel 2004) Algoritma VFI5 memiliki tingkat akurasi yang lebih tinggi bila dibandingkan dengan algoritma nearest-neighbor dan decision tree (Guvenir 1998)

Tujuan Mengetahui pengaruh data hilang terhadap akurasi algoritma klasifikasi VFI5 Ruang Lingkup Bobot setiap feature pada setiap data diasumsikan seragam Data yang digunakan adalah data interval (IonosphereData) dan data ordinal (DermatologyData). Metode yang digunakan untuk mengatasi data hilang adalah dengan diabaikan, dihapus satu baris dan diganti dengan mean atau modus.

Manfaat Memberikan informasi mengenai akurasi algoritma klasifikasi voting feature intervals pada pengklasifikasian data yang memiliki data hilang

Tinjauan Pustaka 1. K-Fold Cross Validation
Metode untuk memperkirakan generalisasi error berdasarkan ”resampling” Membagi himpunan contoh ke dalam k himpunan bagian secara acak Pengulangan dilakukan sebanyak k kali dan pada setiap ulangan disisakan satu subset untuk pengujian dan subset-subset lainnya untuk pelatihan (Sarle 2004)

Tinjauan Pustaka (Cont…)
2. Algoritma VFI5 Merupakan algoritma klasifikasi yang merepresentasikan deskripsi sebuah konsep oleh sekumpulan interval nilai-nilai feature atau atribut (Demiroz 1997). Bersifat non-incremental dan supervised Membuat dua buah interval yaitu 1. Point interval 2. Range interval

Algoritma klasifikasi VFI5 terbagi menjadi 2 tahap yaitu a. Pelatihan - Mencari nilai end point - Mengurutkan nilai end point menjadi suatu interval - Menghitung jumlah instance pelatihan - Melakukan proses normalisasi

b. Klasifikasi - Inisialisasi awal vote setiap kelas dengan nilai nol - Menjumlahkan nilai vote setiap feature f - Kelas yang memiliki vote tertinggi diprediksi sebagai kelas dari instance tes e.

Algoritma pelatihan VFI5
train(Training Set); begin for each feature f for each class c EndPoints[f] = EndPoints[f] U find_end_points(TrainingSet, f, c); sort(EndPoints[f]); If f is linear for each end point p in EndPoints[f] form a poin interval from end point p form a range interval between p and the next endpoint  p else /*f is nominal*/ each distinct point in EndPoints[f] forms a point interval for each interval I on feature dimension f interval_count[f, I, c] = 0 count_instances(f, TrainingSet); interval_vote[f, I, c] = interval_count[f, I, c]/class_count[c] normalize interval_vote[f, i, c] /*such that c interval_vote[f, I, c] = 1*/ end

Algoritma pengujian VFI5
classify(e); /*e:example to be classified*/ begin for each class c vote[c] = 0 for each feature f feature_vote[f, c] = 0 /*vote of feature f for class c*/ if ef value is known i=find_interval(f, ef) feature_vote[f, c] = interval_vote[f, I, c] vote[c] = vote[c] + feature_vote[f, c] * weight[f]; return the class c with highest vote[c]; end

Contoh End Point 90 91 End Point Data 38,1,91 36.5,1,91 39,0,90
39.7,0,90 38,0,90 36.6,0,90 39.5,0,90 End Point F F2 0,1 diurutkan 36.5,1,91 38,1,91 36.6,0,90 38,0,90 39,0,90 39.5,0,90 39.7,0,90 End Point F1 36.5,36.6,38,39.7 F2 0,1

36.5 36.6 38 39.7 36.5 36.6 38 39.7 F1 36.5 36.6 38 39.7 1 F2

diurutkan 36.5,1,91 38,1,91 36.6,0,90 38,0,90 39,0,90 39.5,0,90 39.7,0,90 i13 i15 i17 i19 36.5 36.6 38 39.7 i11 90: 0 91: 0 91: 1 90: 1 91: 2 90: 2 F1 i23 i25 1 i21 90: 5 91: 0 90: 0 91: 3 F2

interval_vote[f, I, c] = interval_count[f, I, c]/class_count[c]
36.5 36.6 38 39.7 i11 90: 0 91: 0 91: 0.33 90: 0.2 91: 0.66 90: 0.4 F1 i23 i25 1 i21 90: 1 91: 0 90: 0 91: 1 F2

i13 i15 i17 i19 36.5 36.6 38 39.7 i11 90: 0 91: 0 91: 1 90: 1 90: 0.23 91: 0.76 F1 i23 i25 1 i21 90: 1 91: 0 90: 0 91: 1 F2

Instance tes t 38,1,? i13 i15 i17 i19 i11 F1 i23 i25 i21 F2 36.5 36.6
39.7 i11 90: 0 91: 0 91: 1 90: 1 90: 0.23 91: 0.76 F1 i23 i25 1 i21 90: 1 91: 0 90: 0 91: 1 F2

kelas 90 kelas 91 Feature vote => F1 : Feature vote => F2 : 0 1 Total Vote : Instance tes t diklasifikasikan sebagai kelas 91

3. Missing Values (Data hilang) Ada beberapa metode untuk mengatasi data hilang yaitu 1. Menghapus satu baris data yang mengandung data hilang 2. Mengganti semua data hilang dengan mean untuk data interval dan modus untuk data ordinal

Metode Penelitian Data Praproses Hapus satu baris data hilang
Mengganti data hilang dengan mean atau modus Data latih Data uji Pelatihan VFI5 Model Klasifikasi Akurasi

Hasil dan Pembahasan Data 25%-75% 50%-50% Ionosphere 8 feature
Data yang digunakan adalah data ordinal (Dermatology Data) dan data interval (Ionosphere Data) Data Dermatology terdiri atas enam kelas, 366 instances dan 34 attributes Data Ionosphere terdiri atas dua kelas, 351 instances dan 34 attributes Penghilangan data dilakukan secara random dengan persentase data hilangnya adalah 2%, 5%, 10% dan 20% Jumlah feature yang memiliki data hilang Data 25%-75% 50%-50% Ionosphere 8 feature 17 feature Dermatology

Data Interval Persentase akurasi VFI5 untuk 25% - 75 % (25% feature memiliki data hilang) pada data interval Jumlah data hilang Diabaikan Dihapus Diganti dengan mean 0% 80.06 % 2% 80.63 % 80.34 % 5% 79.49 % 80.06% 10% 79.20 % 20% 78.91 % Rata-rata 79.60 % 79.77 % 79.89 %

Persentase akurasi VFI5 untuk 50% - 50 % (50% feature memiliki data hilang) pada data interval
Jumlah data hilang Diabaikan Dihapus Diganti dengan mean 0% 80.06 % 2% 80.91 % 78.77 % 5% 79.20 % 78.91 % 10% 79.49 % 79.48 % 20% 79.21 % 74.65 % Rata-rata 79.60 % 78.92 % 79.69 %

Grafik Grafik Tingkat akurasi VFI5 pada data interval terhadap jumlah data hilang untuk 25%-75% Grafik Tingkat akurasi VFI5 pada data interval terhadap jumlah data hilang untuk 50%-50%

Pada persentase 25%-75% dan 50%-50% tingkat akurasi cenderung mengalami penurunan ketika data hilangnya diabaikan, dihapus dan diganti dengan mean Rata-rata tingkat akurasi tertinggi dicapai dengan mengganti data hilang dengan mean untuk mengatasi data hilang

Data Ordinal Persentase akurasi VFI5 untuk 25% - 75 % (25% feature memiliki data hilang) pada data ordinal Jumlah data hilang Diabaikan Dihapus Diganti dengan modus 0% 96.38 % 96.38% 2% 95.54 % 95.54% 95.26% 5% 95.82 % 96.09% 94.15% 10% 93.31 % 93.88% 93.59% 20% 92.19 % 88.85% 91.90% Rata-rata 94.65 % 94.26%

Persentase akurasi VFI5 untuk 50% - 50 % (50% feature memiliki data hilang) pada data ordinal
Jumlah data hilang Diabaikan Dihapus Diganti dengan modus 0% 96.38 % 96.38% 2% 94.43 % 95.26% 94.99% 5% 94.14 % 94.15% 93.87% 10% 93.03 % 93.59% 93.03% 20% 90.52 % 91.90% 90.80% Rata-rata 93.70 % 94.26% 93.81%

Grafik Grafik Tingkat akurasi VFI5 pada data ordinal terhadap jumlah data hilang untuk 25%-75% Grafik Tingkat akurasi VFI5 pada data ordinal terhadap jumlah data hilang untuk 50%-50%

Pada persentase 25%-75% dan 50%-50% tingkat akurasi cenderung mengalami penurunan ketika data hilangnya diabaikan, dihapus dan diganti dengan modus Rata-rata tingkat akurasi tertinggi pada persentase 25%-75% dicapai dengan diabaikan sedangkan pada persentase 50%-50% dicapai dengan mengganti data hilang dengan modus.

Data Ordinal dan Data Interval
Tingkat akurasi mengalami penurunan ketika data hilangnya diabaikan, dihapus dan diganti dengan mean atau modus Rata-rata tingkat akurasi tertinggi dicapai dengan diabaikan mengganti data hilang dengan modus atau mean.

Kesimpulan dan Saran Kesimpulan
- Semakin banyak jumlah data yang hilang dan semakin banyak jumlah feature yang memiliki data hilang maka tingkat akurasinya juga akan semakin menurun - Pada data interval, tingkat akurasi tertinggi adalah % dan tingkat akurasi terendah adalah 74.65%. - Pada data ordinal, Tingkat akurasi tertinggi adalah % dan tingkat akurasi terendah adalah 88.85% - Tingkat akurasi tertinggi dicapai dengan mengganti data hilang dengan mean atau modus. - Rata-rata tingkat akurasi pada data ordinal mencapai % dan pada data interval mencapai 80.91% - Algoritma VFI5 dapat mengatasi data hilang dengan mengabaikan data hilang tersebut, tetapi tingkat akurasinya mengalami penurunan dengan semakin banyaknya jumlah data yang hilang.

Saran - Penelitian ini dapat dikembangkan dengan menggunakan data yang atributnya adalah atribut nominal atau atributnya merupakan gabungan dari atribut nominal dan interval - Menggunakan bobot yang berbeda

DAFTAR PUSTAKA Demiröz G dan Güvenir HA Classification by Voting Feature Intervals. [November 2006]. Ennett CM, Frize M, Walker CR Influence of Missing Values on Artificial Neural Network Performance. Amsterdam : IOS Press. Guvenir HA A Classification Learning Algorithm Robust to Irrelevant Features ps.gz [November 2006] Guvenir HA, Demiroz G, Ilter N Learning Differential Diagnosis of Erythemato- Squamous Diseases using Voting Feature Intervals. Artificial Intelligence in Medicine, 13(3), Markey MK, Patel A Impact of Missing Data in Training Artificial Neural Network for Computer-Aided Diagnosis. Computers in Biology and Medicine. Sarle W What are cross-validation and bootstrapping? [November 2006] Shyu Mei-Ling, dkk Handling Missing Values Via Decomposition of the Conditioned Set. Department of Electrical and Computer Engineering, University of Miami. Sudarmanto, Tri Priyo Pengaruh Ukuran Contoh Terhadap Kinerja Algoritma Voting Feature Intervals (VFI5). Bogor: Institut Pertanian Bogor.

TERIMA KASIH

Pengaruh incomplete data terhadap

Presentasi serupa

Presentasi berjudul: "Pengaruh incomplete data terhadap"— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan

Masuk

Otorisasi melalui jaringan sosial:

Pengaruh incomplete data terhadap

Presentasi serupa

Presentasi berjudul: "Pengaruh incomplete data terhadap"— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan