Pengaruh incomplete data terhadap

Slides:



Advertisements
Presentasi serupa
Diadaptasi dari slide Jiawei Han
Advertisements

Pendugaan Parameter.
Chapter 9 ALGORITME Cluster dan WEKA
Langkah awal sebelum menganalisis data
Data Mining: Klasifikasi dan Prediksi Naive Bayesian & Bayesian Network . April 13, 2017.
1 Diselesaikan Oleh KOMPUTER Langkah-langkah harus tersusun secara LOGIS dan Efisien agar dapat menyelesaikan tugas dengan benar dan efisien. ALGORITMA.
1 Pertemuan 10 Fungsi Kepekatan Khusus Matakuliah: I0134 – Metode Statistika Tahun: 2007.
Pemodelan untuk Ilmu Komputasi
Pengenalan Supervised dan Unsupervised Learning
Pertemuan 3 JARINGAN PERCEPTRON
Sistem Berbasis Fuzzy Materi 4
2. Data & Proses Datamining
Data Mining Junta Zeniarja, M.Kom, M.CS
Rizki Pebuardi G Pembimbing : 1. Ir. Agus Buono, M.Si., M.Kom.
Seminar Ganang Mahendra B G Mei 2009.
Statistik TP A Pengujian Hipotesis Satu Populasi (Mean dan Proporsi)
K-SUPPORT VECTOR NEAREST NEIGHBOR UNTUK KLASIFIKASI BERBASIS K-NN
Skripsi Judul Oleh : Dosen Pembimbing : Program Studi Pendidikan Fisika Fakultas Keguruan dan Ilmu.
KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA
Oleh: Aditya Nugroho G Dibimbing Oleh: Ir. Agus Buono, M.Si., M.Kom.
Mohamad Fatchur Rochman
Oleh: Ineza Nur Oktabroni (G )
IMPLEMENTASI ALGORITME DAMERAU-LEVENSHTEIN UNTUK KOREKSI EJAAN QUERY BAHASA INDONESIA PADA SEARCH ENGINE     Oleh: Utis Sutisna G  
MUHAMMAD RAFI MUTTAQIN G
Metode Cluster Self-Organizing Map untuk Temu Kembali Citra
SISTEM INTELEJEN UNTUK PREDIKSI PERTUMBUHAN EKONOMI DENGAN MENGGUNAKAN JARINGAN SYARAF TIRUAN DAN ADAPTIF NEURO-FUZZY Oleh: Y. Restuwardi G Dibimbing.
Martin Budi G Di Bawah Bimbingan Rindang Karyadin, S.T., M.Kom.
PEMBUATAN POHON KEPUTUSAN
Wisnu Ananta Kusuma, ST, MT
Matakuliah : I0014 / Biostatistika Tahun : 2005 Versi : V1 / R1
Konsep Data Mining Ana Kurniawati.
Aplikasi Kecerdasan Komputasional
Ir. Julio Adisantoso, M.Kom.
Pertemuan 24 Teknik Searching
Pertemuan 5 KONVERSI NFA MENJADI DFA
DISUSUN OLEH: Meiga Restianti
Learning Theory Artificial Intelligence Teknik Informatika – UNIKOM
Algoritma kNN (k-Nearest Neighbor)
Pohon Keputusan (Decision Trees)
DATA STATISTIK.
Pendugaan Parameter (II) Pertemuan 10
Deteksi Spatial Outliers pada Data hasil PILKADA Kota Bogor
Artificial Intelligence (AI)
Classification Supervised learning.
MATERI PERKULIAHAN KECERDASAN BUATAN
Fungsi Kepekatan Peluang Khusus Pertemuan 10
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
Pertemuan 4 CLASS DIAGRAM.
Algoritma kNN (k-Nearest Neighbor)
EKSPLORASI DATA & DATA WAREHOUSE PERTEMUAN - 2 NOVIANDI
Self-Organizing Network Model (SOM) Pertemuan 10
Klasifikasi Nearest Neighbor
USING DATA MINING TO MODEL PLAYER EXPERIENCE
DATA MINING with W E K A.
KLASIFIKASI.
Basis Data Bab 3 Structured Query Language (SQL).
Anggota Dwita Eprila ( ) Mayang Hermeiliza Eka Putri ( ) Nadiah Amelia ( ) Rafif Abdusalam ( ) Shofyan.
Simultaneous Linear Equations
Perancangan Sistem Klasifikasi Masa Studi Mahasiswa Menggunakan Data Mining Berbasis Algoritma ID3 (Studi Kasus:Jurusan Teknik Komputer –Unikom) Oleh:
Data Mining: Klasifikasi dan Prediksi Naive Bayesian & Bayesian Network . November 8, 2018.
Pembimbing : Aziz Kustiyo, S.Si., M.Kom. Endang Purnama Giri, S.Kom.
Oleh : Rhamdani (G ) Dibimbing oleh : Wisnu Ananta Kusuma, S.T, M.T
KLASIFIKASI.
Aplikasi Graph Minimum Spaning Tree Shortest Path.
Konsep Data Mining Ana Kurniawati.
IMPLEMENTASI ALGORITMA k-NN
Intro Algoritma K-Nearest Neighbor (K- NN) adalah sebuah metode klasifikasi terhadap sekumpulan data maupun dokumen berdasarkan pembelajaran  data yang.
Algoritma kNN (k-Nearest Neighbor)
CLASS VS OBJECT INTRODUCTION OF CLASS. keyword class diikuti dengan nama class yang kita inginkan. Lebih baik digunakan kata yang diawali huruf.
Transcript presentasi:

Pengaruh incomplete data terhadap Pengaruh incomplete data terhadap akurasi Voting feature intervals-5 (VFI5) Oleh : Atik Pawestri Sulistyo G64103011 Pembimbing: Aziz Kustiyo, S.Si, M.Kom Ir. Agus Buono, M.Si, M.Kom

Latar Belakang Data hilang merupakan permasalahan umum yang terjadi pada lingkungan medis Data hilang dapat menyebabkan terjadinya penurunan tingkat akurasi atau kesalahan klasifikasi Pengaruh data hilang pada data pengujian lebih tinggi daripada data pelatihan (Markey & Patel 2004) Algoritma VFI5 memiliki tingkat akurasi yang lebih tinggi bila dibandingkan dengan algoritma nearest-neighbor dan decision tree (Guvenir 1998)

Tujuan Mengetahui pengaruh data hilang terhadap akurasi algoritma klasifikasi VFI5 Ruang Lingkup Bobot setiap feature pada setiap data diasumsikan seragam Data yang digunakan adalah data interval (IonosphereData) dan data ordinal (DermatologyData). Metode yang digunakan untuk mengatasi data hilang adalah dengan diabaikan, dihapus satu baris dan diganti dengan mean atau modus.

Manfaat Memberikan informasi mengenai akurasi algoritma klasifikasi voting feature intervals pada pengklasifikasian data yang memiliki data hilang

Tinjauan Pustaka 1. K-Fold Cross Validation Metode untuk memperkirakan generalisasi error berdasarkan ”resampling” Membagi himpunan contoh ke dalam k himpunan bagian secara acak Pengulangan dilakukan sebanyak k kali dan pada setiap ulangan disisakan satu subset untuk pengujian dan subset-subset lainnya untuk pelatihan (Sarle 2004)

Tinjauan Pustaka (Cont…) 2. Algoritma VFI5 Merupakan algoritma klasifikasi yang merepresentasikan deskripsi sebuah konsep oleh sekumpulan interval nilai-nilai feature atau atribut (Demiroz 1997). Bersifat non-incremental dan supervised Membuat dua buah interval yaitu 1. Point interval 2. Range interval

Tinjauan Pustaka (Cont…) Algoritma klasifikasi VFI5 terbagi menjadi 2 tahap yaitu a. Pelatihan - Mencari nilai end point - Mengurutkan nilai end point menjadi suatu interval - Menghitung jumlah instance pelatihan - Melakukan proses normalisasi

Tinjauan Pustaka (Cont…) b. Klasifikasi - Inisialisasi awal vote setiap kelas dengan nilai nol - Menjumlahkan nilai vote setiap feature f - Kelas yang memiliki vote tertinggi diprediksi sebagai kelas dari instance tes e.

Algoritma pelatihan VFI5 train(Training Set); begin for each feature f for each class c EndPoints[f] = EndPoints[f] U find_end_points(TrainingSet, f, c); sort(EndPoints[f]); If f is linear for each end point p in EndPoints[f] form a poin interval from end point p form a range interval between p and the next endpoint  p else /*f is nominal*/ each distinct point in EndPoints[f] forms a point interval for each interval I on feature dimension f interval_count[f, I, c] = 0 count_instances(f, TrainingSet); interval_vote[f, I, c] = interval_count[f, I, c]/class_count[c] normalize interval_vote[f, i, c] /*such that c interval_vote[f, I, c] = 1*/ end

Algoritma pengujian VFI5 classify(e); /*e:example to be classified*/ begin for each class c vote[c] = 0 for each feature f feature_vote[f, c] = 0 /*vote of feature f for class c*/ if ef value is known i=find_interval(f, ef) feature_vote[f, c] = interval_vote[f, I, c] vote[c] = vote[c] + feature_vote[f, c] * weight[f]; return the class c with highest vote[c]; end

Contoh End Point 90 91 End Point Data 38,1,91 36.5,1,91 39,0,90 39.7,0,90 38,0,90 36.6,0,90 39.5,0,90 End Point 90 91 F1 36.6 36.5 39.7 38 F2 0,1 diurutkan 36.5,1,91 38,1,91 36.6,0,90 38,0,90 39,0,90 39.5,0,90 39.7,0,90 End Point F1 36.5,36.6,38,39.7 F2 0,1

36.5 36.6 38 39.7 36.5 36.6 38 39.7 F1 36.5 36.6 38 39.7 1 F2

diurutkan 36.5,1,91 38,1,91 36.6,0,90 38,0,90 39,0,90 39.5,0,90 39.7,0,90 i13 i15 i17 i19 36.5 36.6 38 39.7 i11 90: 0 91: 0 91: 1 90: 1 91: 2 90: 2 F1 i23 i25 1 i21 90: 5 91: 0 90: 0 91: 3 F2

interval_vote[f, I, c] = interval_count[f, I, c]/class_count[c] 36.5 36.6 38 39.7 i11 90: 0 91: 0 91: 0.33 90: 0.2 91: 0.66 90: 0.4 F1 i23 i25 1 i21 90: 1 91: 0 90: 0 91: 1 F2

i13 i15 i17 i19 36.5 36.6 38 39.7 i11 90: 0 91: 0 91: 1 90: 1 90: 0.23 91: 0.76 F1 i23 i25 1 i21 90: 1 91: 0 90: 0 91: 1 F2

Instance tes t 38,1,? i13 i15 i17 i19 i11 F1 i23 i25 i21 F2 36.5 36.6 39.7 i11 90: 0 91: 0 91: 1 90: 1 90: 0.23 91: 0.76 F1 i23 i25 1 i21 90: 1 91: 0 90: 0 91: 1 F2

kelas 90 kelas 91 Feature vote => F1 : 0.23 0.76 Feature vote => F2 : 0 1 --------------------------------------------------------- Total Vote : 0.23 1.76 Instance tes t diklasifikasikan sebagai kelas 91

Tinjauan Pustaka (Cont…) 3. Missing Values (Data hilang) Ada beberapa metode untuk mengatasi data hilang yaitu 1. Menghapus satu baris data yang mengandung data hilang 2. Mengganti semua data hilang dengan mean untuk data interval dan modus untuk data ordinal

Metode Penelitian Data Praproses Hapus satu baris data hilang Mengganti data hilang dengan mean atau modus Data latih Data uji Pelatihan VFI5 Model Klasifikasi Akurasi

Hasil dan Pembahasan Data 25%-75% 50%-50% Ionosphere 8 feature Data yang digunakan adalah data ordinal (Dermatology Data) dan data interval (Ionosphere Data) Data Dermatology terdiri atas enam kelas, 366 instances dan 34 attributes Data Ionosphere terdiri atas dua kelas, 351 instances dan 34 attributes Penghilangan data dilakukan secara random dengan persentase data hilangnya adalah 2%, 5%, 10% dan 20% Jumlah feature yang memiliki data hilang Data 25%-75% 50%-50% Ionosphere 8 feature 17 feature Dermatology

Data Interval Persentase akurasi VFI5 untuk 25% - 75 % (25% feature memiliki data hilang) pada data interval Jumlah data hilang Diabaikan Dihapus Diganti dengan mean 0% 80.06 % 2% 80.63 % 80.34 % 5% 79.49 % 80.06% 10% 79.20 % 20% 78.91 % Rata-rata 79.60 % 79.77 % 79.89 %

Persentase akurasi VFI5 untuk 50% - 50 % (50% feature memiliki data hilang) pada data interval Jumlah data hilang Diabaikan Dihapus Diganti dengan mean 0% 80.06 % 2% 80.91 % 78.77 % 5% 79.20 % 78.91 % 10% 79.49 % 79.48 % 20% 79.21 % 74.65 % Rata-rata 79.60 % 78.92 % 79.69 %

Grafik Grafik Tingkat akurasi VFI5 pada data interval terhadap jumlah data hilang untuk 25%-75% Grafik Tingkat akurasi VFI5 pada data interval terhadap jumlah data hilang untuk 50%-50%

Pada persentase 25%-75% dan 50%-50% tingkat akurasi cenderung mengalami penurunan ketika data hilangnya diabaikan, dihapus dan diganti dengan mean Rata-rata tingkat akurasi tertinggi dicapai dengan mengganti data hilang dengan mean untuk mengatasi data hilang

Data Ordinal Persentase akurasi VFI5 untuk 25% - 75 % (25% feature memiliki data hilang) pada data ordinal Jumlah data hilang Diabaikan Dihapus Diganti dengan modus 0% 96.38 % 96.38% 2% 95.54 % 95.54% 95.26% 5% 95.82 % 96.09% 94.15% 10% 93.31 % 93.88% 93.59% 20% 92.19 % 88.85% 91.90% Rata-rata 94.65 % 94.26%

Persentase akurasi VFI5 untuk 50% - 50 % (50% feature memiliki data hilang) pada data ordinal Jumlah data hilang Diabaikan Dihapus Diganti dengan modus 0% 96.38 % 96.38% 2% 94.43 % 95.26% 94.99% 5% 94.14 % 94.15% 93.87% 10% 93.03 % 93.59% 93.03% 20% 90.52 % 91.90% 90.80% Rata-rata 93.70 % 94.26% 93.81%

Grafik Grafik Tingkat akurasi VFI5 pada data ordinal terhadap jumlah data hilang untuk 25%-75% Grafik Tingkat akurasi VFI5 pada data ordinal terhadap jumlah data hilang untuk 50%-50%

Pada persentase 25%-75% dan 50%-50% tingkat akurasi cenderung mengalami penurunan ketika data hilangnya diabaikan, dihapus dan diganti dengan modus Rata-rata tingkat akurasi tertinggi pada persentase 25%-75% dicapai dengan diabaikan sedangkan pada persentase 50%-50% dicapai dengan mengganti data hilang dengan modus.

Data Ordinal dan Data Interval Tingkat akurasi mengalami penurunan ketika data hilangnya diabaikan, dihapus dan diganti dengan mean atau modus Rata-rata tingkat akurasi tertinggi dicapai dengan diabaikan mengganti data hilang dengan modus atau mean.

Kesimpulan dan Saran Kesimpulan - Semakin banyak jumlah data yang hilang dan semakin banyak jumlah feature yang memiliki data hilang maka tingkat akurasinya juga akan semakin menurun - Pada data interval, tingkat akurasi tertinggi adalah 80.91% dan tingkat akurasi terendah adalah 74.65%. - Pada data ordinal, Tingkat akurasi tertinggi adalah 96.38% dan tingkat akurasi terendah adalah 88.85% - Tingkat akurasi tertinggi dicapai dengan mengganti data hilang dengan mean atau modus. - Rata-rata tingkat akurasi pada data ordinal mencapai 96.38% dan pada data interval mencapai 80.91% - Algoritma VFI5 dapat mengatasi data hilang dengan mengabaikan data hilang tersebut, tetapi tingkat akurasinya mengalami penurunan dengan semakin banyaknya jumlah data yang hilang.

Saran - Penelitian ini dapat dikembangkan dengan menggunakan data yang atributnya adalah atribut nominal atau atributnya merupakan gabungan dari atribut nominal dan interval - Menggunakan bobot yang berbeda

DAFTAR PUSTAKA Demiröz G dan Güvenir HA. 1997. Classification by Voting Feature Intervals. http://www.cs.ucf.edu/~ecl/papers/demiros97classification.pdf. [November 2006]. Ennett CM, Frize M, Walker CR. 2001. Influence of Missing Values on Artificial Neural Network Performance. Amsterdam : IOS Press. Guvenir HA. 1998. A Classification Learning Algorithm Robust to Irrelevant Features. http://www.cs.bilkent.edu.tr/tech-reports/1998/BU-CEIS 9810.ps.gz [November 2006] Guvenir HA, Demiroz G, Ilter N. 1998. Learning Differential Diagnosis of Erythemato- Squamous Diseases using Voting Feature Intervals. Artificial Intelligence in Medicine, 13(3), 147-165. Markey MK, Patel A. 2004. Impact of Missing Data in Training Artificial Neural Network for Computer-Aided Diagnosis. Computers in Biology and Medicine. Sarle W. 2004. What are cross-validation and bootstrapping? http://faqs.org/faqs/ai-faq/neural-nets/part3/section-12.html [November 2006] Shyu Mei-Ling, dkk. 2005. Handling Missing Values Via Decomposition of the Conditioned Set. Department of Electrical and Computer Engineering, University of Miami. Sudarmanto, Tri Priyo. 2006. Pengaruh Ukuran Contoh Terhadap Kinerja Algoritma Voting Feature Intervals (VFI5). Bogor: Institut Pertanian Bogor.

TERIMA KASIH