Pembimbing : Aziz Kustiyo, S.Si., M.Kom. Endang Purnama Giri, S.Kom. SELEKSI FITUR PADA VOTING FEATURE INTERVALS 5 MENGGUNAKAN FAST CORRELATION BASED FILTER HIDA NUR FIRQIANI G 64103047 Usahakan slidenya jangan terlalu banyak nge-click… Pembimbing : Aziz Kustiyo, S.Si., M.Kom. Endang Purnama Giri, S.Kom. 9 November 2018
Metodologi Penelitian Hasil dan Pembahasan Kesimpulan dan Saran Pendahuluan Tinjauan Pustaka Metodologi Penelitian Hasil dan Pembahasan Kesimpulan dan Saran Daftar Pustaka 9 November 2018
PENDAHULUAN 9 November 2018
maka dilakukan seleksi fitur LATAR BELAKANG Klasifikasi adalah menemukan model dari kelas tersebut sebagai fungsi dari fitur-fitur yang lain tidak semua fitur relevant terhadap hasil klasifikasi ditambah lagi jika data yang digunakan memiliki dimensi yang besar sehingga mempengaruhi akurasi Permasalahan Klasifikasi Penelitian yang dilakukan yaitu melakukan seleksi fitur pada algoritma VFI5 menggunakan FCBF maka dilakukan seleksi fitur 9 November 2018
TUJUAN Tujuan dari penelitian ini adalah untuk menerapkan seleksi fitur menggunakan Fast Correlation Based Filter pada klasifikasi data menggunakan Voting Feature Intervals 5. 9 November 2018
RUANG LINGKUP Ruang lingkup penelitian ini yaitu penerapan seleksi fitur menggunakan algoritma FCBF pada klasifikasi data menggunakan algoritma VFI5 dengan bobot setiap fitur pada semua data diasumsikan seragam yaitu 1 9 November 2018
MANFAAT Penelitian ini diharapkan dapat memberikan informasi, pengetahuan serta kontribusi terutama untuk memperbaiki kinerja algoritma klasifikasi menggunakan seleksi fitur sehingga menjadi lebih efektif dan efisien. 9 November 2018
TINJAUAN PUSTAKA 9 November 2018
SELEKSI FITUR Seleksi Fitur adalah salah satu tahapan praproses dalam klasifikasi yang berguna terutama dalam mengurangi dimensi data, menghilangkan data-data yang tidak relevant, meningkatkan learning accuracy serta memperbaiki hasil secara komprehensif (Yu 2003). Jain 1997 mendefinisikan masalah fitur selection sebagai berikut: diberikan sekumpulan fitur lalu pilih beberapa fitur yang mampu memberikan hasil yang terbaik pada klasifikasi. 9 November 2018
SELEKSI FITUR… Seleksi fitur digunakan memberikan karakterisik dari data sehingga mampu memberikan hasil maksimal pada saat klasifikasi. F1 F2 F3 F4 Kelas F1 F3 Kelas 9 November 2018
FAST CORELATION BASED FILTER SOLUTION (FCBF) Algoritma FCBF adalah algoritma seleksi fitur yang dikembangkan oleh Lei Yu dan Huan Liu pada tahun 2003. Algoritma ini didasarkan pada pemikiran bahwa suatu fitur yang baik adalah fitur-fitur yang relevant terhadap kelas tapi tidak redundant terhadap fitur-fitur relevant yang lain. 9 November 2018
input : S(F1, F2,…, FN,C) // a training data set // a predefined threshold output : Sbest // an optimal subset begin for i = 1 to N do begin calculate SUi,c for Fi; if ( ) append Fi to S’list; end; order S’list in descending SUi,c value; Fp = getFirstElement(S’list); do begin Fq = getNextElement(S’list, Fp); if ( Fq < > NULL) F’q = Fq; remove Fq from S’list; Fq = getNextElement(S’list, F'q’); else Fq = getNextElement(S’list, Fq); end until (Fq = NULL); Fp = getNextElement(S’list, Fp); end until (Fp==NULL) Sbest=S’list; 9 November 2018
Input : Fitur F1 , F2, F3, F4, F5, F6, F7, Kelas Threshold F1 F2 F3 S’list F5 F1 F7 F4 F3 1. Hitung nilai SUi,c masing-masing fitur 2. Cek SUi,c S’best F5 F1 F7 F3 4. Ambil elemen pertama dan kedua pada S’list 3. fitur masuk ke dalam S’list dan diurut secara menurun 5. Cek SU p,q < SUq,c 9 November 2018
VOTING FEATURE INTERVAL 5 (VFI5) Voting Feature Interval 5 adalah salah satu algoritma klasifikasi yang merepresentasikan deskripsi sebuah konsep oleh sekumpulan interval dari setiap fitur (Guvenir 1998). Klasifikasi menggunakan algoritma ini didasarkan pada vote dari nilai-nilai pada fitur yang lain. Algoritma ini disebut non incremental classification algorithm karena semua data training hanya diproses satu kali. 9 November 2018
Fitur : F1 , F2 Kelas : A , B Data 2,2,A 7,8,B 3,5,A 6,3,B 4,6,A 5,4,B Diurutkan 2,2,A 3,5,A 4,6,A 5,4,B 6,3,B 7,8,B 8,6,B End Point A B F1 2 5 4 8 F2 2 3 6 8 End Point F1 2,4,5,8 F2 2,3,6,8 9 November 2018
2 4 5 8 3 6 F1 F2 2 4 5 8 F1 3 6 F2 9 November 2018
i13 i15 i17 i19 2 4 5 8 F1 i11 i23 i25 i27 i29 3 6 F2 i21 diurutkan 5,4,B 6,3,B 7,8,B 8,6,B i13 i15 i17 i19 2 4 5 8 F1 i11 A: 0 B: 0 A: 1 B: 1 B: 2 i23 i25 i27 i29 3 6 F2 i21 9 November 2018
2,2,A 3,5,A 4,6,A 5,4,B 6,3,B 7,8,B 8,6,B 3 4 i13 i15 i17 i19 2 4 5 8 F1 i11 A: 0 B: 0 A: 0.33 B: 0.25 B: 0.5 i23 i25 i27 i29 3 6 F2 i21 9 November 2018
i13 i15 i17 i19 2 4 5 8 F1 i11 A: 0 B: 0 A: 1 B: 1 i23 i25 i27 i29 2 3 6 8 F2 i21 A: 0 B: 0 A: 1 B: 1 A: 0.57 B: 0.43 9 November 2018
Instance tes t 5,6,? i13 i15 i17 i19 2 4 5 8 F1 i11 i23 i25 i27 i29 2 B: 0 A: 1 B: 1 i23 i25 i27 i29 2 3 6 8 F2 i21 A: 0 B: 0 A: 1 B: 1 A: 0.57 B: 0.43 9 November 2018
kelas A kelas B fitur vote => F1 : 0 1 --------------------------------------------------------------- Total Vote : 0.57 1.43 Peluang : 0.28 0.72 Instance tes t diklasifikasikan sebagai kelas B 9 November 2018
METODOLOGI PENELITIAN 9 November 2018
Pengumpulan Data Dengan Seleksi Fitur Tanpa Seleksi Fitur Praproses Data Data Training Pelatihan VFI5 Klasifikasi Data Uji Akurasi 9 November 2018
PENGUMPULAN DATA Nama data Jumlah Fitur Jumlah Kelas Jumlah Instance Dermatology 34 6 366 Lung Cancer 54 3 32 Promoters 57 2 106 Splice 61 3190 Data yang digunakan pada penelitian ini diambil dari UCI repository of machine learning database (http://www.ics.uci.edu/~mlearn/MLRespository). 9 November 2018
PRAPROSES DATA Menghilangkan fitur-fitur yang memiliki nilai-nilai yang kosong Data yang tidak mengalami seleksi fitur langsung diklasifikasi menggunakan VFI5 Untuk data yang akan seleksi fitur menggunakan FCBF Penentuan nilai threshold Output : fitur-fitur yang akan digunakan pada tahapan klasifikasi selanjutnya 9 November 2018
KLASIFIKASI DENGAN VFI5 Data Uji dan Data Latih Data dibagi menjadi tiga subset; tiap-tiap subset memiliki jumlah instance dan perbandingan kelas yang sama Dilakukan tiga kali iterasi; untuk setiap iterasi satu subset digunakan untuk pengujian dan subset sisanya untuk pelatihan Iterasi 1 : S1 data uji; S2 dan S3 data latih Iterasi 2 : S2 data uji; S1 dan S3 data latih Iterasi 3 : S3 data uji; S1 dan S1 data latih 9 November 2018
KLASIFIKASI DENGAN VFI5… Pelatihan Menentukkan nilai endpoint Membuat interval untuk masing-masing fitur Melakukan voting pada setiap interval Normalisasi 9 November 2018
KLASIFIKASI DENGAN VFI5… Pengujian/ Klasifikasi dan Akurasi Data diperiksa letaknya pada interval; kemudian nilai pada interval yang bersesuaian akan dijumlahkan Kelas dengan nilai vote tertinggi menjadi kelas prediksi dari data pengujian tersebut. Akurasi 9 November 2018
HASIL DAN PEMBAHASAN 9 November 2018
PRAPROSES DATA Jumlah fitur yang akan digunakan setelah mengalami penghilangan fitur-fitur yang memiliki nilai kosong Nama Data Fitur Fitur yang dibuang Fitur yang diguna kan Lung Cancer 56 2 54 Dermatology 34 1 33 Promoters 58 57 Splice 61 60 9 November 2018
PEMBAGIAN DATA Data dibagi sesuai dengan jumlah instance masing-masing data menjadi tiga subset Nama Data S1 S2 Total Lung Cancer 11 10 32 Dermatology 122 366 Promoters 36 35 106 Splice 1064 1063 3190 9 November 2018
KLASIFIKASI TANPA SELEKSI FITUR Nama Data Iterasi 1 (%) Iterasi 2 (%) Iterasi 3 (%) Rataan Akurasi (%) Lung Cancer 45.45 63.63 60 56.36 Dermatology 92.62 95.08 98.36 95.35 Promoters 83.33 88.57 82.85 84.92 Splice 89.75 89.55 90.68 90 Rataan Total 81.66 9 November 2018
SELEKSI FITUR DENGAN FCBF Nilai Threshold Lung Cancer Dermatology Promoters Splice 3 14 6 22 0.1 13 0.13 2 4 5 0.2 10 0.3 0.4 0.5 Kenaikan nilai threshold menyebabkan jumlah fitur yang digunakan akan semakin berkurang 9 November 2018
PERBANDINGAN ANTARA KLASIFIKASI DENGAN SELEKSI FITUR DAN TANPA SELEKSI FITUR Rataan akurasi ( % ) Fullsets 81.6598848 Nilai threshold 0 86.1885996 Nilai threshold 0.1 85.8694018 Nilai threshold 0.13 82.7769219 Nilai threshold 0.2 79.5164509 Nilai akurasi menggunakan seleksi fitur untuk beragam nilai threshold lebih baik daripada tanpa seleksi fitur 9 November 2018
9 November 2018
Presentasi Pengurangan Fitur PERBANDINGAN ANTARA KLASIFIKASI DENGAN SELEKSI FITUR DAN TANPA SELEKSI FITUR… Akurasi menggunakan seleksi fitur untuk setiap data lebih baik daripada tanpa seleksi fitur Nama Data (%) Fitur Asal Akurasi Fullsets Fitur Terseleksi Akurasi dengan FCBF Presentasi Pengurangan Fitur Lung Cancer 54 56.36 3 68.18 94.44 Dermatology 33 95.35 14 94.81 57.58 Promoters 57 84.92 6 91.48 89.47 Splice 60 90.0 22 90.28 63.33 Rataan 81.66 86.18 76.20 9 November 2018
PERBANDINGAN ANTARA KLASIFIKASI DENGAN SELEKSI FITUR DAN TANPA SELEKSI FITUR… 9 November 2018
PERBANDINGAN ANTARA KLASIFIKASI DENGAN SELEKSI FITUR DAN TANPA SELEKSI FITUR… 9 November 2018
KESIMPULAN DAN SARAN 9 November 2018
KESIMPULAN Seleksi fitur digunakan untuk mengurangi dimensi data dan meningkatkan akurasi Penentuan nilai threshold yang berbeda menghasilkan nilai akurasi yang berbeda pula. Nilai akurasi tertinggi terdapat pada nilai threshold 0 Dari keempat data yang digunakan, tingkat akurasi yang diperoleh antara lain Lung Cancer 56.4% menjadi 61.2%, Dermatology 95.35% menjadi 94.81%, Promoters 84.92% manjadi 91.48% dan Splice 90% menjadi 90.28%. Rataan dari keempat nilai akurasi tersebut yaitu 81.66% menjadi 86.2%. Hal ini menunjukkan bahwa seleksi fitur mampu meningkatkan nilai akurasi 9 November 2018
SARAN Penelitian selanjutnya dapat mencoba menerapkan seleksi fitur pada algoritma klasifikasi yang lain. Algoritma seleksi fitur yang digunakan pun bisa bermacam-macam. Agar hasil akurasi dapat terlihat perbedaanya, maka sebaiknya data yang digunakan harus memiliki ukuran dimensi yang sangat besar, misalnya data DNA manusia,dll. 9 November 2018
DAFTAR PUSTAKA Guvenir, H.A., Demiroz, G., Ilter, N. 1998. Learning Diagnosis of Erythemato-Squamous Diseases using Voting Feature Interval. Artificial Intelligence in Medicine, 13(3), 147-165. Jain, A., Zongker, D. 1997. Feature Selection: Evaluation, Application, and Small Sample Performance. IEEE Transaction on Pattern Analysis and Machine Intteligence, 19(2): 153-158. Langley, P. 1994. Selection of Relevant Features in Machine Learning. Proceedings of the AAAI Fall Symposium on Relevance. AAAI Press. Yu, L., Liu, H. 2003. Feature Selection for High Dimensional Data: A Fast Correlation-Based Filter Solution. www.hpl.hp.com/conferences/icml2003/papers/144.pdf. 9 November 2018
TERIMA KASIH 9 November 2018