Pembimbing : Aziz Kustiyo, S.Si., M.Kom. Endang Purnama Giri, S.Kom.

Slides:



Advertisements
Presentasi serupa
Diadaptasi dari slide Jiawei Han
Advertisements

Bioinformatika Study Microarray.
Progress Final Project Ke-1
Struktur seleksi.
Data Mining.
SISTEMATIKA KARYA ILMIAH
%Program Hebb AND Hasil (Contoh Soal 1.5)
DI SUSUN OLEH : VIVI DWI ARYANTI APLIKOM E1.
Association Rule (Apriori Algorithm)
Algoritma dan Pemrograman
Pertemuan-2 Kriteria kebaikan suatu algoritme Correctness
Pertemuan Pengembangan Algoritma
Algoritma dan Struktur Data
DATA REDUCTION.
DATA MINING (Machine Learning)
Tim Tugas Akhir S1 Teknik Informatika
Algoritma dan Pemrograman – Pertemuan 3 & 4 Sorting (Pengurutan)
ALHURIYAH :Aplikasi Pengenalan Huruf Hijaiyah Berbasis speech recognition Menggunakan Mel Frequency Cepstral Coefficients (MFCC) Kelompok 10 Dian.
Rizki Pebuardi G Pembimbing : 1. Ir. Agus Buono, M.Si., M.Kom.
Seminar Ganang Mahendra B G Mei 2009.
SEMINAR TUGAS AKHIR 16 JULY 2008
Oleh : Desca Marwan Toni (G )
K-SUPPORT VECTOR NEAREST NEIGHBOR UNTUK KLASIFIKASI BERBASIS K-NN
Algoritma dan Struktur Data 1 pertemuan 11
Skripsi Judul Oleh : Dosen Pembimbing : Program Studi Pendidikan Fisika Fakultas Keguruan dan Ilmu.
LANJUTAN DARI SHORTING
Oleh: Aditya Nugroho G Dibimbing Oleh: Ir. Agus Buono, M.Si., M.Kom.
Oleh: Ineza Nur Oktabroni (G )
IMPLEMENTASI ALGORITME DAMERAU-LEVENSHTEIN UNTUK KOREKSI EJAAN QUERY BAHASA INDONESIA PADA SEARCH ENGINE     Oleh: Utis Sutisna G  
MUHAMMAD RAFI MUTTAQIN G
Metode Cluster Self-Organizing Map untuk Temu Kembali Citra
Pandu satria nur ananda
Martin Budi G Di Bawah Bimbingan Rindang Karyadin, S.T., M.Kom.
PEMBUATAN POHON KEPUTUSAN
Wisnu Ananta Kusuma, ST, MT
Mengukur produktivitas dalam pengembangan perangkat lunak
Pengaruh incomplete data terhadap
Konsep Data Mining Ana Kurniawati.
Pengurutan (Sorting).
PENCARIAN INTERPOLASI
Aplikasi Kecerdasan Komputasional
Ir. Julio Adisantoso, M.Kom.
Pertemuan 5 KONVERSI NFA MENJADI DFA
Business Intelligent Ramos Somya, S.Kom., M.Cs.
Array Buat algoritma untuk mencari nilai terbesar dari 5 nilai mahasiswa yang diinputkan dengan array.
Seleksi Kondisi merupakan perintah yang memungkinkan pemilihan atas perintah yang akan dijalankan sesuai dengan kondisi tertentu. Operator yang digunakan.
Learning Theory Artificial Intelligence Teknik Informatika – UNIKOM
Artificial Intelligence (AI)
Sorting (Pengurutan).
Analisis Klastering K-Means Model Datamining Kelompok 1 Eko Suryana
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
Algoritma kNN (k-Nearest Neighbor)
Loading….
USING DATA MINING TO MODEL PLAYER EXPERIENCE
Algoritma dan Struktur Data
KLASIFIKASI.
Struktur Teks dan Genre Mikro Laporan Penelitian
SISTEM INFORMASI PERPUSTAKAAN PADA SMA PASUNDAN 3 BANDUNG
KUG1E3/ Pemrograman Terstruktur 1
PENELITIAN TINDAKAN KELAS Utk Forum Ilmiah Guru PUSBANGPRODIK BPSDMPK
Perancangan Sistem Klasifikasi Masa Studi Mahasiswa Menggunakan Data Mining Berbasis Algoritma ID3 (Studi Kasus:Jurusan Teknik Komputer –Unikom) Oleh:
PENJADWALAN PERKULIAHAN MENGGUNAKAN ALGORITME GENETIKA
Defri Kurniawan SORTING Defri Kurniawan
Konsep Data Mining Ana Kurniawati.
Sorting (Pengurutan).
FEATURE SELECTION.
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Penelitian Pendahuluan Pembatasan Penelitian Dimensi Penelitian
Machine Learning (Stock Prediction using Artificial Neural Networks) Mursalim P Universitas Dian Nuswantoro 2019.
Algoritma kNN (k-Nearest Neighbor)
Transcript presentasi:

Pembimbing : Aziz Kustiyo, S.Si., M.Kom. Endang Purnama Giri, S.Kom. SELEKSI FITUR PADA VOTING FEATURE INTERVALS 5 MENGGUNAKAN FAST CORRELATION BASED FILTER HIDA NUR FIRQIANI G 64103047 Usahakan slidenya jangan terlalu banyak nge-click… Pembimbing : Aziz Kustiyo, S.Si., M.Kom. Endang Purnama Giri, S.Kom. 9 November 2018

Metodologi Penelitian Hasil dan Pembahasan Kesimpulan dan Saran Pendahuluan Tinjauan Pustaka Metodologi Penelitian Hasil dan Pembahasan Kesimpulan dan Saran Daftar Pustaka 9 November 2018

PENDAHULUAN 9 November 2018

maka dilakukan seleksi fitur LATAR BELAKANG Klasifikasi adalah menemukan model dari kelas tersebut sebagai fungsi dari fitur-fitur yang lain tidak semua fitur relevant terhadap hasil klasifikasi ditambah lagi jika data yang digunakan memiliki dimensi yang besar sehingga mempengaruhi akurasi Permasalahan Klasifikasi Penelitian yang dilakukan yaitu melakukan seleksi fitur pada algoritma VFI5 menggunakan FCBF maka dilakukan seleksi fitur 9 November 2018

TUJUAN Tujuan dari penelitian ini adalah untuk menerapkan seleksi fitur menggunakan Fast Correlation Based Filter pada klasifikasi data menggunakan Voting Feature Intervals 5. 9 November 2018

RUANG LINGKUP Ruang lingkup penelitian ini yaitu penerapan seleksi fitur menggunakan algoritma FCBF pada klasifikasi data menggunakan algoritma VFI5 dengan bobot setiap fitur pada semua data diasumsikan seragam yaitu 1 9 November 2018

MANFAAT Penelitian ini diharapkan dapat memberikan informasi, pengetahuan serta kontribusi terutama untuk memperbaiki kinerja algoritma klasifikasi menggunakan seleksi fitur sehingga menjadi lebih efektif dan efisien. 9 November 2018

TINJAUAN PUSTAKA 9 November 2018

SELEKSI FITUR Seleksi Fitur adalah salah satu tahapan praproses dalam klasifikasi yang berguna terutama dalam mengurangi dimensi data, menghilangkan data-data yang tidak relevant, meningkatkan learning accuracy serta memperbaiki hasil secara komprehensif (Yu 2003). Jain 1997 mendefinisikan masalah fitur selection sebagai berikut: diberikan sekumpulan fitur lalu pilih beberapa fitur yang mampu memberikan hasil yang terbaik pada klasifikasi. 9 November 2018

SELEKSI FITUR… Seleksi fitur digunakan memberikan karakterisik dari data sehingga mampu memberikan hasil maksimal pada saat klasifikasi. F1 F2 F3 F4 Kelas F1 F3 Kelas 9 November 2018

FAST CORELATION BASED FILTER SOLUTION (FCBF) Algoritma FCBF adalah algoritma seleksi fitur yang dikembangkan oleh Lei Yu dan Huan Liu pada tahun 2003. Algoritma ini didasarkan pada pemikiran bahwa suatu fitur yang baik adalah fitur-fitur yang relevant terhadap kelas tapi tidak redundant terhadap fitur-fitur relevant yang lain. 9 November 2018

input : S(F1, F2,…, FN,C) // a training data set  // a predefined threshold output : Sbest // an optimal subset begin for i = 1 to N do begin calculate SUi,c for Fi; if ( ) append Fi to S’list; end; order S’list in descending SUi,c value; Fp = getFirstElement(S’list); do begin Fq = getNextElement(S’list, Fp); if ( Fq < > NULL) F’q = Fq; remove Fq from S’list; Fq = getNextElement(S’list, F'q’); else Fq = getNextElement(S’list, Fq); end until (Fq = NULL); Fp = getNextElement(S’list, Fp); end until (Fp==NULL) Sbest=S’list; 9 November 2018

Input : Fitur F1 , F2, F3, F4, F5, F6, F7, Kelas Threshold  F1 F2 F3 S’list F5 F1 F7 F4 F3 1. Hitung nilai SUi,c masing-masing fitur 2. Cek SUi,c   S’best F5 F1 F7 F3 4. Ambil elemen pertama dan kedua pada S’list 3. fitur masuk ke dalam S’list dan diurut secara menurun 5. Cek SU p,q < SUq,c 9 November 2018

VOTING FEATURE INTERVAL 5 (VFI5) Voting Feature Interval 5 adalah salah satu algoritma klasifikasi yang merepresentasikan deskripsi sebuah konsep oleh sekumpulan interval dari setiap fitur (Guvenir 1998). Klasifikasi menggunakan algoritma ini didasarkan pada vote dari nilai-nilai pada fitur yang lain. Algoritma ini disebut non incremental classification algorithm karena semua data training hanya diproses satu kali. 9 November 2018

Fitur : F1 , F2 Kelas : A , B Data 2,2,A 7,8,B 3,5,A 6,3,B 4,6,A 5,4,B Diurutkan 2,2,A 3,5,A 4,6,A 5,4,B 6,3,B 7,8,B 8,6,B End Point A B F1 2 5 4 8 F2 2 3 6 8 End Point F1 2,4,5,8 F2 2,3,6,8 9 November 2018

2 4 5 8 3 6 F1 F2 2 4 5 8 F1 3 6 F2 9 November 2018

i13 i15 i17 i19 2 4 5 8 F1 i11 i23 i25 i27 i29 3 6 F2 i21 diurutkan 5,4,B 6,3,B 7,8,B 8,6,B i13 i15 i17 i19 2 4 5 8 F1 i11 A: 0 B: 0 A: 1 B: 1 B: 2 i23 i25 i27 i29 3 6 F2 i21 9 November 2018

2,2,A 3,5,A 4,6,A 5,4,B 6,3,B 7,8,B 8,6,B 3 4 i13 i15 i17 i19 2 4 5 8 F1 i11 A: 0 B: 0 A: 0.33 B: 0.25 B: 0.5 i23 i25 i27 i29 3 6 F2 i21 9 November 2018

i13 i15 i17 i19 2 4 5 8 F1 i11 A: 0 B: 0 A: 1 B: 1 i23 i25 i27 i29 2 3 6 8 F2 i21 A: 0 B: 0 A: 1 B: 1 A: 0.57 B: 0.43 9 November 2018

Instance tes t 5,6,? i13 i15 i17 i19 2 4 5 8 F1 i11 i23 i25 i27 i29 2 B: 0 A: 1 B: 1 i23 i25 i27 i29 2 3 6 8 F2 i21 A: 0 B: 0 A: 1 B: 1 A: 0.57 B: 0.43 9 November 2018

kelas A kelas B fitur vote => F1 : 0 1 --------------------------------------------------------------- Total Vote : 0.57 1.43 Peluang : 0.28 0.72 Instance tes t diklasifikasikan sebagai kelas B 9 November 2018

METODOLOGI PENELITIAN 9 November 2018

Pengumpulan Data Dengan Seleksi Fitur Tanpa Seleksi Fitur Praproses Data Data Training Pelatihan VFI5 Klasifikasi Data Uji Akurasi 9 November 2018

PENGUMPULAN DATA Nama data Jumlah Fitur Jumlah Kelas Jumlah Instance Dermatology 34 6 366 Lung Cancer 54 3 32 Promoters 57 2 106 Splice 61 3190 Data yang digunakan pada penelitian ini diambil dari UCI repository of machine learning database (http://www.ics.uci.edu/~mlearn/MLRespository). 9 November 2018

PRAPROSES DATA Menghilangkan fitur-fitur yang memiliki nilai-nilai yang kosong Data yang tidak mengalami seleksi fitur langsung diklasifikasi menggunakan VFI5 Untuk data yang akan seleksi fitur menggunakan FCBF Penentuan nilai threshold Output : fitur-fitur yang akan digunakan pada tahapan klasifikasi selanjutnya 9 November 2018

KLASIFIKASI DENGAN VFI5 Data Uji dan Data Latih Data dibagi menjadi tiga subset; tiap-tiap subset memiliki jumlah instance dan perbandingan kelas yang sama Dilakukan tiga kali iterasi; untuk setiap iterasi satu subset digunakan untuk pengujian dan subset sisanya untuk pelatihan Iterasi 1 : S1 data uji; S2 dan S3 data latih Iterasi 2 : S2 data uji; S1 dan S3 data latih Iterasi 3 : S3 data uji; S1 dan S1 data latih 9 November 2018

KLASIFIKASI DENGAN VFI5… Pelatihan Menentukkan nilai endpoint Membuat interval untuk masing-masing fitur Melakukan voting pada setiap interval Normalisasi 9 November 2018

KLASIFIKASI DENGAN VFI5… Pengujian/ Klasifikasi dan Akurasi Data diperiksa letaknya pada interval; kemudian nilai pada interval yang bersesuaian akan dijumlahkan Kelas dengan nilai vote tertinggi menjadi kelas prediksi dari data pengujian tersebut. Akurasi 9 November 2018

HASIL DAN PEMBAHASAN 9 November 2018

PRAPROSES DATA Jumlah fitur yang akan digunakan setelah mengalami penghilangan fitur-fitur yang memiliki nilai kosong Nama Data  Fitur  Fitur yang dibuang  Fitur yang diguna kan Lung Cancer 56 2 54 Dermatology 34 1 33 Promoters 58 57 Splice 61 60 9 November 2018

PEMBAGIAN DATA Data dibagi sesuai dengan jumlah instance masing-masing data menjadi tiga subset Nama Data S1 S2 Total Lung Cancer 11 10 32 Dermatology 122 366 Promoters 36 35 106 Splice 1064 1063 3190 9 November 2018

KLASIFIKASI TANPA SELEKSI FITUR Nama Data Iterasi 1 (%) Iterasi 2 (%) Iterasi 3 (%) Rataan Akurasi (%) Lung Cancer 45.45 63.63 60 56.36 Dermatology 92.62 95.08 98.36 95.35 Promoters 83.33 88.57 82.85 84.92 Splice 89.75 89.55 90.68 90 Rataan Total 81.66 9 November 2018

SELEKSI FITUR DENGAN FCBF Nilai Threshold Lung Cancer Dermatology Promoters Splice 3 14 6 22 0.1 13 0.13 2 4 5 0.2 10 0.3 0.4 0.5 Kenaikan nilai threshold menyebabkan jumlah fitur yang digunakan akan semakin berkurang 9 November 2018

PERBANDINGAN ANTARA KLASIFIKASI DENGAN SELEKSI FITUR DAN TANPA SELEKSI FITUR Rataan akurasi ( % ) Fullsets 81.6598848 Nilai threshold 0 86.1885996 Nilai threshold 0.1 85.8694018 Nilai threshold 0.13 82.7769219 Nilai threshold 0.2 79.5164509 Nilai akurasi menggunakan seleksi fitur untuk beragam nilai threshold lebih baik daripada tanpa seleksi fitur 9 November 2018

9 November 2018

Presentasi Pengurangan Fitur PERBANDINGAN ANTARA KLASIFIKASI DENGAN SELEKSI FITUR DAN TANPA SELEKSI FITUR… Akurasi menggunakan seleksi fitur untuk setiap data lebih baik daripada tanpa seleksi fitur Nama Data (%)  Fitur Asal Akurasi Fullsets  Fitur Terseleksi Akurasi dengan FCBF Presentasi Pengurangan Fitur Lung Cancer 54 56.36 3 68.18 94.44 Dermatology 33 95.35 14 94.81 57.58 Promoters 57 84.92 6 91.48 89.47 Splice 60 90.0 22 90.28 63.33 Rataan 81.66 86.18 76.20 9 November 2018

PERBANDINGAN ANTARA KLASIFIKASI DENGAN SELEKSI FITUR DAN TANPA SELEKSI FITUR… 9 November 2018

PERBANDINGAN ANTARA KLASIFIKASI DENGAN SELEKSI FITUR DAN TANPA SELEKSI FITUR… 9 November 2018

KESIMPULAN DAN SARAN 9 November 2018

KESIMPULAN Seleksi fitur digunakan untuk mengurangi dimensi data dan meningkatkan akurasi Penentuan nilai threshold yang berbeda menghasilkan nilai akurasi yang berbeda pula. Nilai akurasi tertinggi terdapat pada nilai threshold 0 Dari keempat data yang digunakan, tingkat akurasi yang diperoleh antara lain Lung Cancer 56.4% menjadi 61.2%, Dermatology 95.35% menjadi 94.81%, Promoters 84.92% manjadi 91.48% dan Splice 90% menjadi 90.28%. Rataan dari keempat nilai akurasi tersebut yaitu 81.66% menjadi 86.2%. Hal ini menunjukkan bahwa seleksi fitur mampu meningkatkan nilai akurasi 9 November 2018

SARAN Penelitian selanjutnya dapat mencoba menerapkan seleksi fitur pada algoritma klasifikasi yang lain. Algoritma seleksi fitur yang digunakan pun bisa bermacam-macam. Agar hasil akurasi dapat terlihat perbedaanya, maka sebaiknya data yang digunakan harus memiliki ukuran dimensi yang sangat besar, misalnya data DNA manusia,dll. 9 November 2018

DAFTAR PUSTAKA Guvenir, H.A., Demiroz, G., Ilter, N. 1998. Learning Diagnosis of Erythemato-Squamous Diseases using Voting Feature Interval. Artificial Intelligence in Medicine, 13(3), 147-165. Jain, A., Zongker, D. 1997. Feature Selection: Evaluation, Application, and Small Sample Performance. IEEE Transaction on Pattern Analysis and Machine Intteligence, 19(2): 153-158. Langley, P. 1994. Selection of Relevant Features in Machine Learning. Proceedings of the AAAI Fall Symposium on Relevance. AAAI Press. Yu, L., Liu, H. 2003. Feature Selection for High Dimensional Data: A Fast Correlation-Based Filter Solution. www.hpl.hp.com/conferences/icml2003/papers/144.pdf. 9 November 2018

TERIMA KASIH 9 November 2018