Perbandingan Algoritme Pruning pada Decision Tree yang dikembangkan dengan Algoritme CART Martin Budi G64104021 Di Bawah Bimbingan Rindang Karyadin, S.T., M.Kom. Sony Hartono Wijaya, S.kom, M.Kom.
Latar Belakang Pengumpulan Data Penumpukan Data Data Mining Data mining merupakan proses ekstraksi informasi data berukuran besar (Han & Kamber 2006).
Latar Belakang Teknik Data mining Clustering Association rule klasifikasi Decision Tree (pruning) Penerapkan pruning pada decision tree, dapat meningkatkan akurasi pada klasifikasi data (Han & Kamber 2006)
Tujuan Menerapkan teknik pruning CCP , REP dan EBP pada decision tree (CART). Membandingkan nilai akurasi, serta waktu proses yang dihasilkan oleh algoritme pruning CCP , REP dan EBP.
Tinjauan Pustaka Klasifikasi Menemukan model (fungsi) yang membedakan kelas-kelas. Model yang diturunkan didasarkan pada analisis dari training data (Han & Kamber 2006). Decision Tree Klasifikasi yang representasi modelnya menggunakan aturan jika-maka. (Han & Kamber 2006)
Decision tree Penentuan Kelulusan Mata Kuliah Nilai uas Nilai Tugas memuaskan lulus Nilai UTS peringatan Gagal Penentuan Kelulusan Mata Kuliah
Classification And Regression Tree (CART) Mobilitas Tinggi Kegunaan High end Desktop Low end Desktop Wifi Laptop + wifi Laptop Penentuan Tipe PC Breiman, Freidman, Olshen, Stone CART metode decision tree yang hanya memiliki cabang dua buah, atau yang biasa disebut dengan binary tree (Larose 2005).
For anak j pada node do growTree(F_j , E_j) Algoritme CART GrowTree (F , E) Buat leaf node Ya Stop No Temukan split terbaik Lakukan split For anak j pada node do growTree(F_j , E_j)
Pruning Mobilitas Tinggi Wifi Desktop Laptop Mobilitas Tinggi Laptop Kegunaan High end Desktop Low end Desktop Wifi Desktop Laptop Mobilitas Tinggi Kegunaan High end Desktop Low end Desktop Laptop Pruning = proses pemangkasan cabang pohon yang berguna untuk meningkatkan nilai akurasi dari proses klasifikasi data (Han & Kamber 2006).
Pruning Breiman Quinlan Quinlan REP (Reduced Error Pruning) CCP (Cost Complexity Pruning) EBP (Error Based Pruning) Breiman Quinlan Quinlan
Pembangunan Decision tree Metodologi Mulai Studi Literatur Pengumpulan Data DATA Pembangunan Decision tree Analisis Hasil Dokumentasi Selesai EBP REP CCP Pembagian Data Training Set Test Set pruning
Data Profile pelanggan dari perusahaan penyedia kredit. Data berasal dariUniversity of California (http://archive.ics.uciedu/ml/datasets/Statlog+(German+Credit+Data)).
Data 20 variabel (13 kualitatif, 7 numerik) 2 kelas 1000 instance.
Rataan error rate pada data dengan jumlah insatance yang berbeda Algoritme Pruning Error Rate 250 data 500 data 750 data 1000 data 5000 data 10000 data CCP 0.354 0.318 0.313 0.3076 0.2163 0.1927 REP 0.348 0.308 0.304 0.298 0.2156 0.1914 EBP 0.315 0.3 0.2131 0.1904 Tree Awal 0.364 0.334 0.326 0.328 0.2088 0.1503
Rataan error rate pada data dengan jumlah instance yang berbeda
Rataan error rate pada data dengan jumlah variabel yang berbeda Algoritme Pruning Error Rate 20 variabel 19 variabel 17 variabel 15 variabel 13 variabel 10 variabel 5 variabel CCP 0.3076 0.3086 0.3164 0.3094 0.3128 0.315 0.2808 REP 0.298 0.2996 0.2938 0.2878 0.3006 0.3062 0.2784 EBP 0.3 0.30165 0.2972 0.2898 0.2962 0.2946 0.2806 Tree Awal 0.328 0.3276 0.3278 0.3122 0.324 0.3194 0.2782
Rataan error rate pada data dengan jumlah variabel yang berbeda
Rataan error rate pada keseluruhan percobaan
Rataan selisih node
Waktu eksekusi pada data dengan berbagai jumlah instance
Waktu eksekusi pada data dengan berbagai variabel
Kesimpulan Algoritme CCP memiliki eksekusi tercepat hampir pada data dengan jumlah variabel berbeda-beda. Pruning menggunakan EBP rata-rata berhasil memangkas 70 persen node dari decision tree awal, sehingga akan menghasilkan decision tree yang lebih ringkas daripada decision tree hasil pruning algoritme lainnya.
Kesimpulan Pada rataan error rate seluruh percobaan, algoritme REP menghasilkan error rate paling kecil. Walaupun error rate algoritme REP lebih baik, error rate tersebut tidak berbeda jauh dengan nilai error rate algoritme EBP. Dengan nilai error rate yang mendekati serupa, EBP menghasilkan decision tree yang jauh lebih simpel daripada algoritme REP.
Saran Perbandingan algoritme pruning dilakukan pada data dengan kelas data lebih dari dua. Melakukan perbandingan algoritme pruning pada decision tree dengan algoritme lainnya seperti Supervised Learning In Quest (SLIQ) atau Scalable Parallelizable Induction of Decision Tree (SPRINT)
Terima Kasih