MUHAMMAD RAFI MUTTAQIN G64104082 PERBANDINGAN PROBABILISTIC FUZZY DECISION TREE DAN FUZZY DECISION TREE UNTUK MODEL KLASIFIKASI PADA DATA DIABETES MUHAMMAD RAFI MUTTAQIN G64104082 Pembimbing: Imas S. Sitanggang, S.Si, M.Kom Irman Hermadi, S.Kom, M.S
Outline Pendahuluan Tinjauan Pustaka Metodologi Hasil dan Pembahasan Latar Belakang Tujuan Ruang Lingkup Manfaat Tinjauan Pustaka Metodologi Hasil dan Pembahasan Kesimpulan dan Saran
Pendahuluan
Latar Belakang Penelitian sebelumnya menggunakan metode fuzzy decision tree pada data lab pasien diabetes. Menghasilkan hasil sebagai berikut: Akurasi Jumlah Aturan FCT LDT 3% 5% 8% 10% 75% 94.14% 94.15% 80% 92.07% 93.45% 85% 90% 95% 90.69% 91.73% 93.10% 98% FCT LDT 3% 5% 8% 10% 75% 4 80% 7 6 85% 11 10 8 90% 12 95% 20 18 15 98% 27 24 16
Latar Belakang (cont…) Metode probabilistic fuzzy decision tree Pengembangan fuzzy decision tree Probabilistic fuzzy decision tree lebih baik dari fuzzy decision tree ?????
Tujuan Menerapkan teknik klasifikasi data mining menggunakan metode probabilistic fuzzy decision tree Membandingkan hasil model klasifikasi antara metode fuzzy decision tree dan probabilistic fuzzy decision tree
Manfaat Penelitian Diharapkan dapat membuktikan teori yang menyatakan bahwa metode probabilistic fuzzy decision tree lebih baik dari fuzzy decision tree Diharapkan dapat menjadi dasar dalam pemilihan metode klasifikasi decision tree untuk data yang lebih besar.
Tinjauan Pustaka
Klasifikasi Klasifikasi adalah proses menemukan model (fungsi) yang menjelaskan dan membedakan kelas-kelas atau konsep, dengan tujuan agar model yang diperoleh dapat digunakan untuk mengetahui kelas atau objek yang memiliki label kelas yang tidak diketahui. Model yang diturunkan didasarkan pada analisis dari data mining (Han & Kamber 2006)
Himpunan fuzzy Diperkenalkan oleh Prof. Lotfi A Zadeh dari Universitas California pada Juni 1965 Dalam logika fuzzy nilai kebenaran suatu pernyataan berkisar dari sepenuhnya benar ke sepenuhnya salah Dengan teori himpunan fuzzy, suatu objek dapat menjadi anggota dari banyak himpunan dengan derajat keanggotaan yang berbeda dalam masing-masing himpunan
Derajat Keanggotaan Derajat keanggotaan menunjukkan nilai keanggotaan suatu objek pada suatu himpunan. Nilai keanggotaan ini berkisat antara 1 sampai 0
Decision Tree Decision tree merupakan suatu pendekatan yang sangat populer dan praktis dalam machine learning untuk menyelesaikan permasalahan klasifikasi.
Decision Tree (Cont…) Contoh sebuah decision tree
Fuzzy Decision Tree (FDT) Decision tree sama dengan satu himpunan aturan IF…THEN Teori fuzzy dapat meningkatkan ketahanan saat melakukan klasifikasi kasus-kasus baru pada sebuah decision tree (Marsala 1998)
Probabilistic Fuzzy Decision Tree (PFDT) Merupakan pengembangan dari metode fuzzy decision tree Metode PFDT memperbaiki fungsi keanggotaan untuk proses learning pada metode FDT. Pendekatan well-defined sample space. Diharapkan nilai akurasi yang diperoleh lebih tinggi.
Threshold Threshold adalah sebuah nilai yang digunakan untuk membatasi atau memotong (prunning) suatu tree. Ada 2 (dua) buah threshold yang harus terpenuhi jika tree akan diekspansi pada algoritme FID3 dan PFID3, yaitu: Fuzziness control threshold (FCT) / θr Leaf decision threshold (LDT) / θn
Metodologi
Data Data yang digunakan sama dengan penelitian sebelumnya. Data yang digunakan adalah data hasil lab pasien GLUN (Glukosa Darah Puasa) GPOST (Glukosa Darah 2 Jam Pasca Puasa) HDL (Kolesterol HDL) TG (Trigliserida) Hasil diagnosa pasien (negatif / positif)
Alur Proses Klasifikasi
Lingkup Pengembangan Sistem Perangkat keras yang digunakan berupa Processor : Intel Core 2 Duo 2.0 GHz Memori : 1 GB Harddisk : 120 GB Perangkat lunak yang digunakan yaitu: Sistem operasi: Windows XP Matlab 7.0.1 sebagai bahasa pemrograman, dan Microsoft Excel 2007 sebagai tempat penyimpanan data
Hasil dan Pembahasan
Transformasi Data Atribut GLUN, GPOST, HDL, dan TG ditransformasikan ke dalam bentuk fuzzy. Well-defined sample space (PFDT) dan tanpa well-defined sample space (FDT). Data telah dibagi menjadi 10 buah subset yang berbeda dengan jumlah sama besar. Setiap kali sebuah subset digunakan sebagai test set maka 9 buah partisi lainnya akan dijadikan sebagai training set.
Without well-defined sample space Dalam pendekatan ini, penjumlahan derajat keanggotaan suatu objek dalam seluruh himpunan adalah tidak sama dengan 1. Sebagai contoh atribut GLUN: Dibagi menjadi 4 kelompok atau linguistic term yaitu: Rendah (GLUN < 70 mg/DL) Sedang (70 mg/DL <= GLUN < 110 mg/DL) Tinggi (110 mg/DL <= GLUN < 140 mg/DL) Sangat tinggi (GLUN >= 140)
Without well-defined sample space (Cont…) Himpunan fuzzy untuk atribut GLUN (FDT)
Without well-defined sample space (Cont…) MF GLUN rendah sedang tinggi Sangat tinggi MF GLUN
Well-defined sample space Dalam pendekatan ini, penjumlahan derajat keanggotaan suatu objek dalam seluruh himpunan adalah sama dengan 1. Sebagai contoh atribut GLUN.
Well-defined sample space (Cont…) Himpunan fuzzy untuk atribut GLUN (PFDT)
Well-defined sample space (Cont…) MF GLUN rendah sedang tinggi Sangat tinggi MF GLUN
Data Mining Digunakan program peneliti sebelumnya menggunakan Matlab 7.0.1 Tidak ada perbedaan dalam coding Hasil peneliti sebelumnya dinamakan “PFDT(1)”, sedangkan untuk PFDT yang saat ini dinamakan PFDT(2)
Data Mining (Cont…) FDT menggunakan fungsi keanggotaan dengan kurva z-shaped, gaussian, dan s- shaped. PFDT(1) menggunakan fungsi keanggotaan dengan kurva berbentuk trapesium. PFDT(2) menggunakan fungsi keanggotaan dengan kurva z-shaped, phi-shaped, dan s- shaped.
Fase Pembentukan Pohon Keputusan Dilakukan sebanyak 480 kali, untuk masing- masing metode (FDT dan PFDT) sebanyak 240 kali. Untuk tiap training set, proses training dilakukan sebanyak 24 kali, dengan mengubah nilai θr sebanyak 6 kali yaitu 75%, 80%, 85%, 90%, 95%, dan 98%. Untuk masing-masing nilai θr yang sama diberikan nilai θn yang berbeda-beda yaitu 3%, 5%, 8%, dan 10%.
Rata-rata jumlah aturan FDT PFDT(1) PFDT(2) FCT ( θr ) LDT ( θn ) 3% 5% 8% 10% 75% 4 80% 7 6 85% 10 9 90% 18 17 16 95% 27 26 24 98% 41 40 39 37 FCT ( θr ) LDT (θn ) 3% 5% 8% 10% 75% 4 80% 7 6 85% 11 10 8 90% 12 95% 20 18 15 98% 27 24 16 FCT (θr) LDT (θn ) 3% 5% 8% 10% 75% 4 80% 7 6 85% 10 9 8 90% 11 95% 21 18 15 12 98% 26 23 20 16
Rata-rata jumlah aturan (Cont…) PFDT(1) dan PFDT(2) tidak mengalami perubahan jumlah aturan yang sigifikan FDT menghasilkan jumlah aturan yang jauh lebih banyak dari PFDT(1) dan PFDT(2) Jumlah nilai dari fungsi keanggotaan yang berbeda mempengaruhi banyaknya jumlah rule yang dihasilkan.
Contoh perbandingan hasil transformasi data FDT dan PFDT(2) No GLUN Rendah Sedang Tinggi Sangat tinggi FDT 30 262 8.09E-11 3.96E-07 1 33 130 0.284572 0.980555 PFDT (2)
Akurasi Pohon Keputusan Dilakukan sebanyak 480 kali, masing-masing 240 kali untuk model FDT dan PFDT(2) Untuk satu kali training, dilakukan satu kali testing.
Rata-rata nilai akurasi PFDT(1) FCT ( θr ) LDT ( θn ) 3% 5% 8% 10% 75% 94.14% 94.15% 80% 92.07% 93.45% 85% 90% 95% 90.69% 91.73% 93.10% 98% FDT FCT ( θr ) LDT ( θn ) 3% 5% 8% 10% 75% 94.1% 80% 93.1% 93.5% 85% 90% 95% 98% 92.8% PFDT(2) FCT ( θr ) LDT ( θn) 3% 5% 8% 10% 75% 94.14% 80% 92.07% 93.45% 85% 90% 95% 90.00% 91.72% 93.10% 98%
Rata-rata nilai akurasi (Cont…) Dalam kasus ini nilai akurasi FDT lebih besar dari PFDT(1) dan PFDT(2) Nilai akurasi PFDT(1) dan PFDT(2) reatif sama Tidak sesuai dengan teori FCT ( θr ) = 98% LDT ( θn ) = 3% FDT PFDT(1) PFDT(2) 92.8% 90.69% 90.00%
Representasi Pengetahuan Model yang dipilih dari proses training adalah : Model yang jumlah aturan paling banyak Model yang memiliki akurasi tinggi Model yang mencakup semua kelas target yang mungkin muncul dalam test set Dipilih model hasil training dengan nilai θr dan θn masing-masing 98% dan 3% dari pasangan training set dan test set ke-8 untuk FDT dan ke-10 untuk PFDT(2)
Kesimpulan dan Saran
Kesimpulan Jumlah aturan yang dihasilkan FDT jauh lebih besar dari PFDT(1) dan PFDT(2) Dalam kasus nilai FCT ( θr ) 98% dan LDT (θn ) 3%, jumlah aturan yang dihasilkan oleh FDT, PFDT(1), dan PFDT(2) adalah: FDT PFDT(1) PFDT(2) 41 27 26
Kesimpulan (Cont…) Nilai akurasi yang diperoleh FDT lebih tinggi dari PFDT(1) dan PFDT(2) walaupun tidak terlalu signifikan Dalam kasus nilai FCT ( θr ) 98% dan LDT ( θn ) 3%, nilai akurasi yang dihasilkan oleh FDT, PFDT(1), dan PFDT(2) adalah: FDT PFDT(1) PFDT(2) 92.8% 90.69% 90%
Saran Menggunakan data baru yang lebih representatif dengan perbandingan jumlah data yang positif sama besar dengan jumlah data yang negatif diabetes.
TERIMA KASIH