Upload presentasi
Presentasi sedang didownload. Silahkan tunggu
Diterbitkan olehYenny Lanny Setiawan Telah diubah "7 tahun yang lalu
1
Pembimbing : Imas S. Sitanggang, S.Si, M.Kom Irman Hermadi, S.Kom, MS
OPTIMASI FUZZY DECISION TREE MENGGUNAKAN ALGORITME GENETIKA PADA DATA DIABETES Oleh : Wellya Septin G
2
PENDAHULUAN LATAR BELAKANG
Hasil survey WHO (2004) : Indonesia menempati urutan ke-4 terbesar dalam jumlah penderita kencing manis (diabetes melitus) di dunia setelah India, Cina, & AS. Jumlah penderita diabetes : 14 juta (2006) 30% dari yang sadar pengobatan 50% sadar Tiap tahun semakin meningkat 2
3
PENDAHULUAN LATAR BELAKANG Pengembangan dari penelitian sebelumnya :
“Penerapan Teknik Klasifikasi dengan Metode Fuzzy Decision Tree dengan Algoritme ID3 pada Data Diabetes” (Firat Romansyah 2007) Optimasi fuzzy decision tree dengan algoritme genetika tingkatkan nilai akurasi Algoritme genetika: Menangani fungsi objektif Bekerja pada sekumpulan calon solusi Aturan transisi peluang genetically optimized fuzzy decision tree 3
4
PENDAHULUAN TUJUAN Menerapkan algoritme genetika (AG) untuk mengoptimasi fuzzy decision tree (FDT) sehingga diperoleh genetically optimized fuzzy decision tree (G-DT) pada data diabetes akurasi lebih baik daripada penelitian sebelumnya. Membangun aplikasi sederhana untuk membuat model (aturan klasifikasi) dengan menggunakan G-DT. Membandingkan FDT dengan G-DT. 4
5
PENDAHULUAN RUANG LINGKUP
Membangun model untuk mengetahui potensi seseorang terkena diabetes DATA DIABETES : GLUN (Glukosa Darah Puasa) GPOST (Glukosa Darah 2 Jam Pasca Puasa) TG (Trigliserida) HDL (Kolesterol HDL) Diagosa pasien Teknik : Klasifikasi Fuzzy Decision Tree (FID3) Algoritme Genetika 5
6
DATA MINING KLASIFIKASI TINJAUAN PUSTAKA
Proses ekstraksi informasi data berukuran besar (Han dan Kamber 2006) KLASIFIKASI Proses menemukan model (fungsi) yang menjelaskan dan membedakan kelas-kelas atau konsep, dengan tujuan agar model yang diperoleh dapat digunakan untuk mengetahui kelas atau objek yang memiliki label kelas yang tidak diketahui (Han & Kamber 2006) 6
7
TINJAUAN PUSTAKA Decision Tree aturan IF…THEN (Marsala 1998)
Contoh sebuah decision tree 7
8
Fuzzy Decision Tree (FDT)
TINJAUAN PUSTAKA Fuzzy Decision Tree (FDT) Perluasan decision tree Teori himpunan fuzzy himpunan data Fuzzy ID3 (Iterative Dichotomiser 3) Algoritme membangun FDT FUZZY Peningkatan dalam melakukan penggolongan pada saat pelatihan 8
9
TINJAUAN PUSTAKA FID3 Membuat root node atau memilih atribut yang digunakan untuk ekspansi tree Menghitung fuzzy entropy dan information gain Information gain ukuran seleksi atribut Fuzzy entropy untuk mendefinisikan information gain Mengekspansi tree : Hitung nilai derajat keanggotaan yang baru Menghitung proporsi dari tiap kelas Evaluasi dengan threshold Proporsi kelas ≥ Fuzziness Control Threshold (FCT) ekspansi dihentikan Banyaknya anggota himpunan data ≤ Leaf Decision Threshold (LDT) ekspansi dihentikan Ekspansi berhenti jika tidak ada data/atribut lagi 9
10
FUZZY ENTROPY DAN INFORMATION GAIN
HASIL DAN PEMBAHASAN FUZZY ENTROPY DAN INFORMATION GAIN FUZZY ENTROPY KESELURUHAN DATA: FUZZY ENTROPY ATRIBUT A: INFORMATION GAIN ATRIBUT A: 10
11
Algoritme Genetika TINJAUAN PUSTAKA
John H. Holland (1975) (Cox 2005) meniru teori evolusi alamiah (Michalewicz 1996) Menurut Michalewicz (1996), AG harus memiliki 5 komponen berikut: Representasi genetik Inisialisasi populasi Fungsi evaluasi Operator-operator genetik rekombinasi dan mutasi Nilai-nilai dari berbagai macam parameter yang digunakan dalam AG 11
12
Bangkitkan populasi awal < Fitness Threshold
TINJAUAN PUSTAKA Tidak Ya Bangkitkan populasi awal Evaluasi fitness < Fitness Threshold Elitisme Seleksi Rekombinasi Bentuk populasi baru Mulai Individu terbaik Selesai Mutasi Algoritme Genetika 12
13
TINJAUAN PUSTAKA SISTEM INFERENSI FUZZY FUZZY C-MEANS (FCM)
Suatu framework yang didasarkan pada konsep himpunan fuzzy, fuzzy if-then rules, dan fuzzy reasoning (Jang et al 1997). FUZZY C-MEANS (FCM) Algoritme clustering data di mana setiap titik data masuk dalam sebuah cluster dengan ditandai oleh derajat keanggotaan yang bernilai antara 0 dan 1 (Jang et al 1997). K-FOLD CROSS VALIDATION Mengulang k-kali untuk membagi sebuah himpunan contoh secara acak menjadi k subset yang saling bebas, setiap ulangan disisakan satu subset untuk pengujian dan subset lainnya untuk pelatihan (Fu 1994). 13
14
METODE PENELITIAN [ALUR PENELITIAN] [TAHAPAN PEMBENTUKAN G-DT]
Optimasi fungsi keanggotaan fuzzy 14
15
METODE PENELITIAN PENDEFINISIAN KROMOSOM 96 175 296 393 88 132 213 299
GPOST 100 200 300 400 500 600 700 0.2 0.4 0.6 0.8 1 Derajat keanggotaan Rendah Sedang Tinggi a b c d 96 175 296 393 88 132 213 299 96 175 296 393 42 66 76 144 98 158 329 467 GLUN GPOST HDL TG 15
16
x = (minimum ( (r – 0), (s – r), (t – s)/4, (u – t), (max–u) ) ) – 1
METODE PENELITIAN PEMBANGKITAN POPULASI AWAL 100 200 300 400 500 600 700 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Derajat GPOST Cluster 1 Cluster 2 Cluster 3 r s t u r - x ≤ a ≤ r + x s ≤ b ≤ s + 2x t – 2x ≤ c ≤ t u - x ≤ d ≤ u + x c b max r s t u x 2x a d x = (minimum ( (r – 0), (s – r), (t – s)/4, (u – t), (max–u) ) ) – 1 16
17
METODE PENELITIAN SELEKSI : Roulette Wheel
REKOMBINASI : One-point Crossover MUTASI : [ (nilai gen – 1), (nilai gen + 1) ] FITNESS THRESHOLD : 0.05 Fuzziness Control Threshold (FCT) = 98% dan Leaf Decision Threshold (LDT) = 3% PERCOBAAN tingkat rekombinasi: 50%, 60%, 70%, 80%, 90%, dan 100% tingkat mutasi: 1%, 5%, dan 10% maksimum generasi: 50, 100, 150, 200, dan 250 ukuran populasi: 10, 30, dan 50 TRAINING G-DT : menggunakan 10 training set masing-masing 10 iterasi 17
18
METODE PENELITIAN LINGKUP PENGEMBANGAN SISTEM
Perangkat keras yang digunakan berupa notebook: processor: Intel Core 2 Duo 1.66 GHz, memori: 1,512 GB, dan harddisk: 80GB. Perangkat lunak yang digunakan: sistem operasi: Window XP, Matlab sebagai bahasa pemrograman, dan Microsoft Excel 2003 sebagai media penyimpanan data. 18
19
HASIL DAN PEMBAHASAN PEMILIHAN TRAINING SET DAN TESTING SET
Berdasarkan hasil eksekusi program G-DT dan persebaran data tiap training set dan testing set. Ukuran populasi = 10, maksimum generasi = 50, tingkat rekombinasi = 50%, dan tingkat mutasi = 1%. TRAINING SET DAN TESTING SET 3 19
20
HASIL DAN PEMBAHASAN HASIL EKSEKUSI G-DT Set Akurasi Jumlah Aturan
Waktu Total (detik) Jumlah Iterasi 1 100.00% 20 14,906 2 58.62% 17 209,562 50 3 89.66% 25 320,938 4 15,031 5 21 15,109 6 14,937 7 22 14,578 8 19 14,985 9 14,938 10 15,344 mean 94.83% 20.8 20
21
HASIL DAN PEMBAHASAN PERSEBARAN DATA Set Training Set Testing Set
Negatif Positif 1 244 17 29 2 257 4 16 13 3 248 25 5 6 7 8 9 10 Total 261 21
22
58 kombinasi parameter dengan nilai fitness terbaik
HASIL DAN PEMBAHASAN UKURAN POPULASI = 10 58 kombinasi parameter dengan nilai fitness terbaik 12 kombinasi parameter dengan nilai fitness terbaik dan waktu eksekusi < 360 detik 3 kombinasi parameter yang terbaik untuk training set 3 (pengulangan 10 kali) 1 kombinasi parameter yang terbaik untuk training set 3 dan 2 parameter yang optimal bagi populasi 10 tingkat rekombinasi: 90% tingkat mutasi: 10% maksimum generasi: 50 22
23
HASIL DAN PEMBAHASAN UKURAN POPULASI = 30 & 50
Lebih lama dari ukuran populasi = 10 Besar nilai fitness terbaik tidak lebih baik daripada ukuran populasi = 10 Peningkatan ukuran populasi dan maksimum generasi tidak menghasilkan nilai fitness yang lebih baik 23
24
HASIL DAN PEMBAHASAN PARAMETER AG YANG OPTIMAL:
tingkat rekombinasi: 90%, tingkat mutasi: 10%, maksimum generasi: 50, dan ukuran populasi: 10. 24
25
TRAINING G-DT HASIL DAN PEMBAHASAN
Kriteria penentuan hasil training G-DT: nilai akurasi yang paling tinggi, jumlah aturan yang dihasil yang paling sering muncul (modus), dan waktu eksekusi yang paling cepat. 25
26
HASIL DAN PEMBAHASAN HASIL TRAINING DATA TRAINING SET 3 Set Akurasi
Waktu (detik) Jumlah Aturan 1 93.10% 324,594 28 (26 negatif, 2 positif) 2 328,766 26 (25 negatif, 1 positif) 3 310,985 21 (20 negatif, 1 positif) 4 321,031 25 (23 negatif, 2 positif) 5 89.66% 302,500 20 (19 negatif, 1 positif) 6 306,156 22 (20 negatif, 2 positif) 7 317,187 25 (24 negatif, 1 positif) 8 306,375 9 264,859 10 319,531 24 (23 negatif, 1 positif) 26
27
HASIL DAN PEMBAHASAN HASIL TRAINING G-DT TIAP TRAINING SET Set Akurasi
Jumlah Aturan Waktu Total (detik) 1 100.00% 26 (24 negatif, 2 positif) 15,031 2 62.07% 17 (16 negatif, 1 positif) 207,204 3 93.10% 21 (20 negatif, 1 positif) 271,484 4 25 (24 negatif, 1 positif) 15,563 5 23 (20 negatif, 3 positif) 15,188 6 27 (25 negatif, 2 positif) 15,063 7 22 (22 negatif, 0 positif) 14,797 8 20 (19 negatif, 1 positif) 14,625 9 15,016 10 23 (21 negatif, 2 positif) 15,485 mean 95.52% 22.6 27
28
HASIL DAN PEMBAHASAN PARAMETER TIDAK OPTIMAL VS PARAMETER OPTIMAL
Akurasi training set 2: 58.62% naik menjadi 62.07% Akurasi training set 3: 89.66% naik menjadi 93.10% Rata-rata akurasi parameter yang tidak optimal: 94.83%. Rata-rata akurasi parameter yang optimal: 95.52%. Peningkatan rata-rata akurasi: 0.69%. 28
29
REPRESENTASI PENGETAHUAN
HASIL DAN PEMBAHASAN REPRESENTASI PENGETAHUAN Model yang dipilih dari hasil training: Mencakup semua kelas target. Akurasi yang paling tinggi. Jumlah aturan yang paling banyak. MODEL G-DT: 27 aturan (25: negatif dan 2: positif) [Model] [Tree] 29
30
PERBANDINGAN G-DT – FDT
HASIL DAN PEMBAHASAN PERBANDINGAN G-DT – FDT Nilai akurasi yang dihasilkan: Akurasi training set 2: 55.17% naik menjadi 62.07%. Akurasi training set 3: 82.76% naik menjadi 93.10%. Akurasi training set 7, trainng set 8, dan training set 10 naik menjadi 100%. Rata-rata nilai akurasi FDT: 90.69%. Rata-rata nilai akurasi G-DT: 95.52%. Peningkatan rata-rata akurasi: 4.83%. 30
31
PERBANDINGAN G-DT – FDT
HASIL DAN PEMBAHASAN PERBANDINGAN G-DT – FDT Jumlah aturan yang dihasilkan: Sebagian besar jumlah aturan yang dihasilkan lebih rendah. Rata-rata jumlah aturan yang dihasilkan lebih rendah. 31
32
PERBANDINGAN G-DT – FDT
HASIL DAN PEMBAHASAN PERBANDINGAN G-DT – FDT Penyebab perbedaan jumlah aturan: Proses pembentukan tree berbeda. Jumlah himpunan fuzzy untuk atribut GLUN dan GPOST berbeda. G-DT: 3 himpunan fuzzy (rendah, sedang, tinggi) FDT: 4 himpunan fuzzy (rendah, sedang, tinggi, sangat tinggi) 32
33
PERBANDINGAN G-DT – FDT
HASIL DAN PEMBAHASAN PERBANDINGAN G-DT – FDT Model yang menjadi representasi pengetahuan: G-DT: 27 aturan (25: positif, 2: negatif). FDT: 30 aturan (29: positif, 1: negatif). 33
34
PERBANDINGAN G-DT – FDT
HASIL DAN PEMBAHASAN PERBANDINGAN G-DT – FDT Waktu eksekusi G-DT bisa lebih lama daripada FDT. Waktu eksekusi G-DT tergantung pada ukuran populasi dan maksimum generasi. Jika solusi diperoleh pada iterasi pertama, waktu eksekusi G-DT lebih cepat daripada FDT. 34
35
PERBANDINGAN G-DT – FDT
HASIL DAN PEMBAHASAN PERBANDINGAN G-DT – FDT Fungsi keanggotaan: G-DT: diperoleh dari hasil pembelajaran dengan algoritme genetika. FDT: telah diinisialisasi dari awal. 35
36
HASIL DAN PEMBAHASAN Fungsi keanggotaan untuk GLUN (G-DT): 36
37
HASIL DAN PEMBAHASAN Fungsi keanggotaan untuk GLUN (G-DT): 100 200 300
100 200 300 400 500 600 0.2 0.4 0.6 0.8 1 GLUN Derajat Keanggiotaan Rendah Sedang Tinggi 37
38
EVALUASI KINERJA G-DT HASIL DAN PEMBAHASAN
G-DT Berhasil meningkatkan akurasi. (FDT: 90.69% dan G-DT: 95.52%) Rata-rata nilai akurasi G-DT meningkat sebesar 4.83% dari rata-rata nilai akurasi FDT 38
39
KESIMPULAN KESIMPULAN DAN SARAN
Algoritme genetika (AG) dapat digunakan untuk optimasi fuzzy decision tree (FDT) sehingga diperoleh genetically optimized fuzzy decison tree (G-DT). Rata-rata nilai akurasi G-DT meningkat sebesar 4.83% dari rata-rata nilai akurasi FDT (FDT: 90.69% dan G-DT: 95.52%). Parameter AG yang optimal yaitu: tingkat rekombinasi: 90%, tingkat mutasi: 10%, ukuran populasi: 10, dan maksimum generasi: 50. 39
40
KESIMPULAN KESIMPULAN DAN SARAN
Parameter AG yang optimal meningkatkan nilai akurasi: 0.69%. (tidak optimal: 94.83% dan optimal: 95.52%). Jumlah aturan yang diperoleh G-DT lebih rendah daripada jumlah aturan yang diperoleh FDT (FDT: 30 aturan (29 negatif, 1 positif) dan G-DT: 27 aturan (25 negatif dan 2 positif). 40
41
SARAN KESIMPULAN DAN SARAN Menggunakan data yang lebih representatif:
Data positif diabetes hanya 17 record dari 290 record kurang representatif. Jumlah data positif dan negatif diabetes sama besar. 41
42
DAFTAR PUSTAKA Cox E Fuzzy Modeling and Genetic Algorithms for Data Mining and Exploration. USA: Morgan Kaufman Publishers. Fu L Neural Network In Computer Intelligence. Singapura: McGraw Hill. Han J, Kamber M Data Mining: Concepts and Techniques. USA: Morgan Kaufman Publishers. Jang JSR, Sun CT, Mizutani Eiji Neuro-Fuzzy and Soft Computing. London: Prentice-Hall International, Inc. Kantardzic M Data Mining: Concepts, Models, Methods, and Algorithms. Wiley-Interscience. Lawrence D Handbook of Genetic Algorithms. New york: Van Nostrand Reinhold. Liang G A Comparative Study of Three Decision Tree Algorithms: ID3, Fuzzy ID3 and Probabilistic Fuzzy ID3. Rotterdam: Informatic & Ecosnomics Eramus University Rotterdam. Marsala C Application of Fuzzy Rule Induction to Data Mining. France: University Pierre et Marie Curie. 42
43
DAFTAR PUSTAKA Michalewicz Z Genetic Algorithms + Data Structure = Evolution Programs. New York: Springer-Verlag Berlin Heidelberg. Pedryez W, Sosnowski ZA Genetically Optimized Fuzzy Decision Trees. IEEE Transactions on Systems, Man, and Cybernetics vol.35 no.3. Romansyah F Penerapan Teknik Klasifikasi dengan Metode Fuzzy Decision Tree dengan Algoritme ID3 pada Data Diabetes [Skripsi]. Bogor: Departemen Ilmu Komputer FMIPA IPB. 43
44
HASIL DAN PEMBAHASAN HASIL TRAINING FDT Set Akurasi Waktu (detik)
Waktu Total Jumlah Aturan 1 100.00% 0,750 21,625 29 (29 negatif, 0 positif) 2 55.17% 0,219 21,375 9 (9 negatif, 0 positif) 3 82.76% 0,562 21,500 23 (22 negatif, 1 positif) 4 0,735 21,657 5 0,782 21,703 30 (30 negatif, 0 positif) 6 0,828 21,906 31 (31 negatif, 0 positif) 7 86.66% 0,766 21,828 29 (27 negatif, 2 positif) 8 89.66% 21,719 29 (28 negatif, 1 positif) 9 21,797 10 93.10% 21,750 30 (29 negatif, 1 positif) mean 90.69% 27 44
45
PERBANDINGAN G-DT – FDT
HASIL DAN PEMBAHASAN PERBANDINGAN G-DT – FDT Fungsi keanggotaan untuk GLUN (FDT): 45
46
PERBANDINGAN G-DT – FDT
HASIL DAN PEMBAHASAN PERBANDINGAN G-DT – FDT Fungsi keanggotaan untuk GLUN (FDT): 100 200 300 400 500 600 0.2 0.4 0.6 0.8 1 Derajat Keanggotaan Rendah Sedang Tinggi Sangat Tinggi 46
47
HASIL DAN PEMBAHASAN Range normal Kode Pemeriksaan Satuan Nilai Normal
GLUN Mg/DL GPOST HDL TG 47
Presentasi serupa
© 2024 SlidePlayer.info Inc.
All rights reserved.