Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

Pembimbing : Imas S. Sitanggang, S.Si, M.Kom Irman Hermadi, S.Kom, MS

Presentasi serupa


Presentasi berjudul: "Pembimbing : Imas S. Sitanggang, S.Si, M.Kom Irman Hermadi, S.Kom, MS"— Transcript presentasi:

1 Pembimbing : Imas S. Sitanggang, S.Si, M.Kom Irman Hermadi, S.Kom, MS
OPTIMASI FUZZY DECISION TREE MENGGUNAKAN ALGORITME GENETIKA PADA DATA DIABETES Oleh : Wellya Septin G

2 PENDAHULUAN LATAR BELAKANG
Hasil survey WHO (2004) : Indonesia menempati urutan ke-4 terbesar dalam jumlah penderita kencing manis (diabetes melitus) di dunia setelah India, Cina, & AS. Jumlah penderita diabetes : 14 juta (2006) 30% dari yang sadar  pengobatan 50% sadar Tiap tahun semakin meningkat 2

3 PENDAHULUAN LATAR BELAKANG Pengembangan dari penelitian sebelumnya :
“Penerapan Teknik Klasifikasi dengan Metode Fuzzy Decision Tree dengan Algoritme ID3 pada Data Diabetes” (Firat Romansyah 2007) Optimasi fuzzy decision tree dengan algoritme genetika tingkatkan nilai akurasi Algoritme genetika: Menangani fungsi objektif Bekerja pada sekumpulan calon solusi Aturan transisi peluang genetically optimized fuzzy decision tree 3

4 PENDAHULUAN TUJUAN Menerapkan algoritme genetika (AG) untuk mengoptimasi fuzzy decision tree (FDT) sehingga diperoleh genetically optimized fuzzy decision tree (G-DT) pada data diabetes  akurasi lebih baik daripada penelitian sebelumnya. Membangun aplikasi sederhana untuk membuat model (aturan klasifikasi) dengan menggunakan G-DT. Membandingkan FDT dengan G-DT. 4

5 PENDAHULUAN RUANG LINGKUP
Membangun model untuk mengetahui potensi seseorang terkena diabetes DATA DIABETES : GLUN (Glukosa Darah Puasa) GPOST (Glukosa Darah 2 Jam Pasca Puasa) TG (Trigliserida) HDL (Kolesterol HDL) Diagosa pasien Teknik : Klasifikasi  Fuzzy Decision Tree (FID3)  Algoritme Genetika 5

6 DATA MINING KLASIFIKASI TINJAUAN PUSTAKA
Proses ekstraksi informasi data berukuran besar (Han dan Kamber 2006) KLASIFIKASI  Proses menemukan model (fungsi) yang menjelaskan dan membedakan kelas-kelas atau konsep, dengan tujuan agar model yang diperoleh dapat digunakan untuk mengetahui kelas atau objek yang memiliki label kelas yang tidak diketahui (Han & Kamber 2006) 6

7 TINJAUAN PUSTAKA Decision Tree aturan IF…THEN (Marsala 1998)
Contoh sebuah decision tree 7

8 Fuzzy Decision Tree (FDT)
TINJAUAN PUSTAKA Fuzzy Decision Tree (FDT) Perluasan decision tree Teori himpunan fuzzy  himpunan data Fuzzy ID3 (Iterative Dichotomiser 3) Algoritme membangun FDT FUZZY  Peningkatan dalam melakukan penggolongan pada saat pelatihan 8

9 TINJAUAN PUSTAKA FID3 Membuat root node atau memilih atribut yang digunakan untuk ekspansi tree Menghitung fuzzy entropy dan information gain Information gain  ukuran seleksi atribut Fuzzy entropy  untuk mendefinisikan information gain Mengekspansi tree : Hitung nilai derajat keanggotaan yang baru Menghitung proporsi dari tiap kelas Evaluasi dengan threshold Proporsi kelas ≥ Fuzziness Control Threshold (FCT)  ekspansi dihentikan Banyaknya anggota himpunan data ≤ Leaf Decision Threshold (LDT) ekspansi dihentikan Ekspansi berhenti jika tidak ada data/atribut lagi 9

10 FUZZY ENTROPY DAN INFORMATION GAIN
HASIL DAN PEMBAHASAN FUZZY ENTROPY DAN INFORMATION GAIN FUZZY ENTROPY KESELURUHAN DATA: FUZZY ENTROPY ATRIBUT A: INFORMATION GAIN ATRIBUT A: 10

11 Algoritme Genetika TINJAUAN PUSTAKA
 John H. Holland (1975) (Cox 2005)  meniru teori evolusi alamiah (Michalewicz 1996) Menurut Michalewicz (1996), AG harus memiliki 5 komponen berikut: Representasi genetik Inisialisasi populasi Fungsi evaluasi Operator-operator genetik  rekombinasi dan mutasi Nilai-nilai dari berbagai macam parameter yang digunakan dalam AG 11

12 Bangkitkan populasi awal < Fitness Threshold
TINJAUAN PUSTAKA Tidak Ya Bangkitkan populasi awal Evaluasi fitness < Fitness Threshold Elitisme Seleksi Rekombinasi Bentuk populasi baru Mulai Individu terbaik Selesai Mutasi Algoritme Genetika 12

13 TINJAUAN PUSTAKA SISTEM INFERENSI FUZZY FUZZY C-MEANS (FCM)
 Suatu framework yang didasarkan pada konsep himpunan fuzzy, fuzzy if-then rules, dan fuzzy reasoning (Jang et al 1997). FUZZY C-MEANS (FCM)  Algoritme clustering data di mana setiap titik data masuk dalam sebuah cluster dengan ditandai oleh derajat keanggotaan yang bernilai antara 0 dan 1 (Jang et al 1997). K-FOLD CROSS VALIDATION  Mengulang k-kali untuk membagi sebuah himpunan contoh secara acak menjadi k subset yang saling bebas, setiap ulangan disisakan satu subset untuk pengujian dan subset lainnya untuk pelatihan (Fu 1994). 13

14 METODE PENELITIAN [ALUR PENELITIAN] [TAHAPAN PEMBENTUKAN G-DT]
Optimasi fungsi keanggotaan fuzzy 14

15 METODE PENELITIAN PENDEFINISIAN KROMOSOM 96 175 296 393 88 132 213 299
GPOST 100 200 300 400 500 600 700 0.2 0.4 0.6 0.8 1 Derajat keanggotaan Rendah Sedang Tinggi a b c d 96 175 296 393 88 132 213 299 96 175 296 393 42 66 76 144 98 158 329 467 GLUN GPOST HDL TG 15

16 x = (minimum ( (r – 0), (s – r), (t – s)/4, (u – t), (max–u) ) ) – 1
METODE PENELITIAN PEMBANGKITAN POPULASI AWAL 100 200 300 400 500 600 700 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Derajat GPOST Cluster 1 Cluster 2 Cluster 3 r s t u r - x ≤ a ≤ r + x s ≤ b ≤ s + 2x t – 2x ≤ c ≤ t u - x ≤ d ≤ u + x c b max r s t u x 2x a d x = (minimum ( (r – 0), (s – r), (t – s)/4, (u – t), (max–u) ) ) – 1 16

17 METODE PENELITIAN SELEKSI : Roulette Wheel
REKOMBINASI : One-point Crossover MUTASI : [ (nilai gen – 1), (nilai gen + 1) ] FITNESS THRESHOLD : 0.05 Fuzziness Control Threshold (FCT) = 98% dan Leaf Decision Threshold (LDT) = 3% PERCOBAAN tingkat rekombinasi: 50%, 60%, 70%, 80%, 90%, dan 100% tingkat mutasi: 1%, 5%, dan 10% maksimum generasi: 50, 100, 150, 200, dan 250 ukuran populasi: 10, 30, dan 50 TRAINING G-DT : menggunakan 10 training set masing-masing 10 iterasi 17

18 METODE PENELITIAN LINGKUP PENGEMBANGAN SISTEM
Perangkat keras yang digunakan berupa notebook: processor: Intel Core 2 Duo 1.66 GHz, memori: 1,512 GB, dan harddisk: 80GB. Perangkat lunak yang digunakan: sistem operasi: Window XP, Matlab sebagai bahasa pemrograman, dan Microsoft Excel 2003 sebagai media penyimpanan data. 18

19 HASIL DAN PEMBAHASAN PEMILIHAN TRAINING SET DAN TESTING SET
Berdasarkan hasil eksekusi program G-DT dan persebaran data tiap training set dan testing set. Ukuran populasi = 10, maksimum generasi = 50, tingkat rekombinasi = 50%, dan tingkat mutasi = 1%. TRAINING SET DAN TESTING SET 3 19

20 HASIL DAN PEMBAHASAN HASIL EKSEKUSI G-DT Set Akurasi Jumlah Aturan
Waktu Total (detik) Jumlah Iterasi 1 100.00% 20 14,906 2 58.62% 17 209,562 50 3 89.66% 25 320,938 4 15,031 5 21 15,109 6 14,937 7 22 14,578 8 19 14,985 9 14,938 10 15,344 mean 94.83% 20.8 20

21 HASIL DAN PEMBAHASAN PERSEBARAN DATA Set Training Set Testing Set
Negatif Positif 1 244 17 29 2 257 4 16 13 3 248 25 5 6 7 8 9 10 Total 261 21

22 58 kombinasi parameter dengan nilai fitness terbaik
HASIL DAN PEMBAHASAN UKURAN POPULASI = 10 58 kombinasi parameter dengan nilai fitness terbaik 12 kombinasi parameter dengan nilai fitness terbaik dan waktu eksekusi < 360 detik 3 kombinasi parameter yang terbaik untuk training set 3 (pengulangan 10 kali) 1 kombinasi parameter yang terbaik untuk training set 3 dan 2  parameter yang optimal bagi populasi 10 tingkat rekombinasi: 90% tingkat mutasi: 10% maksimum generasi: 50 22

23 HASIL DAN PEMBAHASAN UKURAN POPULASI = 30 & 50
Lebih lama dari ukuran populasi = 10 Besar nilai fitness terbaik tidak lebih baik daripada ukuran populasi = 10  Peningkatan ukuran populasi dan maksimum generasi tidak menghasilkan nilai fitness yang lebih baik 23

24 HASIL DAN PEMBAHASAN PARAMETER AG YANG OPTIMAL:
tingkat rekombinasi: 90%, tingkat mutasi: 10%, maksimum generasi: 50, dan ukuran populasi: 10. 24

25 TRAINING G-DT HASIL DAN PEMBAHASAN
Kriteria penentuan hasil training G-DT: nilai akurasi yang paling tinggi, jumlah aturan yang dihasil yang paling sering muncul (modus), dan waktu eksekusi yang paling cepat. 25

26 HASIL DAN PEMBAHASAN HASIL TRAINING DATA TRAINING SET 3 Set Akurasi
Waktu (detik) Jumlah Aturan 1 93.10% 324,594 28 (26 negatif, 2 positif) 2 328,766 26 (25 negatif, 1 positif) 3 310,985 21 (20 negatif, 1 positif) 4 321,031 25 (23 negatif, 2 positif) 5 89.66% 302,500 20 (19 negatif, 1 positif) 6 306,156 22 (20 negatif, 2 positif) 7 317,187 25 (24 negatif, 1 positif) 8 306,375 9 264,859 10 319,531 24 (23 negatif, 1 positif) 26

27 HASIL DAN PEMBAHASAN HASIL TRAINING G-DT TIAP TRAINING SET Set Akurasi
Jumlah Aturan Waktu Total (detik) 1 100.00% 26 (24 negatif, 2 positif) 15,031 2 62.07% 17 (16 negatif, 1 positif) 207,204 3 93.10% 21 (20 negatif, 1 positif) 271,484 4 25 (24 negatif, 1 positif) 15,563 5 23 (20 negatif, 3 positif) 15,188 6 27 (25 negatif, 2 positif) 15,063 7 22 (22 negatif, 0 positif) 14,797 8 20 (19 negatif, 1 positif) 14,625 9 15,016 10 23 (21 negatif, 2 positif) 15,485 mean 95.52% 22.6 27

28 HASIL DAN PEMBAHASAN PARAMETER TIDAK OPTIMAL VS PARAMETER OPTIMAL
Akurasi training set 2: 58.62% naik menjadi 62.07% Akurasi training set 3: 89.66% naik menjadi 93.10% Rata-rata akurasi parameter yang tidak optimal: 94.83%. Rata-rata akurasi parameter yang optimal: 95.52%.  Peningkatan rata-rata akurasi: 0.69%. 28

29 REPRESENTASI PENGETAHUAN
HASIL DAN PEMBAHASAN REPRESENTASI PENGETAHUAN Model yang dipilih dari hasil training: Mencakup semua kelas target. Akurasi yang paling tinggi. Jumlah aturan yang paling banyak. MODEL G-DT: 27 aturan (25: negatif dan 2: positif) [Model] [Tree] 29

30 PERBANDINGAN G-DT – FDT
HASIL DAN PEMBAHASAN PERBANDINGAN G-DT – FDT Nilai akurasi yang dihasilkan: Akurasi training set 2: 55.17% naik menjadi 62.07%. Akurasi training set 3: 82.76% naik menjadi 93.10%. Akurasi training set 7, trainng set 8, dan training set 10 naik menjadi 100%. Rata-rata nilai akurasi FDT: 90.69%. Rata-rata nilai akurasi G-DT: 95.52%.  Peningkatan rata-rata akurasi: 4.83%. 30

31 PERBANDINGAN G-DT – FDT
HASIL DAN PEMBAHASAN PERBANDINGAN G-DT – FDT Jumlah aturan yang dihasilkan: Sebagian besar jumlah aturan yang dihasilkan lebih rendah. Rata-rata jumlah aturan yang dihasilkan lebih rendah. 31

32 PERBANDINGAN G-DT – FDT
HASIL DAN PEMBAHASAN PERBANDINGAN G-DT – FDT Penyebab perbedaan jumlah aturan: Proses pembentukan tree berbeda. Jumlah himpunan fuzzy untuk atribut GLUN dan GPOST berbeda. G-DT: 3 himpunan fuzzy (rendah, sedang, tinggi) FDT: 4 himpunan fuzzy (rendah, sedang, tinggi, sangat tinggi) 32

33 PERBANDINGAN G-DT – FDT
HASIL DAN PEMBAHASAN PERBANDINGAN G-DT – FDT Model yang menjadi representasi pengetahuan: G-DT: 27 aturan (25: positif, 2: negatif). FDT: 30 aturan (29: positif, 1: negatif). 33

34 PERBANDINGAN G-DT – FDT
HASIL DAN PEMBAHASAN PERBANDINGAN G-DT – FDT Waktu eksekusi G-DT bisa lebih lama daripada FDT. Waktu eksekusi G-DT tergantung pada ukuran populasi dan maksimum generasi. Jika solusi diperoleh pada iterasi pertama, waktu eksekusi G-DT lebih cepat daripada FDT. 34

35 PERBANDINGAN G-DT – FDT
HASIL DAN PEMBAHASAN PERBANDINGAN G-DT – FDT Fungsi keanggotaan: G-DT: diperoleh dari hasil pembelajaran dengan algoritme genetika. FDT: telah diinisialisasi dari awal. 35

36 HASIL DAN PEMBAHASAN Fungsi keanggotaan untuk GLUN (G-DT): 36

37 HASIL DAN PEMBAHASAN Fungsi keanggotaan untuk GLUN (G-DT): 100 200 300
100 200 300 400 500 600 0.2 0.4 0.6 0.8 1 GLUN Derajat Keanggiotaan Rendah Sedang Tinggi 37

38 EVALUASI KINERJA G-DT HASIL DAN PEMBAHASAN
G-DT Berhasil meningkatkan akurasi. (FDT: 90.69% dan G-DT: 95.52%)  Rata-rata nilai akurasi G-DT meningkat sebesar 4.83% dari rata-rata nilai akurasi FDT 38

39 KESIMPULAN KESIMPULAN DAN SARAN
Algoritme genetika (AG) dapat digunakan untuk optimasi fuzzy decision tree (FDT) sehingga diperoleh genetically optimized fuzzy decison tree (G-DT). Rata-rata nilai akurasi G-DT meningkat sebesar 4.83% dari rata-rata nilai akurasi FDT (FDT: 90.69% dan G-DT: 95.52%). Parameter AG yang optimal yaitu: tingkat rekombinasi: 90%, tingkat mutasi: 10%, ukuran populasi: 10, dan maksimum generasi: 50. 39

40 KESIMPULAN KESIMPULAN DAN SARAN
Parameter AG yang optimal meningkatkan nilai akurasi: 0.69%. (tidak optimal: 94.83% dan optimal: 95.52%). Jumlah aturan yang diperoleh G-DT lebih rendah daripada jumlah aturan yang diperoleh FDT (FDT: 30 aturan (29 negatif, 1 positif) dan G-DT: 27 aturan (25 negatif dan 2 positif). 40

41 SARAN KESIMPULAN DAN SARAN Menggunakan data yang lebih representatif:
Data positif diabetes hanya 17 record dari 290 record  kurang representatif. Jumlah data positif dan negatif diabetes sama besar. 41

42 DAFTAR PUSTAKA Cox E Fuzzy Modeling and Genetic Algorithms for Data Mining and Exploration. USA: Morgan Kaufman Publishers. Fu L Neural Network In Computer Intelligence. Singapura: McGraw Hill. Han J, Kamber M Data Mining: Concepts and Techniques. USA: Morgan Kaufman Publishers. Jang JSR, Sun CT, Mizutani Eiji Neuro-Fuzzy and Soft Computing. London: Prentice-Hall International, Inc. Kantardzic M Data Mining: Concepts, Models, Methods, and Algorithms. Wiley-Interscience. Lawrence D Handbook of Genetic Algorithms. New york: Van Nostrand Reinhold. Liang G A Comparative Study of Three Decision Tree Algorithms: ID3, Fuzzy ID3 and Probabilistic Fuzzy ID3. Rotterdam: Informatic & Ecosnomics Eramus University Rotterdam. Marsala C Application of Fuzzy Rule Induction to Data Mining. France: University Pierre et Marie Curie. 42

43 DAFTAR PUSTAKA Michalewicz Z Genetic Algorithms + Data Structure = Evolution Programs. New York: Springer-Verlag Berlin Heidelberg. Pedryez W, Sosnowski ZA Genetically Optimized Fuzzy Decision Trees. IEEE Transactions on Systems, Man, and Cybernetics vol.35 no.3. Romansyah F Penerapan Teknik Klasifikasi dengan Metode Fuzzy Decision Tree dengan Algoritme ID3 pada Data Diabetes [Skripsi]. Bogor: Departemen Ilmu Komputer FMIPA IPB. 43

44 HASIL DAN PEMBAHASAN HASIL TRAINING FDT Set Akurasi Waktu (detik)
Waktu Total Jumlah Aturan 1 100.00% 0,750 21,625 29 (29 negatif, 0 positif) 2 55.17% 0,219 21,375 9 (9 negatif, 0 positif) 3 82.76% 0,562 21,500 23 (22 negatif, 1 positif) 4 0,735 21,657 5 0,782 21,703 30 (30 negatif, 0 positif) 6 0,828 21,906 31 (31 negatif, 0 positif) 7 86.66% 0,766 21,828 29 (27 negatif, 2 positif) 8 89.66% 21,719 29 (28 negatif, 1 positif) 9 21,797 10 93.10% 21,750 30 (29 negatif, 1 positif) mean 90.69% 27 44

45 PERBANDINGAN G-DT – FDT
HASIL DAN PEMBAHASAN PERBANDINGAN G-DT – FDT Fungsi keanggotaan untuk GLUN (FDT): 45

46 PERBANDINGAN G-DT – FDT
HASIL DAN PEMBAHASAN PERBANDINGAN G-DT – FDT Fungsi keanggotaan untuk GLUN (FDT): 100 200 300 400 500 600 0.2 0.4 0.6 0.8 1 Derajat Keanggotaan Rendah Sedang Tinggi Sangat Tinggi 46

47 HASIL DAN PEMBAHASAN Range normal Kode Pemeriksaan Satuan Nilai Normal
GLUN Mg/DL GPOST HDL TG 47


Download ppt "Pembimbing : Imas S. Sitanggang, S.Si, M.Kom Irman Hermadi, S.Kom, MS"

Presentasi serupa


Iklan oleh Google