Data Mining Classification
Decision Tree Proses pada Decision Tree adalah mengubah bentuk data (tabel) menjadi bentuk Tree, Mengubah Tree menjadi Rule, dan menyederhanakan rule(basuki&syarif,2003)
Decision Tree Metode Decision Tree mengubah fakta yang sangat besar menjadi decision Tree yang merepresentasikan aturan. Sebuah Decision Tree adalah struktur yang dapat digunakan untuk membagi data yang besar menjadi himpunan-himpunan record yang lebih kecil dengan menerapkan serangkaian aturan keputusan. (Berry & Linoff)
Algoritma C4.5 Algoritma yang digunakan untuk pembentukan Decision Tree diantaranya: ID3,CART,C4.5 Algoritma C4.5 merupakan pengembangan dari ID3
Contoh kasus 1 2 3 4 5 6 7 8 9 10 11 12 13 14 NO OUTLOOK TEMPERATUR HUMIDITY WINDY PLAY 1 Sunny Hot High FALSE 2 TRUE 3 Cloudy YES 4 Rainy Mild 5 Cool Normal 6 7 8 9 10 11 12 13 14
Algoritma C4.5 Pilih atribut sebagai akar Buat cabang untuk tiap-tiap nilai Bagi kasus dalam cabang Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki kelas yang sama
Gain n Gain(S,A)=Entropy(S) - ∑ |Si| * Entropy(Si) i=1 |S| S: Himpunan kasus A: Atribut n : jml partisi atribut a |Si| : jml kasus pada partisi ke-I |S| : jml kasus dlm S
Entropy n Entropy(S)= ∑ - pi * log2 pi i=1 S : himpunan kasus n: jml partisi S Pi= proporsi dari Si terhadap S
Meringkas JML Kasus 1 2 3 4 5 6 7 8 9 10 11 12 13 14 NO OUTLOOK TEMPERATUR HUMIDITY WINDY PLAY 1 Sunny Hot High FALSE 2 TRUE 3 Cloudy YES 4 Rainy Mild 5 Cool Normal 6 7 8 9 10 11 12 13 14 JML NO YES Kasus TOTAL OUTLOOK Cloudy Rainy Sunny TEMPERATUR Cool Hot Mild HUMIDITY High Normal WINDY FALSE TRUE
Menghitung Entropy Total Node1 Node JML NO YES Entropy Gain Kasus 1 TOTAL 14 4 10 0.863121 OUTLOOK Cloudy Rainy 5 Sunny 3 2 TEMPERATUR Cool Hot Mild 6 HUMIDITY High 7 Normal WINDY FALSE 8 TRUE n Entropy(S)= ∑ - pi * log2 pi i=1 Entropy(Total)=(-4/14*log2(4/14))+ (-10/14 * log2(10/14)) Entropy(Total)=0.863121
Menghitung Gain n Gain(S,A)=Entropy(S - ∑ |Si| * Entropy(Si) i=1 |S| Node JML NO YES Entropy Gain Kasus 1 TOTAL 14 4 10 0.8631206 OUTLOOK 0.23 Cloudy Rainy 5 0.7219281 Sunny 3 2 0.9709506 TEMPERATUR Cool Hot Mild 6 0.9182958 HUMIDITY High 7 0.9852281 Normal WINDY FALSE 8 0.8112781 TRUE n Gain(S,A)=Entropy(S - ∑ |Si| * Entropy(Si) i=1 |S| Gain(Total,OutLook)= Entropy(Total) – n ∑ |OutLook| * Entropy(OutLook) i=1 |Total| Gain(Total,OutLook)= 0.8631206 – ((4/14*0)+(5/14*0.722)+(5/14*0.97)) Gain(Total,OutLook)=0.23
Memilih Atribut sebagai Akar Node JML NO YES Entropy Gain Kasus 1 TOTAL 14 4 10 0.863121 OUTLOOK 0.258521 Cloudy Rainy 5 0.721928 Sunny 3 2 0.970951 TEMPERATUR 0.183851 Cool Hot Mild 6 0.918296 HUMIDITY 0.370507 High 7 0.985228 Normal WINDY 0.005978 FALSE 8 0.811278 TRUE 1 HUMIDITY Normal High 1.1 YES
3 12 4 14 1 2 8 7 13 5 6 10 9 11 NO OUTLOOK TEMPERATUR HUMIDITY WINDY PLAY 3 Cloudy Hot High FALSE YES 12 Mild TRUE 4 Rainy 14 1 Sunny 2 8 7 Cool Normal 13 5 6 10 9 11
Memilih Atribut sebagai Node 1.1 JML NO YES Entropy Gain Kasus 1.1 HUMIDITY-HIGH 7 4 3 0.985228 OUTLOOK 0.699514 Cloudy 2 Rainy 1 Sunny TEMPERATUR 0.020244 Cool Hot 0.918296 Mild WINDY FALSE TRUE 1 HUMIDITY High Normal 1.1 OUTLOOK YES Sunny Cloudy Rainy YES 1.1.2 NO
Memilih Atribut sebagai Node 1.1.2 HUMIDITY Node JML NO YES Entropy Gain Kasus 1.1.2 HUMIDITY-HIGH &OUTLOOK RAINY 2 1 TEMPERATUR Cool Hot Mild WINDY FALSE TRUE High Normal 1.1 OUTLOOK YES Sunny Cloudy YES 1.1.2 WINDY NO False True YES NO