Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

Pohon Keputusan (Decision Tree). Overview • Sbg gambaran/studi kasus: – Dari 1.954 calon mhs yg diterima di PTS XYZ pada 2009-2010, 498 calon mhs mengundurkan.

Presentasi serupa


Presentasi berjudul: "Pohon Keputusan (Decision Tree). Overview • Sbg gambaran/studi kasus: – Dari 1.954 calon mhs yg diterima di PTS XYZ pada 2009-2010, 498 calon mhs mengundurkan."— Transcript presentasi:

1 Pohon Keputusan (Decision Tree)

2 Overview • Sbg gambaran/studi kasus: – Dari calon mhs yg diterima di PTS XYZ pada , 498 calon mhs mengundurkan diri. – Hal tsb, artinya 25,5 % calon mhs yg mungkin potensial tdk mampu dipertahankan – Salah satu cara utk melakukan analisis kemungkinan pengunduran diri seorang calon mhs baru adalah dengan melakukan klasifikasi dari kumpulan data calon mahasiswa yg ada. • Salah satu model klasifikasi  Pohon keputusan

3 Pohon Keputusan (Algoritma C4.5) • Merupakan metode klasifikasi dan prediksi yg sangat kuat dan terkenal • Metodenya  mengubah fakta yg sangat besar menjadi pohon keputusan yg mempresentasikan aturan. • Aturan tsb dpt dgn mudah dipahami dgn bahasa alami. • Dpt pula diekspresikan dlm bentuk bhs basis data SQL utk mencari record pada kategori tertentu.

4 Pohon Keputusan (Algoritma C4.5) • Pohon keputusan juga berguna utk: – Mengeksplorasi data. – Menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target. • Sangat bagus sbg langkah awal dlm proses pemodelan bahkan ketika dijadikan sbg model akhir dari bbrp teknik lainnya.

5 Pohon Keputusan (Algoritma C4.5) • Sebuah model pohon keputusan terdiri dari sekumpulan aturan utk membagi sejumlah populasi yg heterogen menjadi lebih kecil, lebih homogen dgn memperhatikan pada variabel tujuannya. • Data pada pohon keputusan biasanya dinyatakan dalam bentuk tabel dengan atribut dan record • Atribut menyatakan suatu parameter yg dibuat sbg kriteria dlm membentuk pohon

6 Pohon Keputusan (Algoritma C4.5) Contoh: • Untuk menentukan bermain tenis atau tdk, kriteria yg diperlukan meliputi: – Cuaca – Angin – Kelembaban – Temperatur udara • Salah satu atribut merupakan data solusi per item data yg disebut target atribut  misalnya atribut “play” dgn nilai “main” atau “tidk main” • Atribut memiliki nilai2 yg dinamakan “instance” • Misalkan atribut “Cuaca” memiliki instance  cerah, berawan, dan hujan.

7 Contoh Algoritma C4.5 NoOutlookTemperatureHumidityWindyPlay 1SunnyHotHighFALSENo 2SunnyHotHighTRUENo 3CloudyHotHighFALSEYes 4RainyMildHighFALSEYes 5RainyCoolNormalFALSEYes 6RainyCoolNormalTRUEYes 7CloudyCoolNormalTRUEYes 8SunnyMildHighFALSENo 9SunnyCoolNormalFALSEYes 10RainyMildNormalFALSEYes 11SunnyMildNormalTRUEYes 12CloudyMildHighTRUEYes 13CloudyHotNormalFALSEYes 14RainyMildHighTRUENo

8 Contoh • Bdsrk tabel diatas akan dibuat tabel keputusan utk menentukan main tenis atau tidak dgn melihat keadaan Outlook (cuaca), Temperatur, Humidity (kelembaban), dan windy (keadaan angin). • Algoritma scr umum: – Pilih atribut sbg akar – Buat cabang utk tiap2 nilai – Bagi kasus dalam cabang – Ulangi proses utk setiap cabang sampai semua kasus pada cabang memiliki kelas yg sama • Memilih atribut berdasarkan nilai “gain” tertinggi dari atribut2 yg ada.

9 Perhitungan Gain n Gain (S,A) = Entropy (S) - ∑ * Entropy (Si) i=1 • Keterangan: – S : himpunan – A : atribut – n : jumlah partisi atribut A – l Si l : jumlah kasus pada partisi ke-i – I S I : jumlah kasus dalam S │ Si │ │ S │

10 Menghitung nilai entropy n Entropy (S) = ∑ - pi * log 2 pi i=1 Keterangan: S : himpunan kasus A : fitur n : jumlah partisi S pi : proporsi dari Si terhadap S

11 Perincian algoritma ( langkah 1) • Menghitung jumlah kasus seluruhnya, jumlah berkeputusan “Yes” maupun “No” • Menghitung Entropy dari semua kasus yg terbagi berdasarkan atribut “Outlook”, “Temperature”, “Humidity”, “Windy” • Lakukan penghitungan Gain utk setiap atributnya

12 Perhitungan Node Jumlah Kasus (S) Tidak (S 1 )Ya (S 2 )EntropyGain 1 TOTAL , OUTLOOK 0, CLOUDY404 0 RAINY5140, SUNNY5320, TEMPERATURE 0, COOL4040 HOT4221 MILD6240, HUMIDITY 0, HIGH7430, NORMAL7070 WINDY 0, FALSE8260, TRUE6240,

13 Perhitungan Total Entropy n Entropy (S) = ∑ - pi * log 2 pi i=1 Entropy (Total) = - 4/14 * log 2 (4/14)) /14 * log 2 (10/14)) = 0, Node Jumlah Kasus (S) Tidak (S 1 )Ya (S 2 )EntropyGain 1 TOTAL ,

14 Menghitung gain pada baris “Outlook” Gain (Total, Outlook) n = Entropy(Total) - ∑ * Entropy(Outlook i ) i=1 = 0, – ((4/14*0)+(5/14*0,72)+(5/14*0,97)) = 0, │ Outlook i │ │ Total │

15 Lakukan Hitung Gain utk temperature, humidity dan windy • Spt yg terlihat pd tabel, diperoleh bhw atribut dgn Gain tertinggi adalah Humidity  0,37 • Maka Humidity menjadi node akar • Humidity memiliki dua nilai yaitu “High” dan “Normal” • Humidity  “Normal” sdh mengklasifikasikan kasus menjadi 1 yaitu keputusannya “yes” • Utk humidity  “High” msh perlu dilakukan perhitungn lagi (krn msh terdpt “yes” dan “no”)

16 Pohon keputusan node 1 Humidity 1.1 ? YES NORMALHIGH

17 Perincian algoritma (Langkah 2) • Pilih node akar “High” dan hitung: – Jumlah kasus – Jumlah kasus keputusan “Yes” – Jumlah kasus keputusan “No” – Entropy Atribut: • Outlook • Temperature • Windy

18 Node Jumlah Kasus (S) Tidak (S 1 ) Ya (S 2 ) EntropyGain 1.1HUMIDITY HIGH 7430, OUTLOOK 0, CLOUDY2020 RAINY2111 SUNNY3300 TEMPERATURE 0, COOL0000 HOT3211 MILD4222 WINDY 0, FALSE4221 TRUE3210, Hasil perhitungan (Langkah 2)

19 • Didapat Gain tertinggi  outlook  0,69 • Maka “Outlook” menjadi node cabang dari atribut humidity yg bernilai “High” • Berdasarkan atribut “Outlook” terdpt 3 nilai – Cloudy – Rainy – Sunny • Krn “Cloudy” pasti bernilai “Yes” dan “Sunny” pasti bernilai “No”, maka tdk perlu dilakukan perhitungan lagi • Sedangkan “Rainy” bernilai “yes” dan “No”, maka masih perlu dilakukan perhitungan lagi

20 Pohon keputusan node 1.1 Humidity 1.1 Outlook YES NORMAL HIGH 1.1 ? YES NO Cloudy Rainy Sunny

21 Perincian algoritma (Langkah 3) • Pilih node akar “Rainy” dan hitung: – Jumlah kasus – Jumlah kasus keputusan “Yes” – Jumlah kasus keputusan “No” – Entropy Atribut: • Temperature • Windy

22 Node Jumlah Kasus (S) Tidak (S 1 ) Ya (S 2 ) EntropyGain 1.1 HUMIDITY “HIGH” dan OUTLOOK “RAINY” 2111 TEMPERATURE 0 COOL 0000 HOT 0000 MILD 2111 WINDY 1 FALSE 1010 TRUE 1100 Hasil perhitungan (Langkah 3)

23 • Didapat Gain tertinggi  Windy  1 • Maka “Windy” menjadi node cabang dari atribut humidity yg bernilai “High” dan outlook yg bernilai “Rainy” • Berdasarkan atribut “Windy” terdpt 2 nilai – True – False • Krn “True” sdh terklasifikasi pasti bernilai “No” dan “False” pasti bernilai “Yes”, maka tdk perlu dilakukan perhitungan lagi

24 Pohon keputusan node Humidity 1.1 Outlook YES NORMAL HIGH Windy YES NO Cloudy Rainy Sunny YESNO TrueFalse

25 • Berdasarkan node 1.1.2, maka: “Semua kasus sdh masuk dpt kelas” • Sehingga pohon keputusan diatas merupakan pohon keputusan terakhir yang terbentuk Hasil perhitungan (Langkah 3)

26 Macam Algoritma Decison tree Selain Algoritma C4.5, terdapat: • ID3  merupakan pengembangan C4.5 • CART

27 Selesai


Download ppt "Pohon Keputusan (Decision Tree). Overview • Sbg gambaran/studi kasus: – Dari 1.954 calon mhs yg diterima di PTS XYZ pada 2009-2010, 498 calon mhs mengundurkan."

Presentasi serupa


Iklan oleh Google