Pohon Keputusan (Decision Tree)

Slides:



Advertisements
Presentasi serupa
Kesimpulan BUKU Data Mining
Advertisements

Fakultas Ilmu Komputer, Universitas Narotama
Minggu V Gerlan A. Manu, ST.,MKom - Algoritma Pemrograman I 1.
Diadaptasi dari slide Jiawei Han
Pengolahan Data Dan Prototyping
TINJAUAN UMUM DATA DAN STATISTIKA
PERTEMUAN ke-11 & 12: MODEL SEBARAN PERGERAKAN (GRAVITY)
Minggu lalu Decision tree Bayesian Classification Ujian.
Struktur Dasar Algoritma
Ujian Akhir Semester (UAS)
STRUKTUR DATA BINARY SEARCH TREE (POHON CARI BINER)
Algoritma Runut-balik (Backtracking)
TINJAUAN UMUM DATA DAN STATISTIKA
STATISTIKA INFERENSIA
Modul 1- Review Java.
EKUIVALENSI LOGIKA PERTEMUAN KE-7 OLEH: SUHARMAWAN, S.Pd., S.Kom.
MK: METODE ILMIAH DOSEN: SUTRISNO HADI PURNOMO.
Teknik Pengujian Perangkat Lunak
Pengantar Matematika Diskrit
TINJAUAN UMUM DATA DAN STATISTIKA
Struktur Kontrol: Keputusan
BAB 9 POHON.
Algoritma Runut-balik (Backtracking)
Populasi dan Sampel Widaningsih.
BAB 6 PERANCANGAN SISTEM secara umum
Penerapan BFS dan DFS pada Pencarian Solusi
ALGORITMA GENETIKA.
Oleh Sri Palupi MTP – IPB 2009
HEURISTIC SEARCH Presentation Part IV.
SISTEM PAKAR & KECERDASAN BUATAN
NoOUTLOKTEMPERATUREHUMIDITYWINDYPLAY 1SunnyHotHighFALSENo 2SunnyHotHighTRUENo 3CloudyHotHighFALSEYes 4RainyMildHighFALSEYes 5RainyCoolNormalFALSEYes 6RainyCoolNormalTRUEYes.
Pertemuan XII FUNGSI MAYOR Classification.
BAB 9 POHON.
Oleh : Devie Rosa Anamisa
Model penugasan (assignment model) kasus khusus dr model transportasi: sejumlah m sumber ditugaskan ke sejumlah n tujuan (satu sumber utk satu tujuan)
Decision Tree.
Algoritma-algoritma Data Mining Pertemuan XIV. Classification.
Data Mining Algoritma C4.5. Penjelasan metode Kelebihan dan kekurangan.
DATA MINING (Machine Learning)
Penerapan BFS dan DFS pada Pencarian Solusi
EPIDEMIOLOGI DESKTRIPTIF
Decision Tree.
Metode Pengembangan Partisipatif
STUDI KASUS KLASIFIKASI Algoritma C 4.5
Peran Utama Data Mining
Algoritma C4.5. Algoritma C4.5 Object-Oriented Programming Introduction Algoritma C4.5 merupakan algoritma yang digunakan.
Data Mining Junta Zeniarja, M.Kom, M.CS
Decision Tree Classification.
Decision Tree Classification.
Klasifikasi Berdasarkan Teorema Bayes
Klasifikasi.
Naïve Bayes Classification.
Pohon Keputusan (Decision Trees)
POHON KEPUTUSAN (DECISION TREE)
Naïve Bayes Classification.
Decision Tree.
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
MIK | FAKULTAS ILMU-ILMU KESEHATAN
Data Mining DATA SET. Set Data Ada bermacam –macam cara untuk merepresentasikan data, Misalnya, atribut yang digunakan untuk menggambarkan jenis objek.
KLASIFIKASI.
Penerapan BFS dan DFS pada Pencarian Solusi
Anggota Dwita Eprila ( ) Mayang Hermeiliza Eka Putri ( ) Nadiah Amelia ( ) Rafif Abdusalam ( ) Shofyan.
Perancangan Sistem Klasifikasi Masa Studi Mahasiswa Menggunakan Data Mining Berbasis Algoritma ID3 (Studi Kasus:Jurusan Teknik Komputer –Unikom) Oleh:
DATA PREPARATION Kompetensi
Decision Tree Pertemuan : 13.
DATA PREPARATION.
KLASIFIKASI.
© presentationgo.compresentationgo.com By:.com PROSES DAN TEKNIK PENGAMBILAN KEPUTUSAN OLEH : Ikrima M. Mustafa, S.Sos.,MM Your Logo FAKULTAS EKONOMI BISNIS.
Data Mining Classification.
Universitas Gunadarma
Transcript presentasi:

Pohon Keputusan (Decision Tree)

Overview Sbg gambaran/studi kasus: Dari 1.954 calon mhs yg diterima di PTS XYZ pada 2009-2010, 498 calon mhs mengundurkan diri. Hal tsb, artinya 25,5 % calon mhs yg mungkin potensial tdk mampu dipertahankan Salah satu cara utk melakukan analisis kemungkinan pengunduran diri seorang calon mhs baru adalah dengan melakukan klasifikasi dari kumpulan data calon mahasiswa yg ada. Salah satu model klasifikasi  Pohon keputusan

Pohon Keputusan (Algoritma C4.5) Merupakan metode klasifikasi dan prediksi yg sangat kuat dan terkenal Metodenya  mengubah fakta yg sangat besar menjadi pohon keputusan yg mempresentasikan aturan. Aturan tsb dpt dgn mudah dipahami dgn bahasa alami. Dpt pula diekspresikan dlm bentuk bhs basis data SQL utk mencari record pada kategori tertentu.

Pohon Keputusan (Algoritma C4.5) Pohon keputusan juga berguna utk: Mengeksplorasi data. Menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target. Sangat bagus sbg langkah awal dlm proses pemodelan bahkan ketika dijadikan sbg model akhir dari bbrp teknik lainnya.

Pohon Keputusan (Algoritma C4.5) Sebuah model pohon keputusan terdiri dari sekumpulan aturan utk membagi sejumlah populasi yg heterogen menjadi lebih kecil, lebih homogen dgn memperhatikan pada variabel tujuannya. Data pada pohon keputusan biasanya dinyatakan dalam bentuk tabel dengan atribut dan record Atribut menyatakan suatu parameter yg dibuat sbg kriteria dlm membentuk pohon

Pohon Keputusan (Algoritma C4.5) Contoh: Untuk menentukan bermain tenis atau tdk, kriteria yg diperlukan meliputi: Cuaca Angin Kelembaban Temperatur udara Salah satu atribut merupakan data solusi per item data yg disebut target atribut  misalnya atribut “play” dgn nilai “main” atau “tidk main” Atribut memiliki nilai2 yg dinamakan “instance” Misalkan atribut “Cuaca” memiliki instance  cerah, berawan, dan hujan.

Contoh Algoritma C4.5 No Outlook Temperature Humidity Windy Play 1 Sunny Hot High FALSE 2 TRUE 3 Cloudy Yes 4 Rainy Mild 5 Cool Normal 6 7 8 9 10 11 12 13 14

Contoh Bdsrk tabel diatas akan dibuat tabel keputusan utk menentukan main tenis atau tidak dgn melihat keadaan Outlook (cuaca), Temperatur, Humidity (kelembaban), dan windy (keadaan angin). Algoritma scr umum: Pilih atribut sbg akar Buat cabang utk tiap2 nilai Bagi kasus dalam cabang Ulangi proses utk setiap cabang sampai semua kasus pada cabang memiliki kelas yg sama Memilih atribut berdasarkan nilai “gain” tertinggi dari atribut2 yg ada.

Perhitungan Gain Gain (S,A) = Entropy (S) - ∑ * Entropy (Si) n Keterangan: S : himpunan A : atribut n : jumlah partisi atribut A l Si l : jumlah kasus pada partisi ke-i I S I : jumlah kasus dalam S │ Si │ │ S │

Menghitung nilai entropy n Entropy (S) = ∑ - pi * log2 pi i=1 Keterangan: S : himpunan kasus A : fitur n : jumlah partisi S pi : proporsi dari Si terhadap S

Perincian algoritma ( langkah 1) Menghitung jumlah kasus seluruhnya, jumlah berkeputusan “Yes” maupun “No” Menghitung Entropy dari semua kasus yg terbagi berdasarkan atribut “Outlook”, “Temperature”, “Humidity”, “Windy” Lakukan penghitungan Gain utk setiap atributnya

Perhitungan Node Jumlah Kasus (S) Tidak (S1) Ya (S2) Entropy Gain 1 14   Jumlah Kasus (S) Tidak (S1) Ya (S2) Entropy Gain 1 TOTAL 14 4 10 0,863120569 OUTLOOK 0,258521037 CLOUDY  0 RAINY 5 0,721928095 SUNNY 3 2 0,970950594 TEMPERATURE 0,183850925 COOL HOT MILD 6 0,918295834 HUMIDITY 0,370506501 HIGH 7 0,985228136 NORMAL WINDY 0,005977711 FALSE 8 0,811278124 TRUE

Perhitungan Total Entropy Node   Jumlah Kasus (S) Tidak (S1) Ya (S2) Entropy Gain 1 TOTAL 14 4 10 0,863120569 ... n Entropy (S) = ∑ - pi * log2 pi i=1 Entropy (Total) = - 4/14 * log2 (4/14)) + - 10/14 * log2 (10/14)) = 0,863120569

Menghitung gain pada baris “Outlook” Gain (Total, Outlook) n = Entropy(Total) - ∑ * Entropy(Outlooki) i=1 = 0,863120569 – ((4/14*0)+(5/14*0,72)+(5/14*0,97)) = 0,258521037 │ Outlooki │ │ Total │

Lakukan Hitung Gain utk temperature, humidity dan windy Spt yg terlihat pd tabel, diperoleh bhw atribut dgn Gain tertinggi adalah Humidity  0,37 Maka Humidity menjadi node akar Humidity memiliki dua nilai yaitu “High” dan “Normal” Humidity  “Normal” sdh mengklasifikasikan kasus menjadi 1 yaitu keputusannya “yes” Utk humidity  “High” msh perlu dilakukan perhitungn lagi (krn msh terdpt “yes” dan “no”)

Pohon keputusan node 1 Humidity HIGH NORMAL 1.1 ? YES

Perincian algoritma (Langkah 2) Pilih node akar “High” dan hitung: Jumlah kasus Jumlah kasus keputusan “Yes” Jumlah kasus keputusan “No” Entropy Atribut: Outlook Temperature Windy

Hasil perhitungan (Langkah 2) Node   Jumlah Kasus (S) Tidak (S1) Ya (S2) Entropy Gain 1.1 HUMIDITY HIGH 7 4 3 0,985228136 OUTLOOK 0,69951385 CLOUDY 2 RAINY 1 SUNNY TEMPERATURE 0,020244207 COOL HOT MILD WINDY FALSE TRUE 0,918295834

Hasil perhitungan (Langkah 2) Didapat Gain tertinggi  outlook  0,69 Maka “Outlook” menjadi node cabang dari atribut humidity yg bernilai “High” Berdasarkan atribut “Outlook” terdpt 3 nilai Cloudy Rainy Sunny Krn “Cloudy” pasti bernilai “Yes” dan “Sunny” pasti bernilai “No”, maka tdk perlu dilakukan perhitungan lagi Sedangkan “Rainy” bernilai “yes” dan “No”, maka masih perlu dilakukan perhitungan lagi

Pohon keputusan node 1.1 Humidity HIGH NORMAL 1.1 Outlook YES Cloudy Sunny Rainy 1.1 ? NO YES

Perincian algoritma (Langkah 3) Pilih node akar “Rainy” dan hitung: Jumlah kasus Jumlah kasus keputusan “Yes” Jumlah kasus keputusan “No” Entropy Atribut: Temperature Windy

Hasil perhitungan (Langkah 3) Node   Jumlah Kasus (S) Tidak (S1) Ya (S2) Entropy Gain 1.1 HUMIDITY “HIGH” dan OUTLOOK “RAINY” 2 1 TEMPERATURE COOL HOT MILD WINDY FALSE TRUE

Hasil perhitungan (Langkah 3) Didapat Gain tertinggi  Windy  1 Maka “Windy” menjadi node cabang dari atribut humidity yg bernilai “High” dan outlook yg bernilai “Rainy” Berdasarkan atribut “Windy” terdpt 2 nilai True False Krn “True” sdh terklasifikasi pasti bernilai “No” dan “False” pasti bernilai “Yes”, maka tdk perlu dilakukan perhitungan lagi

Pohon keputusan node 1.1.2 Humidity HIGH NORMAL 1.1 Outlook YES Cloudy Rainy Sunny 1.1.2 Windy NO YES False True YES NO

Hasil perhitungan (Langkah 3) Berdasarkan node 1.1.2, maka: “Semua kasus sdh masuk dpt kelas” Sehingga pohon keputusan diatas merupakan pohon keputusan terakhir yang terbentuk

Macam Algoritma Decison tree Selain Algoritma C4.5, terdapat: ID3  merupakan pengembangan C4.5 CART

Selesai