Data Mining Junta Zeniarja, M.Kom, M.CS junta@dsn.dinus.ac.id.

Slides:



Advertisements
Presentasi serupa
Pohon Keputusan (Decision Tree)
Advertisements

Pemrograman Dasar IS – 104 Introduction. Perkenalan • Nama: Yosua Timotius Kipling • • Tujuan perkuliahan: Mengenal konsep.
Diadaptasi dari slide Jiawei Han
Peran Utama Data Mining
Ujian Akhir Semester (UAS)
DATA MINING 1.
HEALTHCARE DATAMINING
Algoritma Data Mining Object-Oriented Programming Algoritma Data Mining
Chapter 9 ALGORITME Cluster dan WEKA
NoOUTLOKTEMPERATUREHUMIDITYWINDYPLAY 1SunnyHotHighFALSENo 2SunnyHotHighTRUENo 3CloudyHotHighFALSEYes 4RainyMildHighFALSEYes 5RainyCoolNormalFALSEYes 6RainyCoolNormalTRUEYes.
Pertemuan XII FUNGSI MAYOR Classification.
Oleh : Devie Rosa Anamisa
Decision Tree.
Data Mining Algoritma C4.5. Penjelasan metode Kelebihan dan kekurangan.
Junta Zeniarja, M.Kom, M.CS
DATA MINING (Machine Learning)
Data mining ABU SALAM, M.KOM.
Sistem Berbasis Fuzzy Materi 4
Data Mining Junta Zeniarja, M.Kom, M.CS
Data Mining Junta Zeniarja, M.Kom, M.CS
Decision Tree.
Chi Square.
STUDI KASUS KLASIFIKASI Algoritma C 4.5
FIKRI FADLILLAH, S.T., MMSI
MUHAMMAD RAFI MUTTAQIN G
Peran Utama Data Mining
Martin Budi G Di Bawah Bimbingan Rindang Karyadin, S.T., M.Kom.
PEMBUATAN POHON KEPUTUSAN
Algoritma C4.5. Algoritma C4.5 Object-Oriented Programming Introduction Algoritma C4.5 merupakan algoritma yang digunakan.
Data Mining.
Decision Tree Classification.
Decision Tree Classification.
Pengantar GIS Pengenalan GIS By: Junta Zeniarja, M.Kom, M.CS.
Operations Management
Konsep Data Mining Ana Kurniawati.
PARADIGMA PEMROGRAMAN
Data Mining Yohana Nugraheni, S.Kom, MT
Data Mining Junta Zeniarja, M.Kom, M.CS
Klasifikasi Berdasarkan Teorema Bayes
Clustering Best Practice
Disiplin Ilmu, Metode Penelitian, Computing Method
Naïve Bayes Classification.
Pohon Keputusan (Decision Trees)
DASAR PEMROGRAMAN [Teori] pertemuan 1
Naïve Bayes Classification.
Decision Tree.
Analisis Klastering K-Means Model Datamining Kelompok 1 Eko Suryana
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
Klasifikasi Nearest Neighbor
MIK | FAKULTAS ILMU-ILMU KESEHATAN
Data Mining DATA SET. Set Data Ada bermacam –macam cara untuk merepresentasikan data, Misalnya, atribut yang digunakan untuk menggambarkan jenis objek.
KLASIFIKASI.
Object-Oriented Programming Data Mining Romi Satria Wahono
Anggota Dwita Eprila ( ) Mayang Hermeiliza Eka Putri ( ) Nadiah Amelia ( ) Rafif Abdusalam ( ) Shofyan.
Perancangan Sistem Klasifikasi Masa Studi Mahasiswa Menggunakan Data Mining Berbasis Algoritma ID3 (Studi Kasus:Jurusan Teknik Komputer –Unikom) Oleh:
Konsep Aplikasi Data Mining
DATA PREPARATION Kompetensi
Konsep Aplikasi Data Mining
Decision Tree Pertemuan : 13.
Linier Programming METODE SIMPLEKS 6/30/2015.
Operations Management
DATA PREPARATION.
Konsep Data Mining Ana Kurniawati.
Information Retrieval “Document Classification dengan Naive Bayes”
Pertemuan 10.
Data Mining Classification.
Universitas Gunadarma
Universitas Gunadarma
Universitas Gunadarma
Intro Algoritma K-Nearest Neighbor (K- NN) adalah sebuah metode klasifikasi terhadap sekumpulan data maupun dokumen berdasarkan pembelajaran  data yang.
Transcript presentasi:

Data Mining Junta Zeniarja, M.Kom, M.CS junta@dsn.dinus.ac.id

Profil Nama : Junta Zeniarja, M.Kom, M.CS Alamat : Permata Tembalang, Dendronium 25 Kontak Phone : 085727181701 E-mail : junta@dsn.dinus.ac.id Room : D.2.F Pendidikan S1 => TI – UDINUS S2 => TI – UDINUS S2 => Computer Science UTeM (Universiti Teknikal Malaysia Melaka) Konsultasi - Sharing 1:00 pm – 3:00 pm, Senin, Selasa dan Kamis. Appointment via phone or e-mail preferred

Textbooks

Outline Algoritma Data Mining Algoritma C4.5 Algoritma Nearest Neighbor Algoritma Apriori Algoritma Fuzzy C Means Bayesian Classification

Algoritma C4.5

romi@romisatriawahono.net Object-Oriented Programming Introduction Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan (Decision Tree). Pohon keputusan merupakan metode klasifikasi dan prediksi yang terkenal. Pohon keputusan berguna untuk mengekspolari data, menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target. http://romisatriawahono.net

Varian Algoritma Pohon Keputusan romi@romisatriawahono.net Object-Oriented Programming Varian Algoritma Pohon Keputusan Banyak algoritma yang dapat dipakai dalam pembentukan pohon keputusan, antara lain : ID3, CART, dan C4.5 (Larose, 2005). Algoritma C4.5 merupakan pengembangan dari algoritma ID3 (Larose, 2005). Proses pada pohon keputusan adalah mengubah bentuk data (tabel) menjadi model pohon, mengubah model pohon menjadi rule, dan menyederhanakan rule (Basuki & Syarif, 2003). http://romisatriawahono.net

Contoh Data Keputusan Bermain Tenis NO OUTLOOK TEMPERATURE HUMIDITY WINDY PLAY 1 Sunny Hot High FALSE No 2 TRUE 3 Cloudy Yes 4 Rainy Mild 5 Cool Normal 6 7 8 9 10 11 12 13 14

Algoritma C4.5 (1) Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut : Pilih atribut sebagai akar. Buat cabang untuk tiap-tiap nilai. Bagi kasus dalam cabang. Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki kelas yang sama.

Untuk menghitung gain digunakan rumus : Algoritma C4.5 (2) Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada. Untuk menghitung gain digunakan rumus : 𝐺𝑎𝑖𝑛 𝑆,𝐴 =𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑆 − 𝑖=1 𝑛 𝑆 𝑖 𝑆 ∗𝐸𝑛𝑡𝑟𝑜𝑝𝑦 ( 𝑆 𝑖 ) Keterangan : S : himpunan kasus A : atribut n : jumlah partisi atribut A |Si| : jumlah kasus pada partisi ke-i |S| : jumlah kasus dalam S

Algoritma C4.5 (3) Untuk perhitungan nilai entropi sbb : 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑆 = 𝑖=1 𝑛 − 𝑝𝑖∗ 𝑙𝑜𝑔 2 𝑝𝑖 Keterangan : S : himpunan kasus. A : fitur. n : jumlah partisi S. pi : proporsi dari Si terhadap S

Langkah 1 Menghitung jumlah kasus, jumlah kasus untuk keputusan Yes, jumlah kasus untuk keputusan No, dan Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut OUTLOOK, TEMPERATURE, HUMIDITY, dan WINDY. Setelah itu lakukan perhitungan Gain untuk setiap atribut. Hasil perhitungan ditunjukan di bawah ini.

Perhitungan Node 1

Cara Perhitungan Node 1 (1) Baris total kolom Entropy dihitung dengan persamaan: 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑇𝑜𝑡𝑎𝑙 = − 4 14 ∗ 𝑙𝑜𝑔 2 4 14 + − 10 14 ∗ 𝑙𝑜𝑔 2 10 14 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑇𝑜𝑡𝑎𝑙 =0,863120569

Cara Perhitungan Node 1 (2) Nilai gain pada baris OUTLOOK dihitung : 𝐺𝑎𝑖𝑛 𝑇𝑜𝑡𝑎𝑙,𝑂𝑢𝑡𝑙𝑜𝑜𝑘 =𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑇𝑜𝑡𝑎𝑙 − 𝑖=1 𝑛 𝑂𝑢𝑡𝑙𝑜𝑜𝑘 𝑖 𝑇𝑜𝑡𝑎𝑙 ∗𝐸𝑛𝑡𝑟𝑜𝑝𝑦 ( 𝑂𝑢𝑡𝑙𝑜𝑜𝑘 𝑖 ) 𝐺𝑎𝑖𝑛 𝑇𝑜𝑡𝑎𝑙,𝑂𝑢𝑡𝑙𝑜𝑜𝑘 =0.863120569 − 4 14 ∗0 + 5 14 ∗0.723 + 5 14 ∗0.97 𝐺𝑎𝑖𝑛 𝑇𝑜𝑡𝑎𝑙,𝑂𝑢𝑡𝑙𝑜𝑜𝑘 =0.23

Cara Perhitungan Node 1 (3) Dari hasil diketahui bahwa atribut dengan gain tertinggi adalah HUMIDITY yaitu sebesar 0.37. Sehingga HUMIDITY dapat menjadi node akar. Ada dua nilai atibut dari HUMIDITY, yaitu HIGH dan NORMAL. Nilai atribut NORMAL sudah mengklasifikasikan kasus menjadi 1, yaitu keputusannya Yes, sehingga tidak perlu dilakukan perhitungan lebih lanjut. Tetapi untuk nilai HIGH masih perlu dilakukan perhitungan lagi. 1 Humi dity Yes 1.1 ? High Normal

Langkah 2 Menghitung jumlah kasus, jumlah kasus untuk keputusan Yes, jumlah kasus untuk keputusan No. Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut OUTLOOK, TEMPERATURE dan WINDY, yang dapat menjadi node akar dari nilai atribut HIGH. Setelah itu lakukan perhitungan Gain, untuk tiap-tiap atribut.

Perhitungan Node 1.1

Cara Perhitungan Node 1.1 (1) Atribut dengan Gain tertinggi adalah OUTLOOK, yaitu sebesar 0.6995. Sehingga OUTLOOK dapat menjadi node cabang dari nilai atribut HIGH. Ada tiga nilai dari atribut OUTLOOK yaitu CLOUDY, RAINY dan SUNNY. CLOUDY => klasifikasi kasus 1 (Yes) SUNNY => klasifikasi kasus 1 (No) RAINY => masih perlu perhitungan lagi.

Cara Perhitungan Node 1.1 (2) Humi dity Yes 1.1 Out look High Normal No 1.1.2 ? Cloudy Rainy Sunny

Langkah 3 Menghitung jumlah kasus, jumlah kasus untuk keputusan Yes, jumlah kasus untuk keputusan No. Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut TEMPERATURE dan WINDY, yang dapat menjadi node cabang dari nilai atribut RAINY. Setelah itu lakukan perhitungan Gain, untuk tiap-tiap atribut.

Perhitungan Node 1.1.2

Cara Perhitungan Node 1.1.2 (1) Atribut dengan Gain tertinggi adalah WINDY, yaitu sebesar 1. Sehingga WINDY dapat menjadi node cabang dari nilai atribut RAINY. Ada dua nilai dari atribut WINDY, yaitu FALSE dan TRUE. Nilai atribut FALSE sudah mengklasifikasikan kasus menjadi 1 (Yes). Nilai atribut TRUE sudah mengklasifikasikan kasus menjadi 1 (No). Sehingga tidak perlu dilakukan perhitungan lagi.

Cara Perhitungan Node 1.1.2 (2) Humi dity High Normal 1.1 Out look Yes Cloudy Rainy Sunny Yes 1.1.2 Windy No False True Yes No

romi@romisatriawahono.net Object-Oriented Programming Referensi Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: Practical Machine Learning Tools and Techniques 3rd Edition, Elsevier, 2011 Kusrini, Taufiq Emha, Algoritma Data Mining, Penerbit Andi, 2009 http://romisatriawahono.net