PEMBUATAN POHON KEPUTUSAN

Slides:



Advertisements
Presentasi serupa
Diadaptasi dari slide Jiawei Han
Advertisements

DATA MINING 1.
Chapter 11 k- Fold Cross Validation
Chapter 9 ALGORITME Cluster dan WEKA
Data Mining.
for further detail, please visit
Data Mining: Klasifikasi dan Prediksi Naive Bayesian & Bayesian Network . April 13, 2017.
DATA MINING (Machine Learning)
Pembangunan Data Warehouse dan Aplikasi OLAP untuk Data PPMB IPB Menggunakan Palo Abi Herlambang G
2. Data & Proses Datamining
Data Mining Junta Zeniarja, M.Kom, M.CS
Oleh : Napthalena G Pembimbing : Imas S. Sitanggang, S.Si, M.Kom
Decision Tree.
Pembuatan Spatial Decision Tree Menggunakan Algoritme NBTree untuk Persebaran Hotspot di Provinsi Riau Pritasari Palupiningsih G Pembimbing : Imas.
Rizki Pebuardi G Pembimbing : 1. Ir. Agus Buono, M.Si., M.Kom.
Pembimbing : Imas S. Sitanggang, S.Si, M.Kom Irman Hermadi, S.Kom, MS
Klasifikasi Data Mining.
Seminar Ganang Mahendra B G Mei 2009.
Gananda Hayardisi G Komisi Pembimbing Imas S. Sitanggang, S.Si, M.Kom.
Oleh: Tri Endah Wijayanti G
Oleh : Desca Marwan Toni (G )
OLEH : HANDAYANI RETNO SUMINAR G PEMBIMBING :
K-SUPPORT VECTOR NEAREST NEIGHBOR UNTUK KLASIFIKASI BERBASIS K-NN
PEMBANDINGAN KINERJA JEDOX PALO VERSI 1. 0c DENGAN VERSI 2
STUDI KASUS KLASIFIKASI Algoritma C 4.5
Skripsi Judul Oleh : Dosen Pembimbing : Program Studi Pendidikan Fisika Fakultas Keguruan dan Ilmu.
Oleh: Aditya Nugroho G Dibimbing Oleh: Ir. Agus Buono, M.Si., M.Kom.
Oleh: Ineza Nur Oktabroni (G )
IMPLEMENTASI ALGORITME DAMERAU-LEVENSHTEIN UNTUK KOREKSI EJAAN QUERY BAHASA INDONESIA PADA SEARCH ENGINE     Oleh: Utis Sutisna G  
Penambahan Operasi OLAP dan Fungsi Agregat pada Temporal Data Warehouse Tanaman Pangan Kabupaten Karo Oleh : Karina Gusriani – G Pembimbing : Ibu.
MUHAMMAD RAFI MUTTAQIN G
Metode Cluster Self-Organizing Map untuk Temu Kembali Citra
Pembimbing: Henri Harianja G Imas S. Sitanggang, S.Si M.Kom
Martin Budi G Di Bawah Bimbingan Rindang Karyadin, S.T., M.Kom.
Imas S Sitanggang, S.Si, M.Kom
Algoritma C4.5. Algoritma C4.5 Object-Oriented Programming Introduction Algoritma C4.5 merupakan algoritma yang digunakan.
Data Mining Junta Zeniarja, M.Kom, M.CS
Decision Tree Classification.
Decision Tree Classification.
Pengaruh incomplete data terhadap
Konsep Data Mining Ana Kurniawati.
Firman Ardiansyah, S.Kom, M.Si. Imas S. Sitanggang, S.Si., M.Kom
Clustering.
Ir. Julio Adisantoso, M.Kom.
Pohon Keputusan (Decision Trees)
Business Intelligent Ramos Somya, S.Kom., M.Cs.
Deteksi Spatial Outliers pada Data hasil PILKADA Kota Bogor
Sistem Identifikasi Dialek Seseorang Menggunakan Mel-Frequency Ceptrums Coefficients (MFCC) dan Self Organizing Map (SOM). SAMAD | .RAKHA M | BUNGA DEPARTEMEN.
Mata Kuliah Analisa Perancangan Sistem Informasi
PROGRAM STUDI SISTEM INFORMASI TEKNIK INFORMATIKA
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
Data Mining-1.
MIK | FAKULTAS ILMU-ILMU KESEHATAN
DATA MINING with W E K A.
KLASIFIKASI.
Data PreProcessing (Praproses Data)
Anggota Dwita Eprila ( ) Mayang Hermeiliza Eka Putri ( ) Nadiah Amelia ( ) Rafif Abdusalam ( ) Shofyan.
Perancangan Sistem Klasifikasi Masa Studi Mahasiswa Menggunakan Data Mining Berbasis Algoritma ID3 (Studi Kasus:Jurusan Teknik Komputer –Unikom) Oleh:
Konsep Aplikasi Data Mining
Pembimbing : Aziz Kustiyo, S.Si., M.Kom. Endang Purnama Giri, S.Kom.
Yaghi Amanda Permana G Pembimbing : Hari Agung Adrianto, S.Kom, M.Si
K-MEANS ALGORITHM CLUSTERING
Konsep Data Mining Ana Kurniawati.
Implementasi clustering K-MEANS (dengan IRIS dataset)
Pertemuan 10.
Konsep Aplikasi Data Mining
Penelitian Pendahuluan Pembatasan Penelitian Dimensi Penelitian
Data Mining Classification.
Universitas Gunadarma
Transcript presentasi:

PEMBUATAN POHON KEPUTUSAN PERBANDINGAN METODE DISKRETISASI DATA PARTISI INTUITIF DAN CLUSTERING TERHADAP PEMBUATAN POHON KEPUTUSAN Disusun Oleh : Liesca Levy S (G64101069) Pembimbing : Imas S. Sitanggang, S.Si, M.Kom

Pendahuluan Pendahuluan Tinjauan Pustaka Metode Penelitian Hasil dan pembahasan Kesimpulan

Pendahuluan Latar Belakang Teknologi komputasi dan pengumpulan data semakin berkembang  jumlah data tidak sedikit dari berbagai bidang  belum ada teknologi untuk menggali informasi dalam data tersebut  konsep Data mining Tahapan praproses data  data sesuai dengan Data Mining Diskretisasi atribut sebagai salah satu tahapan praproses data

Tujuan Menerapkan teknik partisi intuitif dan clustering dengan algoritme K-Means dalam diskretisasi atribut Menerapkan hasil diskretisasi pada teknik klasifikasi dengan metode pohon keputusan menggunakan algoritme ID3 Membandingkan pohon keputusan yang dihasilkan

Ruang Lingkup Pohon keputusan dibuat menggunakan algoritme ID3 yang tersedia dalam perangkat lunak WEKA 3-5-7 (Waikato Environment for Knowledge Analysis) Data yang digunakan  data tanaman padi dari tahun 1970-2003

Tinjauan Pustaka Data Mining menurut (Han & Kamber 2006) merupakan proses ekstraksi informasi data berukuran besar. Praproses Data teknik untuk memperbaiki kualitas data. Tahapan praproses data Pembersihan data Integrasi data Transformasi data Reduksi data

Tinjauan Pustaka (lanjutan) Diskretisasi menurut (Han & Kamber 2006) adalah teknik untuk mengurangi jumlah nilai pada atribut yang diberikan. Metode diskretisasi Binning Analisis histogram Diskretisasi berbasis entropy X2-merging Analisis cluster Partisi intuitif

Tinjauan pustaka (Lanjutan) Partisi Intuitif Metode diskretisasi yang membagi range menjadi interval yang cukup seragam dengan aturan 3-4-5. Algoritme K-Means K-Means membagi data menjadi beberapa cluster. Setiap cluster memiliki centroid, dan nilai dimasukkan ke dalam cluster yang dekat dengan centroid. Algoritme K-Means (Tan et al 2005) Select K points as the initial centroids Repeat From K cluster by assigning all points to the closest centroids Recomputed the centroids of each cluster Until the centroids don’t change

Tinjauan Pustaka (lanjutan) Pohon Keputusan Merupakan salah satu metode classification yang paling populer dan paling banyak digunakan dalam data mining. Alur kerja decision tree: Konstruksi pohonpembentukan akarmembagi data berdasar atributdaun (sebagai label atau kelas) Pemangkasan pohon identifikasi dan membuang cabang yang tidak diperlukan Pembentukan aturan keputusan

Tinjauan Pustaka (lanjutan) Root Means Square Error (RMSE) Salah satu standar pengukuran performa dari nilai perkiraan kuantitatif Cross Validation Metode evaluasi kinerja classifier data dipartisi ke dalam dua subset yang berukuran sama. Pilih satu dari kedua subset tersebut untuk training dan satu lagi untuk testing lakukan pertukaran fungsisubset yang sebelumnya training set menjadi test set demikian sebaliknya

Tinjauan Pustaka (lanjutan) Algoritma ID3 Algoritme Pembentuk pohon keputusan dengan metode divide and conquer data secara rekursif dari atas ke bawah. Pohon dimulai sebagai node tunggal (akar/root) sebagai representasi semua data. Data pada node akar diukur dengan information gain untuk memilih atribut pembagi Pohon dimulai sebagai node tunggal (akar/root) sebagai representasi semua data. Data pada node akar diukur dengan information gain untuk memilih atribut pembagi

Metode Penelitian Proses Dasar Sistem

Metode Penelitian (lanjutan) Pemilihan Data Praproses Data Pembentukan Pohon Keputusan

Hasil dan Pembahasan Pemilihan Data Dari Tanaman Pangan dan Hortikultura dipilih data tanaman Padi. Tanaman pangan dan Hortikultura =32384 recordTanaman pangan = 6021 recordTanaman Padi =1016 record Pembersihan data dan integrasi datatelah dilakukan peneliti sebelumnya (Purnamasari, 2006) Diskretisasi data menggunakan 2 metode Partisi intuitif K-Means clustering dengan jumlah cluster 4 dan 5 cluster

Hasil dan Pembahasan (lanjutan) Kelas Interval P1 900-2000000 P2 2000000-4000000 P3 4000000-6000000 P4 6000000-8000000 P5 8000000-10000000 P6 10000000-12000000 P7 12000000-14000000 P8 14000000-16000000 P9 16000000-18000000 P10 18000000-20000000 P11 20000000-22000000 Hasil diskretisasi menggunakan metode partisi intuitif untuk atribut produksi

Hasil dan Pembahasan (lanjutan) Hasil diskretisasi menggunakan metode partisi intuitif untuk atribut luas_panen Kelas Interval (Dalam Ha) L1 0-1000000 L2 1000000-2000000 L3 2000000-3000000 L4 3000000-4000000 L5 4000000-5000000 L6 5000000-6000000 L7 6000000-7000000 L8 7000000-8000000 Kelas Interval (Dalam Ha) L9 8000000-9000000 L10 9000000-1000000 L11 1000000-1100000 L12 1100000-1200000 L13 1200000-1300000 L14 1300000-1400000 L15 1400000-1500000 L16 1500000-1600000

Hasil dan Pembahasan (lanjutan) Hasil diskretisasi menggunakan Algoritme K-Means dengan 4 cluster untuk atribut produksi Hasil diskretisasi menggunakan Algoritme K-Means dengan 4 cluster untuk atribut luas_panen cluster Interval (dalam Ton) 3 961- 884.273 1 903.191- 2.671.754 4 2.689.834 - 6.111.937 2 6.594.514 - 21.579.444 cluster Interval (dalam Ha) 1 519-286.870 2 287.708-902.286 4 1.183.574-2.188.479 3 5.029.518–15.275.533

Hasil dan Pembahasan (lanjutan) Hasil diskretisasi menggunakan Algoritme K-Means dengan 5 cluster untuk atribut produksi Hasil diskretisasi menggunakan Algoritme K-Means dengan 5 cluster untuk atribut luas_panen cluster Interval (dalam Ha) 3 961- 458.756 2 461.413 - 1.169.865 1 1.177.221 - 2.802.492 4 6.878.791 - 21.579.444 5 2.839.821 - 6.594.514 cluster Interval (dalam Ha) 1 519 - 210.425 2 495.958 - 902.286 3 214.180 - 494.145 4 5.029.518 - 15.275.533 5 1.183.574 - 2.188.479

Hasil dan Pembahasan (lanjutan) Partisi intuitif Algoritme K-Means dengan 4 cluster Algortime k-means dengan 5 cluster

Hasil dan Pembahasan (lanjutan) Contoh aturan yang terbentuk If lokasi = Bali then produksi =P1 If lokasi = Bangka_Belitung then produksi = P1 If lokasi = Banten then produksi =P2 If lokasi = Jawa_Barat and luas_panen =L3 then produksi = P5 If lokasi= Jawa_Barat and luas_panen = L2 then produksi = P3 If lokasi = Jawa_Timur then produksi = P5 Algoritme K-Means clustering dengan jumlah cluster 4 If lokasi = Bali then produksi = P3 If lokasi = Bangka_Belitung then produksi = P3 If lokasi = Banten then produksi = P4 If lokasi = Jawa_Barat and luas_panen =L3 then produksi = P2 If lokasi = Jawa Barat and luas_panen = L2 then produksi = null If lokasi = Jawa_Timur then produksi = P2

Hasil dan Pembahasan (lanjutan) Algoritme K-Means clustering dengan jumlah cluster 5 If lokasi = Bali then produksi = P2 If lokasi = Bangka_Belitung then produksi = P3 If lokasi= Banten then produksi = P1 If lokasi= Jawa_Barat and luas_panen = L3 then produksi = null If lokasi = Jawa_Barat and luas_panen = L2 then produksi =null If lokasi = Jawa_Timur then produksi = P4

Hasil dan Pembahasan (lanjutan) Partisi intuitif Algoritme K- Means 4 Cluster 5 Cluster Jumlah klasifikasi benar 915 888 781 Jumlah klasifikasi salah 98 127 234 Root Means Square Error 0.11 0.20 0.24 Jumlah Aturan yang terbentuk 35 37 38 Perbandingan hasil pohon keputusan dengan metode partisi intuitif dan Algoritme K-Means

Hasil dan pembahasan (lanjutan) Akurasi pohon keputusan menggunakan metode partisi intuitif mencapai 90,06% , sedangkan akurasi metode clustering dengan algoritme K-Means sebesar 87,40% untuk jumlah cluster 4 dan 76,87% untuk jumlah cluster 5. Nilai Root Mean Square Error (RMSE) yang diperoleh dari hasil perhitungan WEKA untuk metode partisi intuitif sebesar 0.11 sedangkan untuk algoritme K-Means sebesar 0.2 untuk jumlah cluster 4 dan 0.24 untuk algoritme K-Means dengan jumlah cluster 5. Jumlah aturan yang dihasilkan oleh pohon keputusan dengan metode partisi intuitif sebesar 35, metode K-Means clustering dengan jumlah cluster 4 sebesar 37 dan K-Means clustering dengan jumlah cluster 5 sebesar 38.

Kesimpulan Berdasarkan hasil perhitungan akurasi pohon kepyutusan, nilai rmse, dan jumlah aturan yang terbentuk, secara umum dapat dismpulkan bahwa diskretisai menggunakan metode partisi intuitif menhasilkan pohon keputusan yang lebih baik dibandingkan dengan algortime K-Means clustering

Daftar Pustaka Au, W. H., Chan, K. C. C. 2001. Classification with Degree of Membership : A Fuzzy Approach. Hasil ICDM’01 Han J dan Kamber. 2006. Data Mining: Concepts and Techniques. Simon Fraser University. USA: Morgan Kaufman Publisher Kantardzic M. 2003. Data Mining : Concept, Models, Methods, and Algorithms. USA: Wiley Interscience Purnamasari, Y. 2006. Penerapan Teknik Klasifikasi Dengan Algoritme Decision Tree Untuk Data Tanaman Pangan dan Hortikultura [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Quinlan, R. The ID3 Algorithm http://www.cise.ufl.edu/~ddd/cap6635/Fall-97/Short-papers/2.htm [17 Juli 2008]. Tan PN, Kumar V, Steinbach M. 2005 Introduction To Data Mining. Addison Wesley Publisher