PEMBUATAN POHON KEPUTUSAN PERBANDINGAN METODE DISKRETISASI DATA PARTISI INTUITIF DAN CLUSTERING TERHADAP PEMBUATAN POHON KEPUTUSAN Disusun Oleh : Liesca Levy S (G64101069) Pembimbing : Imas S. Sitanggang, S.Si, M.Kom
Pendahuluan Pendahuluan Tinjauan Pustaka Metode Penelitian Hasil dan pembahasan Kesimpulan
Pendahuluan Latar Belakang Teknologi komputasi dan pengumpulan data semakin berkembang jumlah data tidak sedikit dari berbagai bidang belum ada teknologi untuk menggali informasi dalam data tersebut konsep Data mining Tahapan praproses data data sesuai dengan Data Mining Diskretisasi atribut sebagai salah satu tahapan praproses data
Tujuan Menerapkan teknik partisi intuitif dan clustering dengan algoritme K-Means dalam diskretisasi atribut Menerapkan hasil diskretisasi pada teknik klasifikasi dengan metode pohon keputusan menggunakan algoritme ID3 Membandingkan pohon keputusan yang dihasilkan
Ruang Lingkup Pohon keputusan dibuat menggunakan algoritme ID3 yang tersedia dalam perangkat lunak WEKA 3-5-7 (Waikato Environment for Knowledge Analysis) Data yang digunakan data tanaman padi dari tahun 1970-2003
Tinjauan Pustaka Data Mining menurut (Han & Kamber 2006) merupakan proses ekstraksi informasi data berukuran besar. Praproses Data teknik untuk memperbaiki kualitas data. Tahapan praproses data Pembersihan data Integrasi data Transformasi data Reduksi data
Tinjauan Pustaka (lanjutan) Diskretisasi menurut (Han & Kamber 2006) adalah teknik untuk mengurangi jumlah nilai pada atribut yang diberikan. Metode diskretisasi Binning Analisis histogram Diskretisasi berbasis entropy X2-merging Analisis cluster Partisi intuitif
Tinjauan pustaka (Lanjutan) Partisi Intuitif Metode diskretisasi yang membagi range menjadi interval yang cukup seragam dengan aturan 3-4-5. Algoritme K-Means K-Means membagi data menjadi beberapa cluster. Setiap cluster memiliki centroid, dan nilai dimasukkan ke dalam cluster yang dekat dengan centroid. Algoritme K-Means (Tan et al 2005) Select K points as the initial centroids Repeat From K cluster by assigning all points to the closest centroids Recomputed the centroids of each cluster Until the centroids don’t change
Tinjauan Pustaka (lanjutan) Pohon Keputusan Merupakan salah satu metode classification yang paling populer dan paling banyak digunakan dalam data mining. Alur kerja decision tree: Konstruksi pohonpembentukan akarmembagi data berdasar atributdaun (sebagai label atau kelas) Pemangkasan pohon identifikasi dan membuang cabang yang tidak diperlukan Pembentukan aturan keputusan
Tinjauan Pustaka (lanjutan) Root Means Square Error (RMSE) Salah satu standar pengukuran performa dari nilai perkiraan kuantitatif Cross Validation Metode evaluasi kinerja classifier data dipartisi ke dalam dua subset yang berukuran sama. Pilih satu dari kedua subset tersebut untuk training dan satu lagi untuk testing lakukan pertukaran fungsisubset yang sebelumnya training set menjadi test set demikian sebaliknya
Tinjauan Pustaka (lanjutan) Algoritma ID3 Algoritme Pembentuk pohon keputusan dengan metode divide and conquer data secara rekursif dari atas ke bawah. Pohon dimulai sebagai node tunggal (akar/root) sebagai representasi semua data. Data pada node akar diukur dengan information gain untuk memilih atribut pembagi Pohon dimulai sebagai node tunggal (akar/root) sebagai representasi semua data. Data pada node akar diukur dengan information gain untuk memilih atribut pembagi
Metode Penelitian Proses Dasar Sistem
Metode Penelitian (lanjutan) Pemilihan Data Praproses Data Pembentukan Pohon Keputusan
Hasil dan Pembahasan Pemilihan Data Dari Tanaman Pangan dan Hortikultura dipilih data tanaman Padi. Tanaman pangan dan Hortikultura =32384 recordTanaman pangan = 6021 recordTanaman Padi =1016 record Pembersihan data dan integrasi datatelah dilakukan peneliti sebelumnya (Purnamasari, 2006) Diskretisasi data menggunakan 2 metode Partisi intuitif K-Means clustering dengan jumlah cluster 4 dan 5 cluster
Hasil dan Pembahasan (lanjutan) Kelas Interval P1 900-2000000 P2 2000000-4000000 P3 4000000-6000000 P4 6000000-8000000 P5 8000000-10000000 P6 10000000-12000000 P7 12000000-14000000 P8 14000000-16000000 P9 16000000-18000000 P10 18000000-20000000 P11 20000000-22000000 Hasil diskretisasi menggunakan metode partisi intuitif untuk atribut produksi
Hasil dan Pembahasan (lanjutan) Hasil diskretisasi menggunakan metode partisi intuitif untuk atribut luas_panen Kelas Interval (Dalam Ha) L1 0-1000000 L2 1000000-2000000 L3 2000000-3000000 L4 3000000-4000000 L5 4000000-5000000 L6 5000000-6000000 L7 6000000-7000000 L8 7000000-8000000 Kelas Interval (Dalam Ha) L9 8000000-9000000 L10 9000000-1000000 L11 1000000-1100000 L12 1100000-1200000 L13 1200000-1300000 L14 1300000-1400000 L15 1400000-1500000 L16 1500000-1600000
Hasil dan Pembahasan (lanjutan) Hasil diskretisasi menggunakan Algoritme K-Means dengan 4 cluster untuk atribut produksi Hasil diskretisasi menggunakan Algoritme K-Means dengan 4 cluster untuk atribut luas_panen cluster Interval (dalam Ton) 3 961- 884.273 1 903.191- 2.671.754 4 2.689.834 - 6.111.937 2 6.594.514 - 21.579.444 cluster Interval (dalam Ha) 1 519-286.870 2 287.708-902.286 4 1.183.574-2.188.479 3 5.029.518–15.275.533
Hasil dan Pembahasan (lanjutan) Hasil diskretisasi menggunakan Algoritme K-Means dengan 5 cluster untuk atribut produksi Hasil diskretisasi menggunakan Algoritme K-Means dengan 5 cluster untuk atribut luas_panen cluster Interval (dalam Ha) 3 961- 458.756 2 461.413 - 1.169.865 1 1.177.221 - 2.802.492 4 6.878.791 - 21.579.444 5 2.839.821 - 6.594.514 cluster Interval (dalam Ha) 1 519 - 210.425 2 495.958 - 902.286 3 214.180 - 494.145 4 5.029.518 - 15.275.533 5 1.183.574 - 2.188.479
Hasil dan Pembahasan (lanjutan) Partisi intuitif Algoritme K-Means dengan 4 cluster Algortime k-means dengan 5 cluster
Hasil dan Pembahasan (lanjutan) Contoh aturan yang terbentuk If lokasi = Bali then produksi =P1 If lokasi = Bangka_Belitung then produksi = P1 If lokasi = Banten then produksi =P2 If lokasi = Jawa_Barat and luas_panen =L3 then produksi = P5 If lokasi= Jawa_Barat and luas_panen = L2 then produksi = P3 If lokasi = Jawa_Timur then produksi = P5 Algoritme K-Means clustering dengan jumlah cluster 4 If lokasi = Bali then produksi = P3 If lokasi = Bangka_Belitung then produksi = P3 If lokasi = Banten then produksi = P4 If lokasi = Jawa_Barat and luas_panen =L3 then produksi = P2 If lokasi = Jawa Barat and luas_panen = L2 then produksi = null If lokasi = Jawa_Timur then produksi = P2
Hasil dan Pembahasan (lanjutan) Algoritme K-Means clustering dengan jumlah cluster 5 If lokasi = Bali then produksi = P2 If lokasi = Bangka_Belitung then produksi = P3 If lokasi= Banten then produksi = P1 If lokasi= Jawa_Barat and luas_panen = L3 then produksi = null If lokasi = Jawa_Barat and luas_panen = L2 then produksi =null If lokasi = Jawa_Timur then produksi = P4
Hasil dan Pembahasan (lanjutan) Partisi intuitif Algoritme K- Means 4 Cluster 5 Cluster Jumlah klasifikasi benar 915 888 781 Jumlah klasifikasi salah 98 127 234 Root Means Square Error 0.11 0.20 0.24 Jumlah Aturan yang terbentuk 35 37 38 Perbandingan hasil pohon keputusan dengan metode partisi intuitif dan Algoritme K-Means
Hasil dan pembahasan (lanjutan) Akurasi pohon keputusan menggunakan metode partisi intuitif mencapai 90,06% , sedangkan akurasi metode clustering dengan algoritme K-Means sebesar 87,40% untuk jumlah cluster 4 dan 76,87% untuk jumlah cluster 5. Nilai Root Mean Square Error (RMSE) yang diperoleh dari hasil perhitungan WEKA untuk metode partisi intuitif sebesar 0.11 sedangkan untuk algoritme K-Means sebesar 0.2 untuk jumlah cluster 4 dan 0.24 untuk algoritme K-Means dengan jumlah cluster 5. Jumlah aturan yang dihasilkan oleh pohon keputusan dengan metode partisi intuitif sebesar 35, metode K-Means clustering dengan jumlah cluster 4 sebesar 37 dan K-Means clustering dengan jumlah cluster 5 sebesar 38.
Kesimpulan Berdasarkan hasil perhitungan akurasi pohon kepyutusan, nilai rmse, dan jumlah aturan yang terbentuk, secara umum dapat dismpulkan bahwa diskretisai menggunakan metode partisi intuitif menhasilkan pohon keputusan yang lebih baik dibandingkan dengan algortime K-Means clustering
Daftar Pustaka Au, W. H., Chan, K. C. C. 2001. Classification with Degree of Membership : A Fuzzy Approach. Hasil ICDM’01 Han J dan Kamber. 2006. Data Mining: Concepts and Techniques. Simon Fraser University. USA: Morgan Kaufman Publisher Kantardzic M. 2003. Data Mining : Concept, Models, Methods, and Algorithms. USA: Wiley Interscience Purnamasari, Y. 2006. Penerapan Teknik Klasifikasi Dengan Algoritme Decision Tree Untuk Data Tanaman Pangan dan Hortikultura [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Quinlan, R. The ID3 Algorithm http://www.cise.ufl.edu/~ddd/cap6635/Fall-97/Short-papers/2.htm [17 Juli 2008]. Tan PN, Kumar V, Steinbach M. 2005 Introduction To Data Mining. Addison Wesley Publisher