Chapter 9 ALGORITME Cluster dan WEKA Clustering K-Means Case Definition Sulidar Fitri, M.Sc
REFERENCES Jiawei Han and Micheline Kamber. Data Mining: Concepts and Techniques. 2006. Department of Computer Science University of Illinois at Urbana-Champaign. www.cs.uiuc.edu/~hanj Ian H. Witten, Eibe Frank, Mark A. Hall. Data Mining Practical Machine Learning Tools and Techniques Third Edition.2011. Elsevier Kusrini dan Luthfi, E., 2009, Algoritma Data Mining, Penerbit Andi Kusrini, Pattern Recognition. WEKA
Clustering Introduction The previous data mining task of classification deals with partitioning data based on a pre-classified training sample Clustering is an automated process to group related records together. Related records are grouped together on the basis of having similar values for attributes The groups are usually disjoint
Via (Yohana, 2011)
(Larose, 2005)
Contoh Kasus: Proses pendeskritan kelas kontinyu Input Data awal, berupa data kontinyu atau data diskret Delta, yaitu nilai yang digunakan untuk menentukan selisih centroid dan mean yang diijinkan Output: tabel pemetaan yang berisi kelas diskret beserta nilai centroidnya
Langkah Proses: Tentukan jumlah cluster Alokasikan data ke dalam cluster secara random Hitung centroid/rata-rata dari data yang ada di masing-masing cluster Alokasikan masing-masing data ke centroid/rata-rata terdekat Kembali ke Step 3, apabila masih ada data yang berpindah cluster atau apabila perubahan nilai centroid, ada yang di atas nilai threshold yang ditentukan atau apabila perubahan nilai pada objective function yang digunakan di atas nilai threshold yang ditentukan
Penentuan centroid: acak atau ditentukan dengan rumus
Input: 79, 85, 83, 90, 82, 81, 85, 87, 89 dan 84 Jumlah kelas target: 3 delta : 0,01 Proses: Min: 79 Max : 90 Toleransi error: 0.01 * (90-79) : 0.11
Min: 79, max: 90 Centroid awal C2 dan C3?
0,92 > error (0.11) Rerata menjadi centroid baru
WEKA PRACTICE
Clustering Buka weka dan input data .arff Pilih tab Cluster Choose algoritma kMeans Pilih Cluster/kelompok yang diinginkan berapa Start Baca outputnya
GET STARTED
Any Queries ?