Upload presentasi
Presentasi sedang didownload. Silahkan tunggu
Diterbitkan olehHadian Kartawijaya Telah diubah "5 tahun yang lalu
1
Implementasi clustering K-MEANS (dengan IRIS dataset)
NAME
2
Algoritma K-Means K-Means adalah salah satu partitional clustering yang terkenal Parameter K menunjukkan banyaknya cluster yang akan dibentuk Perbandingan dengan metode lain Kelebihan: komputasi yang sederhana Kekurangan: kualitas kluster tergantung pada pemilihan centroid awal dan nilai k. Nilai k ditentukan di awal. Centroid awal di-inisialisasikan secara random
3
Algoritma K-Means Contoh k-Means clustering dengan k=3, dan 3 centroid: m1, m2, m3 Jika atribut ke-i numerik, maka nilai centroid ke-i merupakan mean dari nilai atribut 1≤ i ≤ n Jika atribut ke-i kategorikal, maka nilai centroid ke-i merupakan modus dari nilai atribut itu 1 ≤ i ≤ n Setiap cluster diasosiasikan dengan sebuah centroid Setiap point data dimasukkan ke cluster dengan centroid terdekat Sebuah centroid: sebuah vektor n-dimensi. (Dimana n adalah banyaknya atribut di setiap data)
4
Algoritma K-Means Diinisialkan jumlah cluster sebanyak K, tahapan algoritma K-means dilakukan dalam 5 langkah: Tentukan k Tentukan titik awal centroid (set seed points) sebanyak k Masukkan setiap data ke cluster dengan centroid terdekat (jarak minimum) Update centroid dari masing-masing cluster (centroid adalah pusat dari cluster, i.e., mean point, dari cluster) Kembali ke no 1, iterasi berhenti jika sudah tidak ada perubahan centroid
5
K-Means (pseudocode) Proses pengelompokan ke k-cluster dilakukan dalam beberapa iterasi Iterasi berhenti jika centroidnya tidak berubah lagi atau setiap data selalu berada di cluster yang sama di iterasi-iterasi berikutnya
6
Contoh Permasalahan Bila diketahui ada 4 macam medicine yang memiliki dua atribute (pH dan weight index). Tujuan yang diharapkan adalah mengelompokkan obat ini menjadi 2 kelompok medicine. A B C D Medicine Weight pH-Index A 1 B 2 C 4 3 D 5
7
Step 1: Gunakan seed points awal sebagai pemisah
Contoh Step 1: Gunakan seed points awal sebagai pemisah Alokasikan setiap object pada cluster yang paling dekat dengan seed point Euclidean distance
8
Step 2: Hitung centroids baru untuk current partition
Contoh Step 2: Hitung centroids baru untuk current partition Dengan mengetahui anggota setiap cluster, hitung centroid yang baru untuk masing-masing cluster.
9
Step 2: Ubah keanggotaan cluster berdasarkan centroid yang baru
Contoh Step 2: Ubah keanggotaan cluster berdasarkan centroid yang baru Hitung distance semua objects terhadap centroids yang baru Tentukan keanggotaan object terhadap centroid
10
Step 3: Ulangi 2 langkah tahap awal sampai terjadi konvergen
Contoh Step 3: Ulangi 2 langkah tahap awal sampai terjadi konvergen Dengan mengetahui anggota setiap cluster, hitung centroid yang baru untuk masing-masing cluster.
11
Step 3: Ulangi 2 langkah tahap awal sampai terjadi konvergen
Contoh Step 3: Ulangi 2 langkah tahap awal sampai terjadi konvergen Hitung distance semua objects terhadap centroids yang baru Hentikan iterasi karena tidak terjadi perubahan
12
Evaluasi Performa K-Means
Evaluasi performa K-Means Clustering dapat menggunakan Sum of Square Error (SSE). Ide utama dari penggunaan SSE ini adalah mengukur keseragaman antar data dalam satu cluster Keseragaman diukur berdasarkan error/jarak/distance antara setiap data dengan centroidnya. Semakin seragam data-data dalam sebuah cluster, semakin kecil jarak antara setiap data dengan centroidnya Selanjutnya error disetiap cluster dijumlahkan untuk semua cluster (Sum of Square Error/SSE). Semakin kecil nilai SSE maka semakin bagus hasil clusteringnya
13
Evaluasi Performa K-Means
K = banyaknya cluster Ci = Cluster ke-i mi = centroid cluster ke-i x = data yang berada di masing-masing cluster
14
SSE dan Jumlah K Berdasarkan performa SSE, clustering akan makin baik bila memiliki nilai SSE yang kecil Nilai SSE akan mendekati 0 seiring dengan bertambahnya jumlah K. SSE akan bernilai 0 bila K sama dengan jumlah data dalam data set, karena setiap data adalah cluster tunggal dengan anggota hanya dirinya sendiri sekaligus sebagai centroid. Jumlah K SSE Permasalahannya, bagaimana memilih K yang optimum?
15
Elbow Method Metode untuk memilih nilai K terkecil yang masih memiliki nilai SSE yang rendah
16
Elbow Method Gambar kiri terlihat jelas menunjukkan bahwa elbow terletak pada K=3 sehingga jumlah cluster terbaik untuk data set adalah 3 cluster Tetapi tidak selamanya Elbow Method dapat digunakan untuk menentukan nilai K yang optimum. Pada gambar kanan terlihat bahwa kurva sangat landai sehingga sulit untuk menentukan dimana letak elbow nya
17
Data Set : Iris
18
Spesies Bunga Iris
19
Width Width Length Length
20
Distribusi Data Set
21
Plotting spesies bunga iris (sepal length vs width )
22
Plotting spesies bunga iris (Petal length vs width)
23
Jumlah K cluster yang optimal
Elbow method Jumlah K cluster yang optimal
24
Performa cluster dengan K=3
Cluster 1 adalah cluster spesies bunga Iris Virginica Cluster 2 adalah cluster spesies bunga Iris Setosa Cluster 3 adalah cluster spesies bunga Iris Versicolor Dari matriks terlihat bahwa sebagian besar data observasi dapat dikelompokkan dengan benar, kecuali 2 versicolor masuk dalam cluster 1 yang sebagian besar anggotanya adalah virginica, and 4 bunga virginica masuk dalam cluster 3 yang merupakan cluster bunga iris versicolor.
25
Terima kasih
Presentasi serupa
© 2024 SlidePlayer.info Inc.
All rights reserved.