Implementasi clustering K-MEANS (dengan IRIS dataset)

Implementasi clustering K-MEANS (dengan IRIS dataset)
NAME

Algoritma K-Means K-Means adalah salah satu partitional clustering yang terkenal Parameter K menunjukkan banyaknya cluster yang akan dibentuk Perbandingan dengan metode lain Kelebihan: komputasi yang sederhana Kekurangan: kualitas kluster tergantung pada pemilihan centroid awal dan nilai k. Nilai k ditentukan di awal. Centroid awal di-inisialisasikan secara random

Algoritma K-Means Contoh k-Means clustering dengan k=3, dan 3 centroid: m1, m2, m3 Jika atribut ke-i numerik, maka nilai centroid ke-i merupakan mean dari nilai atribut 1≤ i ≤ n Jika atribut ke-i kategorikal, maka nilai centroid ke-i merupakan modus dari nilai atribut itu 1 ≤ i ≤ n Setiap cluster diasosiasikan dengan sebuah centroid Setiap point data dimasukkan ke cluster dengan centroid terdekat Sebuah centroid: sebuah vektor n-dimensi. (Dimana n adalah banyaknya atribut di setiap data)

Algoritma K-Means Diinisialkan jumlah cluster sebanyak K, tahapan algoritma K-means dilakukan dalam 5 langkah: Tentukan k Tentukan titik awal centroid (set seed points) sebanyak k Masukkan setiap data ke cluster dengan centroid terdekat (jarak minimum) Update centroid dari masing-masing cluster (centroid adalah pusat dari cluster, i.e., mean point, dari cluster) Kembali ke no 1, iterasi berhenti jika sudah tidak ada perubahan centroid

K-Means (pseudocode) Proses pengelompokan ke k-cluster dilakukan dalam beberapa iterasi Iterasi berhenti jika centroidnya tidak berubah lagi atau setiap data selalu berada di cluster yang sama di iterasi-iterasi berikutnya

Contoh Permasalahan Bila diketahui ada 4 macam medicine yang memiliki dua atribute (pH dan weight index). Tujuan yang diharapkan adalah mengelompokkan obat ini menjadi 2 kelompok medicine. A B C D Medicine Weight pH-Index A 1 B 2 C 4 3 D 5

Step 1: Gunakan seed points awal sebagai pemisah
Contoh Step 1: Gunakan seed points awal sebagai pemisah Alokasikan setiap object pada cluster yang paling dekat dengan seed point Euclidean distance

Step 2: Hitung centroids baru untuk current partition
Contoh Step 2: Hitung centroids baru untuk current partition Dengan mengetahui anggota setiap cluster, hitung centroid yang baru untuk masing-masing cluster.

Step 2: Ubah keanggotaan cluster berdasarkan centroid yang baru
Contoh Step 2: Ubah keanggotaan cluster berdasarkan centroid yang baru Hitung distance semua objects terhadap centroids yang baru Tentukan keanggotaan object terhadap centroid

Step 3: Ulangi 2 langkah tahap awal sampai terjadi konvergen
Contoh Step 3: Ulangi 2 langkah tahap awal sampai terjadi konvergen Dengan mengetahui anggota setiap cluster, hitung centroid yang baru untuk masing-masing cluster.

Step 3: Ulangi 2 langkah tahap awal sampai terjadi konvergen
Contoh Step 3: Ulangi 2 langkah tahap awal sampai terjadi konvergen Hitung distance semua objects terhadap centroids yang baru Hentikan iterasi karena tidak terjadi perubahan

Evaluasi Performa K-Means
Evaluasi performa K-Means Clustering dapat menggunakan Sum of Square Error (SSE). Ide utama dari penggunaan SSE ini adalah mengukur keseragaman antar data dalam satu cluster Keseragaman diukur berdasarkan error/jarak/distance antara setiap data dengan centroidnya. Semakin seragam data-data dalam sebuah cluster, semakin kecil jarak antara setiap data dengan centroidnya Selanjutnya error disetiap cluster dijumlahkan untuk semua cluster (Sum of Square Error/SSE). Semakin kecil nilai SSE maka semakin bagus hasil clusteringnya

Evaluasi Performa K-Means
K = banyaknya cluster Ci = Cluster ke-i mi = centroid cluster ke-i x = data yang berada di masing-masing cluster

SSE dan Jumlah K Berdasarkan performa SSE, clustering akan makin baik bila memiliki nilai SSE yang kecil Nilai SSE akan mendekati 0 seiring dengan bertambahnya jumlah K. SSE akan bernilai 0 bila K sama dengan jumlah data dalam data set, karena setiap data adalah cluster tunggal dengan anggota hanya dirinya sendiri sekaligus sebagai centroid. Jumlah K SSE Permasalahannya, bagaimana memilih K yang optimum?

Elbow Method Metode untuk memilih nilai K terkecil yang masih memiliki nilai SSE yang rendah

Elbow Method Gambar kiri terlihat jelas menunjukkan bahwa elbow terletak pada K=3 sehingga jumlah cluster terbaik untuk data set adalah 3 cluster Tetapi tidak selamanya Elbow Method dapat digunakan untuk menentukan nilai K yang optimum. Pada gambar kanan terlihat bahwa kurva sangat landai sehingga sulit untuk menentukan dimana letak elbow nya

Data Set : Iris

Spesies Bunga Iris

Width Width Length Length

Distribusi Data Set

Plotting spesies bunga iris (sepal length vs width )

Plotting spesies bunga iris (Petal length vs width)

Jumlah K cluster yang optimal
Elbow method Jumlah K cluster yang optimal

Performa cluster dengan K=3
Cluster 1 adalah cluster spesies bunga Iris Virginica Cluster 2 adalah cluster spesies bunga Iris Setosa Cluster 3 adalah cluster spesies bunga Iris Versicolor Dari matriks terlihat bahwa sebagian besar data observasi dapat dikelompokkan dengan benar, kecuali 2 versicolor masuk dalam cluster 1 yang sebagian besar anggotanya adalah virginica, and 4 bunga virginica masuk dalam cluster 3 yang merupakan cluster bunga iris versicolor.

Terima kasih

Implementasi clustering K-MEANS (dengan IRIS dataset)

Presentasi serupa

Presentasi berjudul: "Implementasi clustering K-MEANS (dengan IRIS dataset)"— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan

Masuk

Otorisasi melalui jaringan sosial:

Implementasi clustering K-MEANS (dengan IRIS dataset)

Presentasi serupa

Presentasi berjudul: "Implementasi clustering K-MEANS (dengan IRIS dataset)"— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan