Implementasi clustering K-MEANS (dengan IRIS dataset)

Slides:



Advertisements
Presentasi serupa
Optimasi Non-Linier Metode Numeris.
Advertisements

Analisis Outlier.
K-Means Clustering.
Klastering dengan K-Means
Pengelompokan Jenis Tanah Menggunakan Algoritma Clustering K-Means
Self Organizing Maps Tim Asprak Metkuan
Pengurutan cepat (quick sort)
Meningkatkan kemampuan quick sort
DATA MINING 1.
REGRESI LINIER SEDERHANA
TOWARDS MULTIPLE IDENTITY DETECTION IN SOCIAL NETWORKS & RESEARCH METODOLOGY 3KS2 ERMA FITRIANA RANITA RIZKI APRILLIA.
Aplikasi Model Jaringan Syaraf Tiruan dengan Radial Basis Function untuk Mendeteksi Kelainan Otak (Stroke Infark) Yohanes Tanjung S.
Pemrosesan Teks Klasterisasi Dokumen Teknik Informatika STMIK GI MDP 2013 Shinta P.
UKURAN NILAI PUSAT RATA – RATA HITUNG (ARITHMETIC MEAN) MEDIAN MODUS.
Rika yunitarini Teknik Informatika
Ukuran Nilai Sentral : Modus dan median.
Clustering. Definition Clustering is “the process of organizing objects into groups whose members are similar in some way”. A cluster is therefore a collection.
Fuzzy Clustering Logika Fuzzy Materi Kuliah Prodi Teknik Informatika
Clustering (Season 2) Self-Organizing Map
Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY
Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY
Penyelidikan Operasi Penyelesaian Numerik
DATA MINING (Machine Learning)
Algoritma dan Pemrograman – Pertemuan 3 & 4 Sorting (Pengurutan)
ANALISIS OUTLIER 1 Data Mining.
REGRESI LINIER SEDERHANA
MODUL II ESTIMASI ATAU PENDUGAAN
Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY
Clustering Suprayogi.
Datamining - Suprayogi
Sistem Berbasis Fuzzy Materi 5
Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY
MODEL TRANSPORTASI.
Pembimbing: Henri Harianja G Imas S. Sitanggang, S.Si M.Kom
PEMBUATAN POHON KEPUTUSAN
Persamaan Non Linier (Lanjutan 1)
Ukuran Nilai Sentral : Modus dan median.
MENENTUKAN GARIS LURUS TERBAIK
Clustering.
Clustering Best Practice
Aplikasi Kecerdasan Komputasional
Kuliah Sistem Fuzzy Pertemuan 7 “Fuzzy Clustering”
Pengurutan cepat (quick sort)
STATISTIK1 Pertemuan 3: Ukuran Pemusatan dan Penyebaran
SOM – KOHONEN Unsupervised Learning
TEKNIK RISET OPERASIONAL
K-Nearest Neighbor dan K-means
Clustering (Season 1) K-Means
UKURAN PEMUSATAN DATA BERKELOMPOK
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
CLUSTERING.
Clustering (Season 2) Self-Organizing Map
Analisis Klastering K-Means Model Datamining Kelompok 1 Eko Suryana
Algoritma kNN (k-Nearest Neighbor)
Metode Simpleks Metode simpleks merupakan prosedur iterasi yang bergerak step by step dan berulang-ulang Jumlah variabel tidak terbatas Penyelesaian masalah.
MATA KULIAH METODE NUMERIK NOVRI FATMOHERI
Metode Data Mining “ Self-Organizing Map [SOM] ” Taskum Setiadi ADVANCE MACHINE LEARNING STMIK Nusa Mandiri Jakarta2016 ADVANCE MACHINE LEARNING.
ANALISIS CLUSTER Part 1.
Pembelajaran tak-terbimbing dan klustering
ANALISIS CLUSTER Part 2.
JARINGAN SYARAF TIRUAN BERBASIS KOMPETISI
METODE NUMERIK (3 SKS) STMIK CILEGON.
CLUSTERING.
K-MEANS ALGORITHM CLUSTERING
Pengelompokan Dokumen (Document Clustering)
IMPLEMENTASI ALGORITMA k-NN
By : Rahmat Robi Waliyansyah, M.Kom
Universitas Gunadarma
Universitas Gunadarma
Algoritma kNN (k-Nearest Neighbor)
Transcript presentasi:

Implementasi clustering K-MEANS (dengan IRIS dataset) NAME

Algoritma K-Means K-Means adalah salah satu partitional clustering yang terkenal Parameter K menunjukkan banyaknya cluster yang akan dibentuk Perbandingan dengan metode lain Kelebihan: komputasi yang sederhana Kekurangan: kualitas kluster tergantung pada pemilihan centroid awal dan nilai k. Nilai k ditentukan di awal. Centroid awal di-inisialisasikan secara random

Algoritma K-Means Contoh k-Means clustering dengan k=3, dan 3 centroid: m1, m2, m3 Jika atribut ke-i numerik, maka nilai centroid ke-i merupakan mean dari nilai atribut 1≤ i ≤ n Jika atribut ke-i kategorikal, maka nilai centroid ke-i merupakan modus dari nilai atribut itu 1 ≤ i ≤ n Setiap cluster diasosiasikan dengan sebuah centroid Setiap point data dimasukkan ke cluster dengan centroid terdekat Sebuah centroid: sebuah vektor n-dimensi. (Dimana n adalah banyaknya atribut di setiap data)

Algoritma K-Means Diinisialkan jumlah cluster sebanyak K, tahapan algoritma K-means dilakukan dalam 5 langkah: Tentukan k Tentukan titik awal centroid (set seed points) sebanyak k Masukkan setiap data ke cluster dengan centroid terdekat (jarak minimum) Update centroid dari masing-masing cluster (centroid adalah pusat dari cluster, i.e., mean point, dari cluster) Kembali ke no 1, iterasi berhenti jika sudah tidak ada perubahan centroid

K-Means (pseudocode) Proses pengelompokan ke k-cluster dilakukan dalam beberapa iterasi Iterasi berhenti jika centroidnya tidak berubah lagi atau setiap data selalu berada di cluster yang sama di iterasi-iterasi berikutnya

Contoh Permasalahan Bila diketahui ada 4 macam medicine yang memiliki dua atribute (pH dan weight index). Tujuan yang diharapkan adalah mengelompokkan obat ini menjadi 2 kelompok medicine. A B C D Medicine Weight pH-Index A 1 B 2 C 4 3 D 5

Step 1: Gunakan seed points awal sebagai pemisah Contoh Step 1: Gunakan seed points awal sebagai pemisah Alokasikan setiap object pada cluster yang paling dekat dengan seed point Euclidean distance

Step 2: Hitung centroids baru untuk current partition Contoh Step 2: Hitung centroids baru untuk current partition Dengan mengetahui anggota setiap cluster, hitung centroid yang baru untuk masing-masing cluster.

Step 2: Ubah keanggotaan cluster berdasarkan centroid yang baru Contoh Step 2: Ubah keanggotaan cluster berdasarkan centroid yang baru Hitung distance semua objects terhadap centroids yang baru Tentukan keanggotaan object terhadap centroid

Step 3: Ulangi 2 langkah tahap awal sampai terjadi konvergen Contoh Step 3: Ulangi 2 langkah tahap awal sampai terjadi konvergen Dengan mengetahui anggota setiap cluster, hitung centroid yang baru untuk masing-masing cluster.

Step 3: Ulangi 2 langkah tahap awal sampai terjadi konvergen Contoh Step 3: Ulangi 2 langkah tahap awal sampai terjadi konvergen Hitung distance semua objects terhadap centroids yang baru Hentikan iterasi karena tidak terjadi perubahan

Evaluasi Performa K-Means Evaluasi performa K-Means Clustering dapat menggunakan Sum of Square Error (SSE). Ide utama dari penggunaan SSE ini adalah mengukur keseragaman antar data dalam satu cluster Keseragaman diukur berdasarkan error/jarak/distance antara setiap data dengan centroidnya. Semakin seragam data-data dalam sebuah cluster, semakin kecil jarak antara setiap data dengan centroidnya Selanjutnya error disetiap cluster dijumlahkan untuk semua cluster (Sum of Square Error/SSE). Semakin kecil nilai SSE maka semakin bagus hasil clusteringnya

Evaluasi Performa K-Means K = banyaknya cluster Ci = Cluster ke-i mi = centroid cluster ke-i x = data yang berada di masing-masing cluster

SSE dan Jumlah K Berdasarkan performa SSE, clustering akan makin baik bila memiliki nilai SSE yang kecil Nilai SSE akan mendekati 0 seiring dengan bertambahnya jumlah K. SSE akan bernilai 0 bila K sama dengan jumlah data dalam data set, karena setiap data adalah cluster tunggal dengan anggota hanya dirinya sendiri sekaligus sebagai centroid. Jumlah K SSE Permasalahannya, bagaimana memilih K yang optimum?

Elbow Method Metode untuk memilih nilai K terkecil yang masih memiliki nilai SSE yang rendah

Elbow Method Gambar kiri terlihat jelas menunjukkan bahwa elbow terletak pada K=3 sehingga jumlah cluster terbaik untuk data set adalah 3 cluster Tetapi tidak selamanya Elbow Method dapat digunakan untuk menentukan nilai K yang optimum. Pada gambar kanan terlihat bahwa kurva sangat landai sehingga sulit untuk menentukan dimana letak elbow nya

Data Set : Iris

Spesies Bunga Iris

Width Width Length Length

Distribusi Data Set

Plotting spesies bunga iris (sepal length vs width )

Plotting spesies bunga iris (Petal length vs width)

Jumlah K cluster yang optimal Elbow method Jumlah K cluster yang optimal

Performa cluster dengan K=3 Cluster 1 adalah cluster spesies bunga Iris Virginica Cluster 2 adalah cluster spesies bunga Iris Setosa Cluster 3 adalah cluster spesies bunga Iris Versicolor Dari matriks terlihat bahwa sebagian besar data observasi dapat dikelompokkan dengan benar, kecuali 2 versicolor masuk dalam cluster 1 yang sebagian besar anggotanya adalah virginica, and 4 bunga virginica masuk dalam cluster 3 yang merupakan cluster bunga iris versicolor.

Terima kasih