Universitas Gunadarma

Slides:



Advertisements
Presentasi serupa
Analisis Outlier.
Advertisements

Kohonen Self Organizing Feature Map
Self Organizing Map.
K-Means Clustering.
Klastering dengan K-Means
Pengelompokan Jenis Tanah Menggunakan Algoritma Clustering K-Means
Self Organizing Maps Tim Asprak Metkuan
Minggu lalu Decision tree Bayesian Classification Ujian.
Oleh I Putu Agus Hendra Krisnawan
DATA MINING 1.
Desain dan Analisis Algoritma
Dr. Benyamin Kusumoputro
TOWARDS MULTIPLE IDENTITY DETECTION IN SOCIAL NETWORKS & RESEARCH METODOLOGY 3KS2 ERMA FITRIANA RANITA RIZKI APRILLIA.
Aplikasi Model Jaringan Syaraf Tiruan dengan Radial Basis Function untuk Mendeteksi Kelainan Otak (Stroke Infark) Yohanes Tanjung S.
Chapter 9 ALGORITME Cluster dan WEKA
Pemrosesan Teks Klasterisasi Dokumen Teknik Informatika STMIK GI MDP 2013 Shinta P.
Clustering. Definition Clustering is “the process of organizing objects into groups whose members are similar in some way”. A cluster is therefore a collection.
S1 Teknik Informatika Disusun Oleh Dr. Lily Wulandari
Fuzzy Clustering Logika Fuzzy Materi Kuliah Prodi Teknik Informatika
Clustering (Season 2) Self-Organizing Map
Pengolahan Citra Digital Materi 6
Jaringan Syaraf Tiruan (JST) stiki. ac
Pengenalan Supervised dan Unsupervised Learning
Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY
Jarringan Syaraf Tiruan
DATA MINING (Machine Learning)
ANALISIS OUTLIER 1 Data Mining.
Pertemuan 12 ARTIFICIAL NEURAL NETWORKS (ANN) - JARINGAN SYARAF TIRUAN - Betha Nurina Sari, M.Kom.
Clustering Suprayogi.
K-SUPPORT VECTOR NEAREST NEIGHBOR UNTUK KLASIFIKASI BERBASIS K-NN
Datamining - Suprayogi
Sistem Berbasis Fuzzy Materi 5
Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY
JST (Jaringan Syaraf Tiruan)
Metode Cluster Self-Organizing Map untuk Temu Kembali Citra
Pembimbing: Henri Harianja G Imas S. Sitanggang, S.Si M.Kom
PEMBUATAN POHON KEPUTUSAN
Jaringan Syaraf Tiruan
Clustering Best Practice
Aplikasi Kecerdasan Komputasional
SOM – KOHONEN Unsupervised Learning
K-Nearest Neighbor dan K-means
Clustering (Season 1) K-Means
Jaringan Syaraf Tiruan Artificial Neural Networks (ANN)
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
Artificial Intelligence (AI)
Classification Supervised learning.
Jaringan Syaraf Tiruan
Artificial Neural Network
CLUSTERING.
Clustering (Season 2) Self-Organizing Map
Analisis Klastering K-Means Model Datamining Kelompok 1 Eko Suryana
Algoritma kNN (k-Nearest Neighbor)
Pertemuan 15 ALGORITMA GENETIKA
Analisa algoritma rekursif
Self-Organizing Network Model (SOM) Pertemuan 10
Metode Data Mining “ Self-Organizing Map [SOM] ” Taskum Setiadi ADVANCE MACHINE LEARNING STMIK Nusa Mandiri Jakarta2016 ADVANCE MACHINE LEARNING.
ANALISIS CLUSTER Part 1.
ANALISIS CLUSTER Part 2.
KLASIFIKASI.
Konsep Aplikasi Data Mining
JARINGAN SYARAF TIRUAN BERBASIS KOMPETISI
CLUSTERING.
K-MEANS ALGORITHM CLUSTERING
Pengelompokan Dokumen (Document Clustering)
Implementasi clustering K-MEANS (dengan IRIS dataset)
By : Rahmat Robi Waliyansyah, M.Kom
DECISION SUPPORT SYSTEM [MKB3493]
Universitas Gunadarma
Intro Algoritma K-Nearest Neighbor (K- NN) adalah sebuah metode klasifikasi terhadap sekumpulan data maupun dokumen berdasarkan pembelajaran  data yang.
Transcript presentasi:

Universitas Gunadarma KONSEP DATA MINING Disusun Oleh : Dr Lily Wulandari Universitas Gunadarma Logo Seminar

CLUSTERING(2)

Partition Clustering 2. Partition-based clustering Clustering dengan pendekatan partisi atau sering disebut dengan partition-based clustering mengelompokkan data dengan memilah-milah data yang dianalisa ke dalam cluster-cluster yang ada .

Partition Clustering Gambar 2 Proses Clustering Obyek Menggunakan metode k- Means (Sumber:Han dkk, 2012)

Partition Clustering Metode K-means merupakan metode clustering yang paling sederhana dan umum. Hal ini dikarenakan K- means mempunyai kemampuan mengelompokkan data dalam jumlah yang cukup besar dengan waktu komputasi yang cepat dan efisien.  K-Means merupakan salah satu algoritma klastering dengan metode partisi (partitioning method) yang berbasis titik pusat (centroid) selain algoritma k- Medoids yang berbasis obyek.

Partition Clustering Algoritma K-Means ini pertama kali diusulkan oleh MacQueen (1967) dan dikembangkan oleh  Hartigan dan Wong tahun  1975 dengan tujuan untuk dapat membagi M data point dalam N dimensi ke dalam sejumlah k cluster dimana proses klastering dilakukan dengan meminimalkan jarak sum squares antara data dengan masing masing pusat cluster (centroid-based).

Partition Clustering Algoritma k-Means dalam penerapannya memerlukan tiga parameter yang seluruhnya ditentukan pengguna yaitu jumlah cluster k, inisialisasi klaster, dan jarak sistem, Biasanya, k-Means dijalankan secara independen dengan inisialisasi yang berbeda menghasilkan cluster akhir yang berbeda karena algoritma ini secara prinsip hanya mengelompokan data menuju local minimal. Salah satu cara untuk mengatasi local minimal adalah dengan mengimplementasikan algoritma k-Means, untuk K yang diberikan, dengan beberapa nilai initial partisi yang berbeda dan selanjutnya dipilih partisi dengan kesalahan kuadrat terkecil (Jain, 2009).

Partition Clustering K-Means adalah teknik yang cukup sederhana dan cepat dalam proses clustering obyek (clustering). Algoritma K-mean mendefinisikan centroid atau pusat cluster dari cluster menjadi rata-rata point dari cluster tersebut. Dalam penerapan algoritma k-Means, jika diberikan sekumpulan data X = {x1, x2, …,xn} dimana xi = (xi1, xi2, …, xin) adalah sistem dalam ruang real Rn, maka algoritma k-Means akan menyusun partisi X dalam sejumlah k cluster (a priori).

Partition Clustering Setiap cluster memiliki titik tengah (centroid) yang merupakan nilai rata rata (mean) dari data-data dalam cluster tersebut. Tahapan awal, algoritma k-Means adalah memilih secara acak k buah obyek sebagai centroid dalam data. Kemudian, jarak antara obyek dan centroid dihitung menggunakan Euclidian distance.

Partition Clustering Algoritma k-Means secara iterative meningkatkan variasi nilai dalam tiap cluster dimana obyek selanjutnya ditempatkan dalam kelompok yang terdekat, dihitung dari titik tengah klaster. Titik tengah baru ditentukan bila semua data telah ditempatkan dalam cluster terdekat. Proses penentuan titik tengah dan penempatan data dalam cluster diulangi sampai nilai titik tengah dari semua cluster yang terbentuk tidak berubah lagi (Han dkk, 2012).

Partition Clustering Algoritma k-means: Langkah 1: Tentukan berapa banyak cluster k dari dataset yang akan dibagi. Langkah 2: Tetapkan secara acak data k menjadi pusat awal lokasi klaster. Langkah 3: Untuk masing-masing data, temukan pusat cluster terdekat. Dengan demikian berarti masing-masing pusat cluster memiliki sebuah subset dari dataset, sehingga mewakili bagian dari dataset. Oleh karena itu, telah terbentuk cluster k: C1, C2, C3, …, Ck .

Partition Clustering Algoritma k-means (lanjutan): Langkah 4: Untuk masing-masing cluster k, temukan pusat luasan klaster, dan perbarui lokasi dari masing- masing  pusat cluster ke nilai baru dari  pusat luasan. Langkah 5: Ulangi langkah ke-3 dan ke-5 hingga data-data pada tiap cluster menjadi terpusat atau sampai tidak ada perubahan atau perubahan yang terjadi masih di bawah treshold.

Studi Kasus Clustering Dengan K-Means BPR ABC memiliki data nasabah yang pernah memperoleh kredit, data berupa jumlah rumah dan mobil yang dimiliki pelanggan.

Studi Kasus Clustering Dengan K-Means Clustering yang diharapkan mampu menghasilkan kelompok nasabah yang memenuhi sifat berikut: Nasabah yang jumlah rumah dan mobilnya hampir sama akan berada pada kelompok nasabah yang sama. Nasabah yang jumlah rumah dan mobilnya cukup berbeda akan berada pada kelompok nasabah yang berbeda.

Studi Kasus Clustering Dengan K-Means Berikut langkah-langkah clustering menggunakan algoritma K- Means. Langkah 1: Tentukan jumlah cluster yang diinginkan (misl:k=3) Langkah 2: Pilih centroid awal secara acak : Pada langkah ini secara acak akan dipilih 3 buah data sebagai centroid, misalnya: data {B,E,F} M1=(3,3) ,M2=(1,2),M3=(4,2) Langkah 3: Hitung jarak dengan centroid …………………… (iterasi 1)

Studi Kasus Clustering Dengan K-Means Pada langkah ini setiap data akan ditentukan centroid terdekatnya, dan data tersebut akan ditetapkan sebagai anggota kelompok yang terdekat dengan centroid. Untuk menghitung jarak ke centroid masing-masing cluster pada nasabah A sbb: Data: (1,3) , centroid M1: (3,3), centroid M2: (1,2), centroid M3: (4,2) DM1 =√(1−3)2+(3−3)2 = 2 DM2 =√(1−1)2+(3−2)2 = 1 DM3 =√(1−4)2+(3−2)2 = 3.162

Studi Kasus Clustering Dengan K-Means Dari tabel di atas didapatkan keanggotaan nasabah sbb: Cluster 1 = {B},cluster 2 ={A,E,G,H},cluster 3= {C,D,F}

Studi Kasus Clustering Dengan K-Means Pada langkah ini dihitung pula rasio antara besaran BCV (Between Cluster Variation) dengan WCV (Within Cluster Variation) : Karena centroid M1=(3,3) ,M2=(1,2),M3=(4,2) BCV=d(m1,m2)+d(m1,m3)+d(m2,m3) = 2.236+1.414+3 = 6,650 Dalam hal ini d(mi,mj) menyatakan jarak Euclidean dari m ke mj

Studi Kasus Clustering Dengan K-Means Menghitung WCV Yaitu dengan memilih jarak terkecil antara data dengan centroid pada masing-masing cluster:

Studi Kasus Clustering Dengan K-Means Sehingga Besar Rasio = BCV/WCV = 6.650 / 7 = 0.950 Karena langkah ini merupakan iterasi 1 maka lanjutkan ke langkah berikutnya Langkah 4: Pembaruan centroid dengan menghitung rata-rata nilai pada masing-masing cluster.

Studi Kasus Clustering Dengan K-Means Sehingga didapatkan centroid baru yaitu : m1=(3,3),m2=(1.25,1.75),m3=(4.33,2.67)

Studi Kasus Clustering Dengan K-Means Langkah 3: (Iterasi-2) Kembali kelangkah 3, jika masih ada data yang berpindah cluster atau jika nilai centroid di atas nilai ambang, atau jika nilai pada fungsi obyektif yang digunakan masih di atas ambang. Selanjutnya pada langkah ini dilakukan penempatan lagi data dalam centroid terdekat sama seperti yang dilakukan di langkah-3.

Studi Kasus Clustering Dengan K-Means Untuk menghitung jarak ke centroid masing- masing cluster pada nasabah A sbb: Data : (1,3) , m1=(3,3),m2=(1.25,1.75),m3=(4.33,2.67)

Studi Kasus Clustering Dengan K-Means Dari tabel didapatkan keanggotaan nasabah sbb: Cluster 1 = {B},cluster 2 ={A,E,G,H},cluster 3= {C,D,F}

Studi Kasus Clustering Dengan K-Means Pada langkah ini dihitung pula rasio antara besaran BCV (Between Cluster Variation) dengan WCV (Within Cluster Variation) : BCV=d(m1,m2)+d(m1,m3)+d(m2,m3) = 6,741 Sehingga Besar Rasio = BCV/WCV = 6.741 /4.833 = 1.394 Bila dibandingkan maka rasio sekarang (1.394) lebih besar dari rasio sebelumnya (0.950) oleh karena itu algoritma dilanjutkan kelangkah berikutnya

Studi Kasus Clustering Dengan K-Means Langkah ke 4 – iterasi 3 Pada langkah ini dilakukan pembaruan centroid lagi:

Studi Kasus Clustering Dengan K-Means Langkah ketiga iterasi-3 Untuk menghitung jarak ke centroid masing-masing cluster pada nasabah A sbb: Data nasabah A : (1,3) , m1=(3,3),m2=(1.25,1.75),m3=(4.33,2.67)

Studi Kasus Clustering Dengan K-Means Dari tabel di atas didapatkan keanggotaan nasabah sbb: Cluster 1 = {B},cluster 2 ={A,E,G,H},cluster 3= {C,D,F}

Studi Kasus Clustering Dengan K-Means Pada langkah ini dihitung pula rasio antara besaran BCV (Between Cluster Variation) dengan WCV (Within Cluster Variation) : BCV=d(m1,m2)+d(m1,m3)+d(m2,m3) = 6,741 Sehingga Besar Rasio = BCV/WCV = 6.741 /4.833 = 1.394 Bila dibandingkan maka rasio sekarang (1.394) sudah tidak lagi lebih besar dari rasio sebelumnya (1.394) oleh karena itu algoritma akan dihentikan.

SOM Di samping kedua pendekatan tersebut, ada juga clustering dengan pendekatan automatic mapping (Self-Organising Map/SOM) Self-Organising Map (SOM) merupakan suatu tipe Artificial Neural Networks yang di-training secara unsupervised. SOM menghasilkan map yang terdiri dari output dalam dimensi yang rendah (2 atau 3 dimensi). Map ini berusaha mencari property dari input data. Komposisi input dan output dalam SOM mirip dengan komposisi dari proses feature scaling (multidimensional scaling).

SOM Walaupun proses learning yang dilakukan mirip dengan Artificial Neural Networks, tetapi proses untuk melakukan assign input data ke map, lebih mirip dengan K-Means dan KNN Algorithm. Adapun prosedur yang ditempuh dalam melakukan clustering dengan SOM adalah sebagai berikut Tentukan weight dari input data secara random Pilih salah satu input data Hitung tingkat kesamaan (dengan Eucledian) antara input data dan weight dari input data tersebut dan pilih input data yang memiliki kesamaan dengan weight yang ada (data ini disebut dengan Best Matching Unit (BMU))

SOM Prosedur clustering (lanjutan): Perbaharui weight dari input data dengan mendekatkan weight tersebut ke BMU dengan rumus: Wv(t+1)=Wv(t) + Theta(v, t) x Alpha(t) x (D(t) – Wv(t))… Dimana: Wv(t): Weight pada saat ke-t Theta (v, t): Fungsi neighbourhood yang tergantung pada Lattice distance antara BMU dengan neuron v. Umumnya bernilai 1 untuk neuron yang cukup dekat dengan BMU, dan 0 untuk yang sebaliknya. Penggunaan fungsi Gaussian juga memungkinkan. Alpha (t): Learning Coefficient yang berkurang secara monotonic D(t): Input data

SOM Prosedur clustering (lanjutan): Tambahkan nilai t, sampai t< Lambda, dimana Lambda adalah jumlah iterasi

Apa itu Clustering yang Baik? Kriteria internal: Pengelompokan yang baik akan menghasilkan kluster yang berkualitas tinggi di mana: kesamaan intra-kelas (yaitu, intra-cluster) tinggi kesamaan antar kelas rendah Kualitas terukur dari pengelompokan tergantung pada representasi dokumen dan ukuran kesamaan yang digunakan

Kriteria eksternal untuk kualitas pengelompokan Kualitas diukur dengan kemampuannya untuk menemukan beberapa atau semua pola tersembunyi atau kelas laten dalam data standar emas Menilai pengelompokan sehubungan dengan kebenaran dasar Asumsikan dokumen dengan kelas standar C emas, sementara algoritma pengelompokan kami menghasilkan K cluster, ω1, ω2,…, ωK dengan anggota ni.

Evaluasi Eksternal Kualitas Cluster Ukuran sederhana: Purity (kemurnian), rasio antara kelas dominan di cluster πi dan ukuran cluster ωi Lainnya adalah entropi kelas dalam kelompok (atau informasi timbal balik antara kelas dan kelompok)

Contoh Purity(Kemurnian)                  Cluster I Cluster II Cluster III Cluster I: Purity = 1/6 (max(5, 1, 0)) = 5/6 Cluster II: Purity = 1/6 (max(1, 4, 1)) = 4/6 Cluster III: Purity = 1/5 (max(2, 0, 3)) = 3/5

Pustaka Han, J., Kamber, M., Pei, J.: Data Mining Concept and Techniques, 3rd ed. Morgan Kaufmann-Elsevier, Amsterdam (2012) Jain. A.K (2009). Data Clustering: 50 Years Beyond K-Means. Pattern Recognition Letters, 2009. Tan, P.N., Steinbach, M., Kumar, V. (2006) Introduction to Data Mining. Boston:Pearson Education.