ANALISIS CLUSTER Part 1.

Slides:



Advertisements
Presentasi serupa
Klastering dengan K-Means
Advertisements

Pengelompokan Jenis Tanah Menggunakan Algoritma Clustering K-Means
Model Datamining Dr. Sri Kusumadewi, S.Si., MT. Materi Kuliah [10]:
Tehnik Survey dan Penyajian Data
Oleh I Putu Agus Hendra Krisnawan
STRUKTUR PENGETAHUAN ILMIAH
DATA MINING 1.
TINJAUAN UMUM DATA DAN STATISTIKA
? 1. Konsep Statistika STATISTIKA : Kegiatan untuk : mengumpulkan data
Mengidentifikasi Segmen Pasar Dan Memilih Pasar Sasaran
Pengenalan Data Warehouse
Aplikasi Model Jaringan Syaraf Tiruan dengan Radial Basis Function untuk Mendeteksi Kelainan Otak (Stroke Infark) Yohanes Tanjung S.
Stratified Random Sampling
VISION.
Pemrosesan Teks Klasterisasi Dokumen Teknik Informatika STMIK GI MDP 2013 Shinta P.
NAMA KELOMPOK .DIAN NOPIA NINGSIH .JULIANA PUTRI .NURUL KHAIRIAH ULYA
PENGERTIAN DAN PROSEDUR STRATIFIED RANDOM SAMPLING
Pengumpulan Dan Pengolahan Data
Clustering. Definition Clustering is “the process of organizing objects into groups whose members are similar in some way”. A cluster is therefore a collection.
Fuzzy Clustering Logika Fuzzy Materi Kuliah Prodi Teknik Informatika
Pengenalan Supervised dan Unsupervised Learning
Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY
METODE PENELITIAN KUANTITATIF
A rsitektur dan M odel D ata M ining. Arsitektur Data Mining.
MODEL/PEMODELAN.
Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY
Clustering Suprayogi.
Alokasi Biaya: Produk Gabungan dan Produk Sampingan
Datamining - Suprayogi
Sistem Berbasis Fuzzy Materi 5
STUDI KASUS KLASIFIKASI Algoritma C 4.5
Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY
POPULASI DAN SAMPEL.
D0124 Statistika Industri Pertemuan 7 dan 8
FACTOR ANALYSIS & CLUSTER ANALYSIS
TINJAUAN UMUM DATA DAN STATISTIKA
Metode Riset Segmentasi
SAMPLING.
Clustering Best Practice
Kuliah Sistem Fuzzy Pertemuan 7 “Fuzzy Clustering”
Pengurutan cepat (quick sort)
Analisis Cluster.
Pengukuran Tendensi Sentral
K-Nearest Neighbor dan K-means
Clustering (Season 1) K-Means
? 1. Konsep Statistika STATISTIKA : Kegiatan untuk : mengumpulkan data
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
Erry Yudhya Mulyani, M.Sc
Pengukuran Tendensi Sentral
ALAT-ALAT MANAJEMEN (2)
Analisis Klastering K-Means Model Datamining Kelompok 1 Eko Suryana
STATISTIKA LINGKUNGAN
PENDAHULUAN KELOMPOK I: Norjanah Ervi Febrianti Eka Wahyu Syahdawaty
Pembelajaran tak-terbimbing dan klustering
ANALISIS CLUSTER Part 2.
TINJAUAN UMUM DATA DAN STATISTIKA
TEKNIK INFORMATIKA UNIVERSITAS ATMA JAYA YOGYAKARTA
Pertemuan 10 Mata Kuliah Pengolahan Citra
Pengetahuan Data Mining
CLUSTERING.
K-MEANS ALGORITHM CLUSTERING
Pengelompokan Dokumen (Document Clustering)
Implementasi clustering K-MEANS (dengan IRIS dataset)
By : Rahmat Robi Waliyansyah, M.Kom
STATISTIKA DAN PROBABILITAS Rahmat Thaib, S.Kom.,M.Kom.
HIERARCHICAL CLUSTERING
DECISION SUPPORT SYSTEM [MKB3493]
STATISTIKA LINGKUNGAN
PERHITUNGAN BIAYA PRODUKSI BERSAMA DAN PRODUK SAMPINGAN (Joint Products and By Products) Perhitungan biaya produk bersama dan biaya produk sampingan perlu.
Universitas Gunadarma
Transcript presentasi:

ANALISIS CLUSTER Part 1

Analisis cluster merupakan salah satu teknik data mining yang bertujuan untuk mengidentifikasi sekelompok obyek yang mempunyai kemiripan karakteristik tertentu yang dapat dipisahkan dengan kelompok obyek lainnya, sehingga obyek yang berada dalam kelompok yang sama relatif lebih homogen daripada obyek yang berada pada kelompok yang berbeda.

Contoh penggunaan analisis cluster Identifikasi obyek (Recognition) : Dalam bidang image Processing , Computer Vision atau robot vision Decission Support System dan data mining • Membuat segmen pasar (segmenting the market). • Memahami perilaku pembeli. • Mengenali peluang produk baru .

Di dalam analisis cluster kita ingin menggerombolkan/mengklasterkan dari sekelompok obyek. Sedemikian sehingga obyek- obyek dalam klaster yang sama lebih mirip dibandingkan dengan obyek-obyek dalam klaster yang lain. Hasil dari analisis klaster dipengaruhi oleh : obyek yang diklasterkan, peubah yang diamati, ukuran kemiripan (jarak) rang dipakai, skala ukuran yang dipakai, serta metode pengklasteran yang digunakan. Secara umum metode pengklasteran dapat diklasifikasikan sesuai diagram berikut :

Algoritma Cluster Dua metode paling umum dalam algoritma cluster adalah metode hirarkhi dan metode non hirarkhi. Penentuan metode mana yang akan dipakai tergantung kepada peneliti dan konteks penelitian dengan tidak mengabaikan substansi, teori dan konsep yang berlaku. Keuntungan metode hirarkhi adalah cepat dalam proses pengolahan sehingga menghemat waktu, namun kelemahannya metode ini dapat menimbulkan kesalahan. Selain itu tidak baik diterapkan untuk menganalisis sampel dengan ukuran besar. Metode Non Hirarkhi memiliki keuntungan lebih daripada metode hirarkhi. Hasilnya memiliki sedikit kelemahan pada data outlier, ukuran jarak yang digunakan, dan termasuk variabel tak relevan atau variabel yang tidak tepat.

METODE HIRARKI Teknik hirarki (hierarchical methods) adalah teknik clustering membentuk kontruksi hirarki atau berdasarkan tingkatan tertentu seperti struktur pohon (struktur pertandingan). Dengan demikian proses pengelompokkannya dilakukan secara bertingkat atau bertahap. Hasil dari pengelompokan ini dapat disajikan dalam bentuk dendogram. Metode-metode yang digunakan dalam teknik hirarki Hal penting dalam metode hirarkhi adalah bahwa hasil pada tahap sebelumnya selalu bersarang di dalam hasil pada tahap berikutnya, membentuk sebuah pohon.

Ada 2 macam metode hirarkikal: Agglomerative Methods. Metode ini dimulai dengan kenyatan bahwa setiap obyek membentuk clusternya masing-masing. Kemudian dua obyek dengan jarak terdekat bergabung. Selanjutnya obyek ketiga akan bergabung dengan cluster yang ada atau bersama obyek lain dan membentuk cluster baru. Hal ini tetap memperhitungkan jarak kedekatan antar obyek. Proses akan berlanjut hingga akhirnya terbentuk satu cluster yang terdiri dari keseluruhan obyek.

Divisive Methods. Metode ini diawali dengan satu cluster besar yang mencakup semua observasi (obyek). Selanjutnya obyek yang mempunyai ketidakmiripan yang cukup besar akan dipisahkan sehingga membentuk cluster yang lebih kecil. Pemisahan ini dilanjutkan sehingga mencapai sejumlah cluster yang diinginkan.

METODE NON-HIRARKIKAL Berbeda dengan metode hirarkikal, prosedur non hirarkikal (K-means Clustering) dimulai dengan memilih sejumlah nilai cluster awal sesuai dengan jumlah yang diinginkan dan kemudian obyek digabungkan ke dalam cluster- cluster tersebut.

K-Means K-Means merupakan salah satu metode data clustering non hirarkikal yang berusaha mempartisi data yang ada ke dalam bentuk K cluster/kelompok. Metode ini mempartisi data ke dalam cluster/kelompok sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok yang lain.

Konsep dasar dari K-Means adalah pencarian pusat cluster secara iteratif. Pusat cluster ditetapkan berdasarkan jarak setiap data ke pusat cluster. Proses clustering dimulai dengan mengidentifikasi data yang akan dicluster, xij (i=1,...,n; j=1,...,m) dengan n adalah jumlah data yang akan dicluster dan m adalah jumlah variabel.

K-Means Pada awal iterasi, pusat setiap cluster ditetapkan secara bebas (sembarang), ckj (k=1,...,K; j=1,...,m). Kemudian dihitung jarak antara setiap data dengan setiap pusat cluster. Untuk melakukan penghitungan jarak data ke-i (Xi) pada pusat cluster ke-k (Ck), diberi nama (dik), dapat digunakan formula Euclidean, yaitu:

K-Means Suatu data akan menjadi anggota dari cluster ke-J apabila jarak data tersebut ke pusat cluster ke-J bernilai paling kecil jika dibandingkan dengan jarak ke pusat cluster lainnya. Selanjutnya, kelompokkan data-data yang menjadi anggota pada setiap cluster. Nilai pusat cluster yang baru dapat dihitung dengan cara mencari nilai rata-rata dari data-data yang menjadi anggota pada cluster tersebut, dengan rumus:

K-Means Tentukan jumlah cluster (K), tetapkan pusat cluster sembarang. Algoritma: Tentukan jumlah cluster (K), tetapkan pusat cluster sembarang. Hitung jarak setiap data ke pusat cluster. Kelompokkan data ke dalam cluster yang dengan jarak yang paling pendek. Hitung pusat cluster. Ulangi langkah 2 - 4 hingga sudah tidak ada lagi data yang berpindah ke cluster yang lain.

Contoh K-Means Anda diminta mencluster 8 point berikut: A1(2;10), A2(2; 5), A3(8;4), B1(5;8), B2(7;5), B3(6;4), C1(1;2), C2(4;9). gunakan K-Means dengan euclidean distance. Asumsikan A2, B2 dan C2 sebagai inisial cluster untuk cluster A, B dan C. Tampilkan perhitungan dan isi cluster (termasuk centroid cluster yang dihitung dengan rata-rata).

Contoh K-Means A1(2; 10), A2(2; 5), A3(8; 4), B1(5; 8), B2(7; 5), B3(6; 4), C1(1; 2), C2(4; 9). Jarak antara setiap titik dengan setiap cluster. Cluster A, centroid: (2;5) Cluster B, centroid: (7;5) Cluster C, centroid: (4;9) A1  cluster A A3  cluster A, d(A3,A) = B1  cluster A, d(B1,A) = B3  cluster A, d(B3,A) = C1  cluster A, d(C1,A) = Lanjutan