Analisis Klastering K-Means Model Datamining Kelompok 1 Eko Suryana

Slides:

Advertisements

Presentasi serupa

Analisis Outlier.

Advertisements

K-Means Clustering.

Pengelompokan Jenis Tanah Menggunakan Algoritma Clustering K-Means

Model Datamining Dr. Sri Kusumadewi, S.Si., MT. Materi Kuliah [10]:

Topik-Topik Lanjutan Sistem Informasi Johanes Kevin Lumadi Deny Setiawan Machliza Devi Sasmita Silvia Line Billie.

Peran Utama Data Mining

Ujian Akhir Semester (UAS)

Model Sistem Pengenalan Pola

Pemrosesan Teks Klasterisasi Dokumen Teknik Informatika STMIK GI MDP 2013 Shinta P.

Fuzzy Clustering Logika Fuzzy Materi Kuliah Prodi Teknik Informatika

Clustering (Season 2) Self-Organizing Map

Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY

Pengenalan Supervised dan Unsupervised Learning

Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY

A rsitektur dan M odel D ata M ining. Arsitektur Data Mining.

DATA MINING (Machine Learning)

ANALISIS OUTLIER 1 Data Mining.

Sistem Berbasis Fuzzy Materi 4

Pertemuan 12 ARTIFICIAL NEURAL NETWORKS (ANN) - JARINGAN SYARAF TIRUAN - Betha Nurina Sari, M.Kom.

Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY

Clustering Suprayogi.

K-SUPPORT VECTOR NEAREST NEIGHBOR UNTUK KLASIFIKASI BERBASIS K-NN

Datamining - Suprayogi

Sistem Berbasis Fuzzy Materi 5

Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY

Algoritma C4.5. Algoritma C4.5 Object-Oriented Programming Introduction Algoritma C4.5 merupakan algoritma yang digunakan.

Data Mining Junta Zeniarja, M.Kom, M.CS

Konsep Data Mining Ana Kurniawati.

Clustering Best Practice

Kuliah Sistem Fuzzy Pertemuan 7 “Fuzzy Clustering”

Algoritma kNN (k-Nearest Neighbor)

K-Nearest Neighbor dan K-means

Business Intelligent Ramos Somya, S.Kom., M.Cs.

Clustering (Season 1) K-Means

? 1. Konsep Statistika STATISTIKA : Kegiatan untuk : mengumpulkan data

PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN

Classification Supervised learning.

PEMOGRAMAN LINEAR TABEL SIMPLEKS

Jaringan Syaraf Tiruan

Jenis data penentuan lokasi pabrik : Data kualitatif, seperti kualitas sarana transportasi, iklim dan kebijakan pemerintah. Data kuantitatif, seperti.

Clustering (Season 2) Self-Organizing Map

PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN

Algoritma kNN (k-Nearest Neighbor)

Klasifikasi Nearest Neighbor

ANALISIS CLUSTER Part 1.

Pembelajaran tak-terbimbing dan klustering

ANALISIS CLUSTER Part 2.

Machine Learning Naïve Bayes

Konsep Aplikasi Data Mining

JARINGAN SYARAF TIRUAN BERBASIS KOMPETISI

Pertemuan 8, 9, 10 Teknik-teknik Data Mining

Arsitektur dan Model Data Mining

Pengetahuan Data Mining

Pertemuan 1 & 2 Pengantar Data Mining 12/6/2018.

K-MEANS ALGORITHM CLUSTERING

Pengelompokan Dokumen (Document Clustering)

Konsep Data Mining Ana Kurniawati.

IMPLEMENTASI ALGORITMA k-NN

Implementasi clustering K-MEANS (dengan IRIS dataset)

By : Rahmat Robi Waliyansyah, M.Kom

HIERARCHICAL CLUSTERING

DECISION SUPPORT SYSTEM [MKB3493]

Universitas Gunadarma

Intro Algoritma K-Nearest Neighbor (K- NN) adalah sebuah metode klasifikasi terhadap sekumpulan data maupun dokumen berdasarkan pembelajaran data yang.

Universitas Gunadarma

Query & Analisa Spasial

Algoritma kNN (k-Nearest Neighbor)

Transcript presentasi:

Analisis Klastering K-Means Model Datamining Kelompok 1 Eko Suryana Aji Sudarsono Gunawan Reno Supardi Revino Merbolin

Definisi “Mining”: proses atau usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar yang telah ada.

Definisi Beberapa faktor dalam pendefinisian data mining: data mining adalah proses otomatis terhadap data yang dikumpulkan di masa lalu objek dari data mining adalah data yang berjumlah besar atau kompleks tujuan dari data mining adalah menemukan hubungan-hubungan atau pola-pola yang mungkin memberikan indikasi yang bermanfaat.

Definisi Definisi data mining Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual. Data mining adalah analisa otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari keberadaannya

Kategori dalam Data mining Classification Clustering Statistical Learning Association Analysis Link Mining Bagging and Boosting Sequential Patterns Integrated Mining Rough Sets Graph Mining

Classification Klasifikasi adalah suatu proses pengelompokan data dengan didasarkan pada ciri- ciri tertentu ke dalam kelas-kelas yang telah ditentukan pula. Dua metode yang cukup dikenal dalam klasifikasi, antara lain: Naive Bayes K Nearest Neighbours (kNN)

Clustering Clustering adalah proses pengelompokan objek yang didasarkan pada kesamaan antar objek. Tidak seperti proses klasifikasi yang bersifat supervised learning, pada clustering proses pengelompokan dilakukan atas dasar unsupervised learning. Pada proses klasifikasi, akan ditentukan lokasi dari suatu kejadian pada klas tertentu dari beberapa klas yang telah teridentifikasi sebelumnya. Sedangkan pada proses clustering, proses pengelompokan kejadian dalam klas akan dilakukan secara alami tanpa mengidentifikasi klas-klas sebelumnya.

Clustering Suatu metode clustering dikatakan baik apabila metode tersebut dapat menghasilkan cluster- cluster dengan kualitas yang sangat baik. Metode tersebut akan menghasilkan cluster- cluster dengan objek-objek yang memiliki tingkat kesamaan yang cukup tinggi dalam suatu cluster, dan memiliki tingkat ketidaksamaan yang cukup tinggi juga apabila objek-objek tersebut terletak pada cluster yang berbeda. Untuk mendapatkan kualitas yang baik, metode clustering sangat tergantung pada ukuran kesamaan yang akan digunakan dan kemampuannya untuk menemukan beberapa pola yang tersembunyi.

K-Means Konsep dasar dari K-Means adalah pencarian pusat cluster secara iteratif. Pusat cluster ditetapkan berdasarkan jarak setiap data ke pusat cluster. Proses clustering dimulai dengan mengidentifikasi data yang akan dicluster, xij (i=1,...,n; j=1,...,m) dengan n adalah jumlah data yang akan dicluster dan m adalah jumlah variabel.

K-Means Pada awal iterasi, pusat setiap cluster ditetapkan secara bebas (sembarang), ckj (k=1,...,K; j=1,...,m). Kemudian dihitung jarak antara setiap data dengan setiap pusat cluster. Untuk melakukan penghitungan jarak data ke-i (Xi) pada pusat cluster ke-k (Ck), diberi nama (dik), dapat digunakan formula Euclidean, yaitu:

K-Means Suatu data akan menjadi anggota dari cluster ke- J apabila jarak data tersebut ke pusat cluster ke-J bernilai paling kecil jika dibandingkan dengan jarak ke pusat cluster lainnya. Selanjutnya, kelompokkan data-data yang menjadi anggota pada setiap cluster. Nilai pusat cluster yang baru dapat dihitung dengan cara mencari nilai rata-rata dari data- data yang menjadi anggota pada cluster tersebut, dengan rumus:

K-Means Algoritma: Tentukan jumlah cluster (K), tetapkan pusat cluster sembarang. Hitung jarak setiap data ke pusat cluster. Kelompokkan data ke dalam cluster yang dengan jarak yang paling pendek. Hitung pusat cluster. Ulangi langkah 2 - 4 hingga sudah tidak ada lagi data yang berpindah ke cluster yang lain. Contoh…

Penentuan Jumlah Cluster Salah satu masalah yang dihadapi pada proses clustering adalah pemilihan jumlah cluster yang optimal. Kauffman dan Rousseeuw (1990) memperkenalkan suatu metode untuk menentukan jumlah cluster yang optimal, metode ini disebut dengan silhouette measure. Misalkan kita sebut A sebagai cluster dimana data Xi berada, hitung ai sebagai rata-rata jarak Xi ke semua data yang menjadi anggota A. Anggaplah bahwa C adalah sembarang cluster selain A.

Penentuan Jumlah Cluster Hitung rata-rata jarak antara Xi dengan data yang menjadi anggota dari C, sebut sebagai d(Xi, C). Cari rata-rata jarak terkecil dari semua cluster, sebut sebagai bi, bi = min(d(Xi,C)) dengan CA. Silhoutte dari Xi, sebut sebagai si dapat dipandang sebagai berikut (Chih-Ping, 2005):

Penentuan Jumlah Cluster Rata-rata si untuk semua data untuk k cluster tersebut disebut sebagai rata-rata silhouette ke-k, . Nilai rata-rata silhouette terbesar pada jumlah cluster (katakanlah: k) menunjukkan bahwa k merupakan jumlah cluster yang optimal.

Kelemahan K-Means Bila jumlah data tidak terlalu banyak, mudah untuk menentukan cluster awal. Jumlah cluster, sebanyak K, harus ditentukan sebelum dilakukan perhitungan. Tidak pernah mengetahui real cluster dengan menggunakan data yang sama, namun jika dimasukkan dengan cara yang berbeda mungkin dapat memproduksi cluster yang berbeda jika jumlah datanya sedikit. Tidak tahu kontribusi dari atribut dalam proses pengelompokan karena dianggap bahwa setiap atribut memiliki bobot yang sama

Contoh Kasus . Ada 10 data pada data set. Dimensi data ada 2 fitur (agar mudah dalam visualisasi koordinat kartesius). Fitur yang digunakan dalam pengelompokan adalah x dan y Jarak yang digunakan adalah Euclidean distance. Jumlah cluster (K) adalah 3. Threshold (T) yang digunakan untuk perubahan fungsi objektif adalah 0.1. Data ke-i Fitur x Fitur y 1 2 4 3 6 5 7 8 9 10 Diberikan data nilai dari 12 siswa sebagai Berikut, kemudian jadikan data tersebut menjadi 2 Cluster.

Contoh Kasus Tentukan pusat awal cluster “Centroid” Untuk penentuan awal diasumsikan : Diambil data ke- 2 sebagai pusat Cluster Ke-1: (4,1) Diambil data ke- 5 sebagai pusat Cluster Ke-2: (2,3).

Contoh Kasus Perhitungan jarak pusat cluster Untuk mengukur jarak antara data dengan pusat cluster digunakan Euclidian distance, kemudian akan didapatkan matrik jarak sebagai berikut :

Contoh Kasus Perhitungan Jarak dari data ke 1 terhadap pusat cluster

Contoh Kasus Perhitungan Jarak dari data ke 2 terhadap pusat cluster

Contoh Kasus Perhitungan Jarak dari data ke 3 terhadap pusat cluster

Contoh Kasus Perhitungan seterusnya sampai Jarak dari data ke 10 terhadap pusat cluster, Sehingga hasil perhitungan jarak selengkapnya adalah : 1 2 3 4 5 6 7 8 9 10 3,00 0,00 2,00 3,16 2,83 2,24 4,47 4,12 5,39 7,07 C1 1,41 5,10 C2 Baris Pertama Menunjukkan nilai jarak data terhadap titik pusat Cluster Pertama, Baris kedua menunjukkan nilai jarak data terhadap pusat cluster kedua.

Contoh Kasus Pengelompokan Data (diasumsikan G1) 1 2 3 4 5 6 7 8 9 10 C1 C2

Contoh Kasus C1= Penentuan Pusat Cluster Baru Karena C1 memiliki 10 anggota maka perhitungan cluster baru menjadi : C1=

Contoh Kasus Pengulangan langkah ke 2 hingga posisi data tidak mengalami perubahan Perhitungan Jarak dari data ke 1 terhadap pusat cluster

Contoh Kasus Perhitungan Jarak dari data ke 2 terhadap pusat cluster

Contoh Kasus Perhitungan Jarak dari data ke 3 terhadap pusat cluster

Contoh Kasus Perhitungan seterusnya sampai Jarak dari data ke 10 terhadap pusat cluster. Sehingga hasil perhitungan jarak selengkapnya adalah : 1 2 3 4 5 6 7 8 9 10 4,05 1,20 4,01 3,29 1,34 4,49 3,89 5,28 6,65 C1 3,44 3,85 5,18 2,50 1,29 3,27 4,73 1,23 1,71 3,84 C2

Contoh Kasus Lakukan pengelompokan data kembali sehingga dihasilkan matrik yang dimisalkan dengan G2. 1 2 3 4 5 6 7 8 9 10 C1 C2

Contoh Kasus Karena G1 = G2 dimana anggota yang sama, maka tidak perlu dilakukan iterasi / perulangan lagi. Dan sampai disini hasil Clustering sudah mencapai stabil dan Konvergen Kesimpulan. Hasil Clustering adalah Cluster 1 : Data 2,3,6 Cluster 2 : Data 1,4,5,7,8,9,10