Klastering dengan K-Means

Slides:



Advertisements
Presentasi serupa
SULIDAR FITRI, M.Sc March 18,2014
Advertisements

Analisis Outlier.
K-Means Clustering.
Pengelompokan Jenis Tanah Menggunakan Algoritma Clustering K-Means
STATISTIKA DESKRIPSI DAN INFERENSIA
Pengurutan cepat (quick sort)
DATA MINING 1.
Algoritma Pemrograman
Uji Mean/ n kecil 2. Uji beda mean sampel kecil (n
Pemrosesan Teks Klasterisasi Dokumen Teknik Informatika STMIK GI MDP 2013 Shinta P.
UKURAN TENDENSI SENTRAL MEAN, MEDIAN,MODUS
UKURAN TENDENSI SENTRAL
Ukuran Nilai Sentral : Modus dan median.

Fuzzy Clustering Logika Fuzzy Materi Kuliah Prodi Teknik Informatika
1 Pertemuan 5 Matakuliah: I0044 / Analisis Eksplorasi Data Tahun: 2007 Versi: V1 / R1 Sari Numerik (I): Ukuran Pemusatan I.
Ukuran Pemusatan Data sering menunjukkan kecenderungan terpusat di sekitar suatu nilai. Nilai pusat ini kemudian dapat digunakan sebagai suatu ukuran ringkas.
Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY
Teknik Pengambilan Sampel
Denny Agustiawan JURUSAN TEKNIK INFORMATIKA STMIK ASIA MALANG
ANALISIS OUTLIER 1 Data Mining.
MENGHITUNG STATISTIKA DESKRIPTIF
Clustering Suprayogi.
Datamining - Suprayogi
Sistem Berbasis Fuzzy Materi 5
(NILAI TENGAH/ NILAI SENTRAL)
STATISTIK1 Pertemuan 3-4: Ukuran Pemusatan Dosen Pengampu MK:
UKURAN PEMUSATAN Merupakan nilai tunggal yang mewakili semua data atau kumpulan pengamatan dimana nilai tersebut menunjukkan pusat data. Yang termasuk.
Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY
STATISTIKA Mean, Median dan Modus.
UKURAN GEJALA PUSAT DAN UKURAN LETAK
Ukuran Nilai Sentral : Modus dan median.
Metode Riset Segmentasi
Mean, Median, Modus.
Ukuran Pemusatan - Data Berkelompok
Pengurutan cepat (quick sort)
UKURAN TENDENSI SENTRAL DAN POSISI
PENGANTAR TEORI PROBABILITAS & STATISTIKA
STATISTIK1 Pertemuan 3: Ukuran Pemusatan dan Penyebaran
K-Nearest Neighbor dan K-means
Clustering (Season 1) K-Means
Galat, continue Galat Absolut : adalah perbedaan antara nilai eksperimen dengan nilai yang sebenarnya. Contoh: Jika hasil pengukuran seorang analis untuk.
DISTRIBUSI NORMAL Data merupakan data kontinu (interval atau rasio)
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
STANDAR KOMPETENSI LULUSAN MATEMATIKA
STATISTIKA Pertemuan 3: Ukuran Pemusatan dan Penyebaran
STATISTIKA Pertemuan 3: Ukuran Pemusatan dan Penyebaran
CLUSTERING.
SQC 2- Statistik Deskriptif
Analisis Klastering K-Means Model Datamining Kelompok 1 Eko Suryana
KOMPETENSI DASAR Siswa dapat Menghitung ukuran pemusatan, ukuran letak, dan ukuran penyebaran data, serta penafsirannya.
CHAPTER 1 DESKRIPSI DATA
Ukuran Pemusatan dan Ukuran Penyebaran
ANALISIS CLUSTER Part 1.
Probabilitas dan Statistika
Pembelajaran tak-terbimbing dan klustering
ANALISIS CLUSTER Part 2.
A. Ukuran Pemusatan Data
Teori Penarikan Sampel
CLUSTERING.
K-MEANS ALGORITHM CLUSTERING
Pengelompokan Dokumen (Document Clustering)
Pertemuan 4 Ukuran Pemusatan
Implementasi clustering K-MEANS (dengan IRIS dataset)
By : Rahmat Robi Waliyansyah, M.Kom
STATISTIK1 Pertemuan 3-4: Ukuran Pemusatan Dosen Pengampu MK:
HIERARCHICAL CLUSTERING
DESKRIPSI DATA Pertemuan 3.
Universitas Gunadarma
PEMUSATAN DAN LETAK DATA
Transcript presentasi:

Klastering dengan K-Means

Tujuan Mahasiswa mampu mendeskripsikan konsep dasar klastering K-means dalam hal algoritma, kelemahan dan penerapannya

Pendahuluan K-mean merupakan teknik klastering yang paling umum dan sederhana. Tujuan klastering ini adalah mengelompokkan obyek ke dalam k klaster/kelompok. Nilai k harus ditentukan terlebih dahulu (berbeda dengan hierarchical clustering). Ukuran ketidakmiripan masih tetap digunakan untuk mengelompokkan obyek yang ada.

Algoritma K-means Secara ringkas algoritma K-means adalah sebagai berikut: Pilih jumlah klaster k Inisialisasi k pusat klaster Tempatkan setiap data/obyek ke klaster terdekat Perhitungan kembali pusat klaster Ulangi langkah 3 dengan memakai pusat klaster yang baru. Jika pusat klaster tidak berubah lagi maka proses pengklasteran dihentikan.

Penentuan Jumlah dan Pusat Klaster Inisialisasi atau penentuan nilai awal pusat klaster dapat dilakukan dengan berbagai macam cara, antara lain: Pemberian nilai secara random Pengambilan sampel awal dari data Penentuan nilai awal hasil dari klaster hirarki dengan jumlah klaster yang sesuai dengan penentuan awal. Dalam hal ini biasanya user memiliki pertimbangan intuitif karena dia memiliki informasi awal tentang obyek yang sedang dipelajari, termasuk jumlah klaster yang paling tepat.

Penempatan Obyek ke Dalam Klaster Penempatan obyek ke dalam klaster didasarkan pada kedekatannya dengan pusat klaster Dalam tahap ini perlu dihitung jarak tiap data ke tiap pusat klaster yang telah ditentukan. Jarak paling dekat antara suatu data dengan pusat klaster tertentu merupakan hal penentu data tersebut akan masuk klaster yang mana.

Perhitungan Kembali Pusat Klaster Pusat klaster ditentukan kembali dengan cara dihitung nilai rata-rata data/obyek dalam klaster tertentu. Jika dikehendaki dapat pula digunakan perhitungan median dari anggota klaster yang dimaksud Mean bukan satu-satunya ukurang yang bisa dipakai Pada kasus tertentu pemakaian median memberikan hasil yang lebih baik. Karena median tidak sensitif terhadap data outlier (data yang terletak jauh dari yang lain, meskipun dalam satu klaster - pencilan) Contoh: Mean dari 1, 3, 5, 7, 9 adalah 5 Mean dari 1, 3, 5, 7, 1009 adalah 205 Median dari 1, 3, 5, 7, 1009 adalah 5

Keterbatasan K-means K-means sangat bergantung pada penentuan nilai pusat klaster awal Penentuan nilai awal yang berbeda dapat memberikan hasil akhir yang berbeda.

Komentar pada Metoda K-Means Strength Relatively efficient: O(tkn), dimana n adalah # objects, k adalah # clusters, dan t merupakan # iterations. Umumnya, k, t << n. Biasanya berhenti pada nilai optimum lokal (local optimum). Nilai global optimum dapat ditentukan dengan menggunakan teknik seperti deterministic annealing dan genetic algorithms Weakness Dapat diterapkan hanya saat nilai mean telah ditentukan, bagaimana untuk data-data bersifat kategori? Perlu ditentukan k, jumlah klaster Tidak dapat menangani noisy data dan outliers Tidak tepat untuk membentuk klaster dengan data non-convex shapes

The K-Means Clustering Method Example

Tugas Carilah bahan bacaan (dapat dari jurnal, artikel, ataupun buku-buku referensi) untuk diskusi kelompok mengenai hal-hal berikut: Adakah kemungkinannya jika k-means dipakai untuk mengklasifikasikan data yang tidak bersifat numeris, misalnya dokumen Bagaimanakah caranya? Adakah penelitian yang membuktikan bahwa outlier dapat ditangani dalam k-means, jelaskan? Bagaimanakah nilai optimum k klaster dapat dicapai dalam metoda k-means?

Terimakasih