Klastering dengan K-Means

Slides:

Advertisements

Presentasi serupa

SULIDAR FITRI, M.Sc March 18,2014

Advertisements

Analisis Outlier.

K-Means Clustering.

Pengelompokan Jenis Tanah Menggunakan Algoritma Clustering K-Means

STATISTIKA DESKRIPSI DAN INFERENSIA

Pengurutan cepat (quick sort)

Algoritma Pemrograman

Uji Mean/ n kecil 2. Uji beda mean sampel kecil (n

Pemrosesan Teks Klasterisasi Dokumen Teknik Informatika STMIK GI MDP 2013 Shinta P.

UKURAN TENDENSI SENTRAL MEAN, MEDIAN,MODUS

UKURAN TENDENSI SENTRAL

Ukuran Nilai Sentral : Modus dan median.

Fuzzy Clustering Logika Fuzzy Materi Kuliah Prodi Teknik Informatika

1 Pertemuan 5 Matakuliah: I0044 / Analisis Eksplorasi Data Tahun: 2007 Versi: V1 / R1 Sari Numerik (I): Ukuran Pemusatan I.

Ukuran Pemusatan Data sering menunjukkan kecenderungan terpusat di sekitar suatu nilai. Nilai pusat ini kemudian dapat digunakan sebagai suatu ukuran ringkas.

Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY

Teknik Pengambilan Sampel

Denny Agustiawan JURUSAN TEKNIK INFORMATIKA STMIK ASIA MALANG

ANALISIS OUTLIER 1 Data Mining.

MENGHITUNG STATISTIKA DESKRIPTIF

Clustering Suprayogi.

Datamining - Suprayogi

Sistem Berbasis Fuzzy Materi 5

(NILAI TENGAH/ NILAI SENTRAL)

STATISTIK1 Pertemuan 3-4: Ukuran Pemusatan Dosen Pengampu MK:

UKURAN PEMUSATAN Merupakan nilai tunggal yang mewakili semua data atau kumpulan pengamatan dimana nilai tersebut menunjukkan pusat data. Yang termasuk.

Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY

STATISTIKA Mean, Median dan Modus.

UKURAN GEJALA PUSAT DAN UKURAN LETAK

Ukuran Nilai Sentral : Modus dan median.

Metode Riset Segmentasi

Mean, Median, Modus.

Ukuran Pemusatan - Data Berkelompok

Pengurutan cepat (quick sort)

UKURAN TENDENSI SENTRAL DAN POSISI

PENGANTAR TEORI PROBABILITAS & STATISTIKA

STATISTIK1 Pertemuan 3: Ukuran Pemusatan dan Penyebaran

K-Nearest Neighbor dan K-means

Clustering (Season 1) K-Means

Galat, continue Galat Absolut : adalah perbedaan antara nilai eksperimen dengan nilai yang sebenarnya. Contoh: Jika hasil pengukuran seorang analis untuk.

DISTRIBUSI NORMAL Data merupakan data kontinu (interval atau rasio)

PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN

STANDAR KOMPETENSI LULUSAN MATEMATIKA

STATISTIKA Pertemuan 3: Ukuran Pemusatan dan Penyebaran

STATISTIKA Pertemuan 3: Ukuran Pemusatan dan Penyebaran

SQC 2- Statistik Deskriptif

Analisis Klastering K-Means Model Datamining Kelompok 1 Eko Suryana

KOMPETENSI DASAR Siswa dapat Menghitung ukuran pemusatan, ukuran letak, dan ukuran penyebaran data, serta penafsirannya.

CHAPTER 1 DESKRIPSI DATA

Ukuran Pemusatan dan Ukuran Penyebaran

ANALISIS CLUSTER Part 1.

Probabilitas dan Statistika

Pembelajaran tak-terbimbing dan klustering

ANALISIS CLUSTER Part 2.

A. Ukuran Pemusatan Data

Teori Penarikan Sampel

K-MEANS ALGORITHM CLUSTERING

Pengelompokan Dokumen (Document Clustering)

Pertemuan 4 Ukuran Pemusatan

Implementasi clustering K-MEANS (dengan IRIS dataset)

By : Rahmat Robi Waliyansyah, M.Kom

STATISTIK1 Pertemuan 3-4: Ukuran Pemusatan Dosen Pengampu MK:

HIERARCHICAL CLUSTERING

DESKRIPSI DATA Pertemuan 3.

Universitas Gunadarma

PEMUSATAN DAN LETAK DATA

Transcript presentasi:

Klastering dengan K-Means

Tujuan Mahasiswa mampu mendeskripsikan konsep dasar klastering K-means dalam hal algoritma, kelemahan dan penerapannya

Pendahuluan K-mean merupakan teknik klastering yang paling umum dan sederhana. Tujuan klastering ini adalah mengelompokkan obyek ke dalam k klaster/kelompok. Nilai k harus ditentukan terlebih dahulu (berbeda dengan hierarchical clustering). Ukuran ketidakmiripan masih tetap digunakan untuk mengelompokkan obyek yang ada.

Algoritma K-means Secara ringkas algoritma K-means adalah sebagai berikut: Pilih jumlah klaster k Inisialisasi k pusat klaster Tempatkan setiap data/obyek ke klaster terdekat Perhitungan kembali pusat klaster Ulangi langkah 3 dengan memakai pusat klaster yang baru. Jika pusat klaster tidak berubah lagi maka proses pengklasteran dihentikan.

Penentuan Jumlah dan Pusat Klaster Inisialisasi atau penentuan nilai awal pusat klaster dapat dilakukan dengan berbagai macam cara, antara lain: Pemberian nilai secara random Pengambilan sampel awal dari data Penentuan nilai awal hasil dari klaster hirarki dengan jumlah klaster yang sesuai dengan penentuan awal. Dalam hal ini biasanya user memiliki pertimbangan intuitif karena dia memiliki informasi awal tentang obyek yang sedang dipelajari, termasuk jumlah klaster yang paling tepat.

Penempatan Obyek ke Dalam Klaster Penempatan obyek ke dalam klaster didasarkan pada kedekatannya dengan pusat klaster Dalam tahap ini perlu dihitung jarak tiap data ke tiap pusat klaster yang telah ditentukan. Jarak paling dekat antara suatu data dengan pusat klaster tertentu merupakan hal penentu data tersebut akan masuk klaster yang mana.

Perhitungan Kembali Pusat Klaster Pusat klaster ditentukan kembali dengan cara dihitung nilai rata-rata data/obyek dalam klaster tertentu. Jika dikehendaki dapat pula digunakan perhitungan median dari anggota klaster yang dimaksud Mean bukan satu-satunya ukurang yang bisa dipakai Pada kasus tertentu pemakaian median memberikan hasil yang lebih baik. Karena median tidak sensitif terhadap data outlier (data yang terletak jauh dari yang lain, meskipun dalam satu klaster - pencilan) Contoh: Mean dari 1, 3, 5, 7, 9 adalah 5 Mean dari 1, 3, 5, 7, 1009 adalah 205 Median dari 1, 3, 5, 7, 1009 adalah 5

Keterbatasan K-means K-means sangat bergantung pada penentuan nilai pusat klaster awal Penentuan nilai awal yang berbeda dapat memberikan hasil akhir yang berbeda.

Komentar pada Metoda K-Means Strength Relatively efficient: O(tkn), dimana n adalah # objects, k adalah # clusters, dan t merupakan # iterations. Umumnya, k, t << n. Biasanya berhenti pada nilai optimum lokal (local optimum). Nilai global optimum dapat ditentukan dengan menggunakan teknik seperti deterministic annealing dan genetic algorithms Weakness Dapat diterapkan hanya saat nilai mean telah ditentukan, bagaimana untuk data-data bersifat kategori? Perlu ditentukan k, jumlah klaster Tidak dapat menangani noisy data dan outliers Tidak tepat untuk membentuk klaster dengan data non-convex shapes

The K-Means Clustering Method Example

Tugas Carilah bahan bacaan (dapat dari jurnal, artikel, ataupun buku-buku referensi) untuk diskusi kelompok mengenai hal-hal berikut: Adakah kemungkinannya jika k-means dipakai untuk mengklasifikasikan data yang tidak bersifat numeris, misalnya dokumen Bagaimanakah caranya? Adakah penelitian yang membuktikan bahwa outlier dapat ditangani dalam k-means, jelaskan? Bagaimanakah nilai optimum k klaster dapat dicapai dalam metoda k-means?

Terimakasih