CLUSTERING.

Slides:



Advertisements
Presentasi serupa
Analisis Outlier.
Advertisements

Klastering dengan K-Means
Pengelompokan Jenis Tanah Menggunakan Algoritma Clustering K-Means
Meningkatkan kemampuan quick sort
DATA MINING 1.
SISTEM PENDUKUNG KEPUTUSAN PENGADAAN BUKU PERPUSTAKAAN STIKOM SURABAYA MENGGUNAKAN METODE K-MEANS CLUSTERING Arief Rahman Susanto
TOWARDS MULTIPLE IDENTITY DETECTION IN SOCIAL NETWORKS & RESEARCH METODOLOGY 3KS2 ERMA FITRIANA RANITA RIZKI APRILLIA.
Clustering Lecture Note Pengantar Data Mining 2006 Sumber : ngExample.htm
Steepest Descent (Ascent) untuk Kasus Min (Maks)
Pemrosesan Teks Klasterisasi Dokumen Teknik Informatika STMIK GI MDP 2013 Shinta P.
PENGUKURAN EVALUASI TERHADAP INPUT, PROSES, OUTPUT DAN OUTCOME
Fuzzy Clustering Logika Fuzzy Materi Kuliah Prodi Teknik Informatika
Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY
Q: Jika Anda harus menulis sebuah program baris dalam C untuk memecahkan masalah, berapa lama waktu yang dibutuhkan? Jawaban: umumnya berkisar.
Rekayasa Perangkat Lunak
Pengenalan Supervised dan Unsupervised Learning
Skenario Diagram.
Menentukan Perilaku Biaya
DATA MINING (Machine Learning)
ANALISIS OUTLIER 1 Data Mining.
Sistem Berbasis Fuzzy Materi 4
Pertemuan 12 ARTIFICIAL NEURAL NETWORKS (ANN) - JARINGAN SYARAF TIRUAN - Betha Nurina Sari, M.Kom.
Clustering Suprayogi.
SUPPORT VECTOR MACHINE
Pengumpulan Kebutuhan dan Dokumentasi
Datamining - Suprayogi
Sistem Berbasis Fuzzy Materi 5
Review Jurnal Internasional
Pembimbing: Henri Harianja G Imas S. Sitanggang, S.Si M.Kom
PENGAMBILAN KEPUTUSAN MANAJEMEN
Analisis Perancangan Perangkat Lunak
Pengenalan Pola Materi 1
Desain Basisdata Dilakukan melalui 4 tahap desain Analisa Kebutuhan
PENGUKURAN Pengukuran :pemberian “angka” terhadap fenomena dengan mengikuti aturan tertentu Proses pengukuran : investigasi mengenai ciri-ciri yang mendasari.
Teori Dasar Sistem [IS1223]
Kuliah Sistem Fuzzy Pertemuan 7 “Fuzzy Clustering”
Model Heuristik Dr. Sri Kusumadewi, S.Si., MT. Materi Kuliah [8]:
Learning Theory Artificial Intelligence Teknik Informatika – UNIKOM
SOM – KOHONEN Unsupervised Learning
Algoritma kNN (k-Nearest Neighbor)
K-Nearest Neighbor dan K-means
Ruang vektor real Kania Evita Dewi.
Clustering (Season 1) K-Means
Learning Theory Artificial Intelligence Teknik Informatika – UNIKOM
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
DESAIN DATA BASE.
PENGAMBILAN KEPUTUSAN
Clustering (Season 2) Self-Organizing Map
Analisis Klastering K-Means Model Datamining Kelompok 1 Eko Suryana
Algoritma kNN (k-Nearest Neighbor)
Self-Organizing Network Model (SOM) Pertemuan 10
Metode Data Mining “ Self-Organizing Map [SOM] ” Taskum Setiadi ADVANCE MACHINE LEARNING STMIK Nusa Mandiri Jakarta2016 ADVANCE MACHINE LEARNING.
ANALISIS CLUSTER Part 1.
ANALISIS CLUSTER Part 2.
KLASIFIKASI.
Pembelajaran terbimbing dengan pendekatan parametriks dan nonparametriks Kuliah 3.
GUNAWAN Materi Kuliah [8]: (Sistem Pendukung Keputusan)
Kebutuhan dan Pemodelan Analisis
Menentukan Perilaku Biaya
CLUSTERING.
K-MEANS ALGORITHM CLUSTERING
Pengelompokan Dokumen (Document Clustering)
Implementasi clustering K-MEANS (dengan IRIS dataset)
By : Rahmat Robi Waliyansyah, M.Kom
FEATURE SELECTION.
DECISION SUPPORT SYSTEM [MKB3493]
Universitas Gunadarma
Intro Algoritma K-Nearest Neighbor (K- NN) adalah sebuah metode klasifikasi terhadap sekumpulan data maupun dokumen berdasarkan pembelajaran  data yang.
Universitas Gunadarma
Algoritma kNN (k-Nearest Neighbor)
Transcript presentasi:

CLUSTERING

Clustering didefinisikan sebagai upaya pengelompokan data ke dalam cluster sehingga data-data didalam cluster yang sama memiliki kesamaan lebih dibandingkan dengan data-data pada cluster yang berbeda . Clustering adalah salah satu teknik unsupervised machine learning dimana metode tersebut tidak perlu dilatih atau tidak ada fase learning. Definisi:

Contoh Clustering Sederhana

Lima kriteria utama yang harus dipenuhi oleh algoritma clustering yaitu: Dimensionalitas tinggi Skalabilitas Akurasi Kemudahan browsing Prior domain knowledge Algoritma Clustering

Dimensionalitas tinggi Banyaknya term-term relevan di himpunan dokumen umumnya mencapai ribuan hingga puluhan ribu. Tiap-tiap term ini merupakan suatu dimensi di dalam vektor dokumen. Kebanyakan algoritma clustering dapat bekerja baik pada data dengan dimensi rendah dan gagal menghasilkan cluster di ruang yang memiliki dimensi tinggi. Algoritma yang baik seharusnya dapat bekerja di ruang dengan dimensi rendah dan tidak mengalami penurunan drastis ketika digunakan pada ruang berdimensi tinggi. Dimensionalitas tinggi

Dalam pengambilan informasi, himpunan data bisa berisi ratusan hingga ribuan dokumen. Beberapa algoritma clustering tidak mampu menangani hinpunan data yang berisi lebih dari sepuluh ribu objek data. Permasalahan ini biasanya diselesaikan dengan melakukan clustering pada subset himpunan data, tetapi hal ini dapat mengakibatkan hasil clustering tidak seimbang. Oleh karena itu algoritma clustering seharusnya dapat menangani himpunan data baik dalam jumlah kecil maupun besar Skalabilitas

Solusi clustering yang baik seharusnya memiliki kemiripan inter-cluster tinggi dan kemiripan intra- cluster rendah. Artinya dokumen-dokumen didalam cluster yang sama harus mirip, dan sangat berbeda dengan dokumen-dokumen di cluster lainnya Akurasi

Hasil clustering harus mampu menyediakan struktur yang masuk akal dan dengan deskripsi cluster yang memiliki arti, sehingga pengguna dapat melakukan aktivitas browsing dengan mudah Kemudahan Browsing

Prior domain knowledge Banyak algoritma clustering yang memerlukan intervensi pengguna untuk menetapkan beberapa parameter masukan. Pada kenyataannya, untuk menentuka nilai-nilai parameter ini sering diperlukan prior domain knowledge. Apabila suatu algoritma clustering sensitif terhadap kondisi ini, tingkat keakuratannya dapat menurun secara drastis. Dampak lain yang bisa timbul adalah kualitas clustering yang akan sulit dikendalikan. Prior domain knowledge

Tujuan utama dari metode clustering adalah mengelompokkan sejumlah data atau obyek kedalam cluster sehingga dalam setiap cluster akan berisi data dengan kemiripan yang sangat tinggi. Dalam clustering, diusahakan untuk menempatkan obyek yang mirip (jaraknya dekat) dalam satu cluster dan membuat jarak antar cluster sejauh mungkin. Ini berarti obyek dalam satu cluster sangat mirip satu sama lain dan berbeda dengan obyek dalam cluster-cluster yang lain. Teknik clustering tidak membutuhkan label maupun keluaran dari setiap data yang diinvestigasi. Dalam teknik clustering tidak diketahui sebelumya jumlah cluster dan bagaimana cara amengelompokkannya. Terdapat dua pendekatan dalam teknik clustering, yaitu: hirarchical cluster dan partitioning cluster Metode Clustering

Hirarchical cluster Mengelompokkan data dengan membuat suatu hirarki berupa dendogram dimana data yang mirip akan ditempatkan pada hirarki yang berdekatan dan yang tidak pada hirarki yang berjauhan.

Mengelompokkan data dengan memilah-milah data yang dianalisa ke dalam cluster-cluster yang ada Partitioning cluster

Diskusikan algoritma yang ada pada contoh hierartical clustering dan partition clustering Tugas