CLUSTERING
Clustering didefinisikan sebagai upaya pengelompokan data ke dalam cluster sehingga data-data didalam cluster yang sama memiliki kesamaan lebih dibandingkan dengan data-data pada cluster yang berbeda . Clustering adalah salah satu teknik unsupervised machine learning dimana metode tersebut tidak perlu dilatih atau tidak ada fase learning. Definisi:
Contoh Clustering Sederhana
Lima kriteria utama yang harus dipenuhi oleh algoritma clustering yaitu: Dimensionalitas tinggi Skalabilitas Akurasi Kemudahan browsing Prior domain knowledge Algoritma Clustering
Dimensionalitas tinggi Banyaknya term-term relevan di himpunan dokumen umumnya mencapai ribuan hingga puluhan ribu. Tiap-tiap term ini merupakan suatu dimensi di dalam vektor dokumen. Kebanyakan algoritma clustering dapat bekerja baik pada data dengan dimensi rendah dan gagal menghasilkan cluster di ruang yang memiliki dimensi tinggi. Algoritma yang baik seharusnya dapat bekerja di ruang dengan dimensi rendah dan tidak mengalami penurunan drastis ketika digunakan pada ruang berdimensi tinggi. Dimensionalitas tinggi
Dalam pengambilan informasi, himpunan data bisa berisi ratusan hingga ribuan dokumen. Beberapa algoritma clustering tidak mampu menangani hinpunan data yang berisi lebih dari sepuluh ribu objek data. Permasalahan ini biasanya diselesaikan dengan melakukan clustering pada subset himpunan data, tetapi hal ini dapat mengakibatkan hasil clustering tidak seimbang. Oleh karena itu algoritma clustering seharusnya dapat menangani himpunan data baik dalam jumlah kecil maupun besar Skalabilitas
Solusi clustering yang baik seharusnya memiliki kemiripan inter-cluster tinggi dan kemiripan intra- cluster rendah. Artinya dokumen-dokumen didalam cluster yang sama harus mirip, dan sangat berbeda dengan dokumen-dokumen di cluster lainnya Akurasi
Hasil clustering harus mampu menyediakan struktur yang masuk akal dan dengan deskripsi cluster yang memiliki arti, sehingga pengguna dapat melakukan aktivitas browsing dengan mudah Kemudahan Browsing
Prior domain knowledge Banyak algoritma clustering yang memerlukan intervensi pengguna untuk menetapkan beberapa parameter masukan. Pada kenyataannya, untuk menentuka nilai-nilai parameter ini sering diperlukan prior domain knowledge. Apabila suatu algoritma clustering sensitif terhadap kondisi ini, tingkat keakuratannya dapat menurun secara drastis. Dampak lain yang bisa timbul adalah kualitas clustering yang akan sulit dikendalikan. Prior domain knowledge
Tujuan utama dari metode clustering adalah mengelompokkan sejumlah data atau obyek kedalam cluster sehingga dalam setiap cluster akan berisi data dengan kemiripan yang sangat tinggi. Dalam clustering, diusahakan untuk menempatkan obyek yang mirip (jaraknya dekat) dalam satu cluster dan membuat jarak antar cluster sejauh mungkin. Ini berarti obyek dalam satu cluster sangat mirip satu sama lain dan berbeda dengan obyek dalam cluster-cluster yang lain. Teknik clustering tidak membutuhkan label maupun keluaran dari setiap data yang diinvestigasi. Dalam teknik clustering tidak diketahui sebelumya jumlah cluster dan bagaimana cara amengelompokkannya. Terdapat dua pendekatan dalam teknik clustering, yaitu: hirarchical cluster dan partitioning cluster Metode Clustering
Hirarchical cluster Mengelompokkan data dengan membuat suatu hirarki berupa dendogram dimana data yang mirip akan ditempatkan pada hirarki yang berdekatan dan yang tidak pada hirarki yang berjauhan.
Mengelompokkan data dengan memilah-milah data yang dianalisa ke dalam cluster-cluster yang ada Partitioning cluster
Diskusikan algoritma yang ada pada contoh hierartical clustering dan partition clustering Tugas