Pemrosesan Teks Klasterisasi Dokumen Teknik Informatika STMIK GI MDP 2013 Shinta P.

Slides:



Advertisements
Presentasi serupa
Analisis Outlier.
Advertisements

Desain Web R0312 – Grafik Komputer.
K-Means Clustering.
Klastering dengan K-Means
Pengelompokan Jenis Tanah Menggunakan Algoritma Clustering K-Means
Model Datamining Dr. Sri Kusumadewi, S.Si., MT. Materi Kuliah [10]:
Self Organizing Maps Tim Asprak Metkuan
DATA MINING 1.
Algoritma Thinning dan Aplikasinya
TOWARDS MULTIPLE IDENTITY DETECTION IN SOCIAL NETWORKS & RESEARCH METODOLOGY 3KS2 ERMA FITRIANA RANITA RIZKI APRILLIA.
Operations Management
PERKALIAN DENGAN METODE GARIS bagian 1
Clustering. Definition Clustering is “the process of organizing objects into groups whose members are similar in some way”. A cluster is therefore a collection.
Fuzzy Clustering Logika Fuzzy Materi Kuliah Prodi Teknik Informatika
Clustering (Season 2) Self-Organizing Map
Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY
Algoritma Divide and Conquer (Bagian 1) Wahyul Wahidah Maulida, ST., M.Eng.
12-CRS-0106 REVISED 8 FEB 2013 CSG523/ Desain dan Analisis Algoritma Divide and Conquer Intelligence, Computing, Multimedia (ICM)
Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY
Penyelidikan Operasi Penyelesaian Numerik
TEORI PERMAINAN.
ANALISIS OUTLIER 1 Data Mining.
Algoritma dan Struktur Data 1 pertemuan 6
Clustering Suprayogi.
Assignment (Penugasan)
Datamining - Suprayogi
Sistem Berbasis Fuzzy Materi 5
Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY
Floyd-Warshall algorithm
CS3204 Pengolahan Citra - UAS
Assocation Rule Data Mining.
Analisis Jaringan.
Metode Riset Segmentasi
TEORI PERMAINAN.
Clustering Best Practice
Kuliah Sistem Fuzzy Pertemuan 7 “Fuzzy Clustering”
Algoritma kNN (k-Nearest Neighbor)
STRATEGI LOKASI Manajemen Operasional, Jurusan Manajemen, Fakultas Ekonomi, Universitas islam Malang (unisma) oleh: Fauziah, SE., MM.
Analisis Cluster.
K-Nearest Neighbor dan K-means
Clustering (Season 1) K-Means
Operations Management
Oleh : Devie Rosa Anamisa
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
Latihan Soal Kinematika Partikel
Informed (Heuristic) Search
CLUSTERING.
Clustering (Season 2) Self-Organizing Map
Analisis Klastering K-Means Model Datamining Kelompok 1 Eko Suryana
Model Jaringan.
TEORI PERMAINAN.
Operations Management
ANALISIS CLUSTER Part 1.
Algoritma Divide and Conquer
Pembelajaran tak-terbimbing dan klustering
ANALISIS CLUSTER Part 2.
y x TEKNIK RAMALAN DAN ANALISIS REGRESI
Desain dan Analisis Algoritma
SEGMENTASI.
Jarak Terpendek - Algoritma Djikstraa
CLUSTERING.
K-MEANS ALGORITHM CLUSTERING
Pengelompokan Dokumen (Document Clustering)
Implementasi clustering K-MEANS (dengan IRIS dataset)
By : Rahmat Robi Waliyansyah, M.Kom
HIERARCHICAL CLUSTERING
MODUL.1 DATA SPASIAL DAN DATA NON SPASIAL
DECISION SUPPORT SYSTEM [MKB3493]
Universitas Gunadarma
Universitas Gunadarma
Transcript presentasi:

Pemrosesan Teks Klasterisasi Dokumen Teknik Informatika STMIK GI MDP 2013 Shinta P.

Klasterisasi Dokumen Organisasi otomatis dokumen ke dalam kelompok tertentu sehingga dokumen dalam klaster /kelompok memiliki kesamaan yang tinggi dibandingkan dengan satu sama lain, tetapi sangat berbeda dengan dokumen dalam klaster lain. Bentuk pembelajaran tak terawasi (unsupervised Learning)

Ilustrasi klasterisasi

Clustering Alhorithm Connectivity Clustering (Hierarcical Clustering) Single Link Average Link Complete Link Centroid Based Clustering K-Means Etc.

Hierarchical clustering Mengatur kelompok dalam hirarki (subjek) sedemikian rupa sehingga hubungan orangtua-anak antara node dalam hirarki dapat dilihat sebagai topik dan subtopik. www.yahoo.com/Science agriculture biology physics CS space ... ... ... ... ... dairy botany cell AI courses crops craft magnetism agronomy HCI missions forestry evolution relativity

Hierarchical clustering metode analisis cluster yang berusaha untuk membangun sebuah hirarki cluster. Agglomerative: Pendekatan "bottom up“, setiap pengamatan dimulai dalam cluster sendiri, dan pasangan cluster digabung sebagai salah satu hirarki bergerak naik .  Devisive: Pendekatan "top down“ , semua pengamatan dimulai dalam satu cluster, dan perpecahan yang dilakukan secara rekursif bergerak ke hirarki bawah.

Single Link Clustering strategi bottom-up: membandingkan setiap titik dengan masing-masing titik. Setiap objek ditempatkan dalam sebuah cluster yang terpisah, dan pada setiap langkah kita menggabungkan pasangan terdekat cluster, sampai kondisi penghentian tertentu dipenuhi kedekatan dua kelompok didefinisikan sebagai minimum jarak antara dua titik dalam dua kelompok. Min { d(a,b) , a A, b B}

MIN C A B D 1 A B C D 1 2 Dendogram - menampilkan informasi yang sama seperti pada grafik di atas, namun batas jarak vertikal, dan poin di bagian bawah (horisontal). Ketinggian di mana dua kelompok digabung dalam dendogram mencerminkan jarak dua kelompok.

Dendogram A B C D E 1 2 3

Contoh: Asumsikan bahwa D database yang diberikan oleh tabel di bawah ini. Ikuti teknik link tunggal untuk menemukan cluster di database berikut. Gunakan ukuran jarak Euclidean! x y p1 0.40 0.53 p2 0.22 0.38 p3 0.35 0.32 p4 0.26 0.19 p5 0.08 0.41 p6 0.45 0.30

Langkah 1. Plot benda-benda di ruang n-dimensi (dimana n adalah jumlah atribut). Dalam kasus kami, kami memiliki 2 atribut - x dan y, jadi kami merencanakan obyek p1, p2, ... p6 dalam ruang 2-dimensi: Langkah 2. Hitung jarak dari setiap objek (titik) ke semua titik lain, menggunakan ukuran jarak Euclidean, dan menempatkan angka dalam matriks jarak.

Matrix Jarak

Langkah 3 : Mengidentifikasi dua kelompok dengan jarak terpendek dalam matriks, dan menggabungkan mereka bersama-sama. Re-menghitung matriks jarak, sebagai dua cluster sekarang dalam satu cluster. Dengan melihat matrik jarak di atas, kita melihat bahwa p3 dan p6 memiliki jarak terkecil dari semua - 0.11 Jadi, kita gabungkan kedua dalam satu cluster, dan kembali menghitung matriks jarak.

K-Means Pembagian menjadi sejumlah kluster Setiap Klaster memiliki sebuah pusat (Centroid) menggunakan nilai Mean nilai tiap titik. Nilai Mean dapat berubah dalam tiap iterasi . Tiap titik akan berasosiasi dengan cluster dengan jarak ttik dan centroid terdekat (Euclidean Distance). Jumlah kluster, K, diinisialisasi awal

Contoh: Berikut delapan titik (dengan (x, y) yang menyatakan lokasi) menjadi tiga kelompok : A1 (2, 10) A2 (2, 5) A3 (8, 4) A4 (5, 8) A5 (7, 5) A6 (6, 4) A7 (1, 2) A8 (4, 9). Pusat klaster awal adalah: A1 (2, 10), A4 (5, 8) dan A7 (1, 2). Fungsi jarak antara dua titik a = (x1, y1) dan b = (x2, y2) didefinisikan sebagai: ρ (a, b​​) = | x2 - x1 | + | y2 - y1 |. Gunakan K-means untuk menemukan pusat klaster tiga setelah iterasi kedua!

Iterasi-1 :

Iterasi-1 (lanjutan):

Iterasi-2 : Hitung Centroid baru Klaster -1 : A1 (2,10) Klaster-2: A3, A4, A5, A6, A8 = ( (8+5+7+6+4)/5, (4+8+5+4+9)/5 ) = (6, 6) Klaster-3: A2, A7 = ( (2+1)/2, (5+2)/2 ) = (1.5, 3.5) Ulangi iterasi hingga Mean tiap klaster tidak lagi berubah.