Dicky Nofriansyah, S.Kom., M.Kom STMIK TRIGUNA DHARMA Data Mining Materi : Clustering Hierarki Algoritmatif Dicky Nofriansyah, S.Kom., M.Kom Langkah Pasti Menuju Sukses
STMIK TRIGUNA DHARMA Single Linkage Complete Linkage Average Linkage Metode-Metode Terkait Pengelompokan Hierarki Aglomeratif Kunci operasi metode AHC (Algoritma Hierarki Cluster) adalah penggunaan ukuran kedekatan (proximity) diantara dua kelompok” (Hartini dalam Prasetyo, 2012 : 214). Ada tiga tehnik kedekatan yang dijelaskan disini: Single Linkage Complete Linkage Average Linkage Langkah Pasti Menuju Sukses
Single Linkage Complete Linkage Average STMIK TRIGUNA DHARMA Jarak Terdekat atauTautan tunggal memberikan hasil bila kelompok-kelompok digabungkan menurut jarak antara anggota-anggota yang terdekat diantara dua kelompok. Single Linkage Jarak Terjauh atau Tautan lengkap terjadi bila kelompok-kelompok digabungkan menurut jarak antara anggota-anggota yang terjauh di antara dua kelompok. Complete Linkage Jarak Rata-rata atau Tautan rata-rata digabungkan menurut jarak rata-rata pasangan-pasangan anggota masing-masing pada himpunan di antara dua kelompok Average
Tehnik Pengukuran Jarak STMIK TRIGUNA DHARMA Tehnik Pengukuran Jarak Ada beberapa macam ukuran jarak yang biasa dipakai dalam analisis cluster, diantaranya : Eucladian Distance Manhattan Pearson Langkah Pasti Menuju Sukses
STMIK TRIGUNA DHARMA Langkah Pasti Menuju Sukses 1. Pembentukan kelompok tergantung apakah jarak dari objek kekelompok pertama lebih dekat dibandingkan dengan jarak objek tersebut dengan objek lainnya yang belum terkelompok Keterangan Rumus : X = Rata-rata data X Xi = Data X ke-i N = Banyak data X Std (X) = Standar deviasi data X Zi = Data standar (skor standar) X ke-i Langkah Pasti Menuju Sukses
STMIK TRIGUNA DHARMA Langkah Pasti Menuju Sukses dAB = ∑ | x1 - y1 |2 i = 1 Keterangan Rumus : dAB = Ukuran kemiripan / ketidakmiripan antara objek ke-x dengan objek ke-y. 2. Menentukan ukuran kemiripan atau ketidakmiripan antar data dengan metode jarak Euclidean Langkah Pasti Menuju Sukses
Sampel Kasus: STMIK TRIGUNA DHARMA Analisis cluster termasuk dalam analisis multivariat yang mewakili seluruh hubungan interdependensi, tidak ada perbedaan variabel bebas dan variabel tidak bebas (independent and dependent variables) dalam analisis ini. Analisis cluster adalah teknik yang digunakan untuk mengidentifikasi objek atau individu yang serupa dengan memperhatikan beberapa kriteria. Langkah Pasti Menuju Sukses
Langkah Pasti Menuju Sukses No Lagu Waktu Putar Negara Asal Genre Musik 1 Timmy Thomas - You Are All I Need 05.00 - 05.59 Barat Pop 2 Lighthouse Family - Ain't No Sunshine 06.00 - 06.59 AudioPhille 3 Cake - I Will Survive 07.00 - 07.59 Pop Mix 4 Anggun - Still Reminds Me 08.00 - 08.59 Indonesia 5 Aloe Blacc - Hello World 09.00 - 09.59 6 One Direction – Story of My Life 10.00 - 10.59 7 Rihanna - Diamonds 11.00 - 11.59 R & B 8 Hayley Westenra - Prayer 12.00 - 12.59 9 Feel Fascinated - Peng You 13.00 - 13.59 Chinese Mandarin 10 Lisa Ono - I Feel Good 14.00 - 14.59 Jazz 11 James Morrison – I Won't Let You Go 15.00 - 15.59 12 Nidji - Laskar Pelangi 16.00 - 16.59 13 Jason Mraz - Im Yours 17.00 - 17.59 14 Titi DJ - Tak Kan Ada Cinta Yang Lain 18.00 - 18.59 15 The Beatles - Dont Let Me Down 19.00 - 19.59 16 Diana Krall - All Night Long 20.00 - 20.59 17 Cymande - Brother On The Side 21.00 - 21.59 18 Maliq&D'essentials - Terdiam 22.00 - 22.59 19 Norah Jones - Don't Know Why 23.00 - 23.59 20 Citra Shcolastika 24.00 - 00.59 Langkah Pasti Menuju Sukses
STMIK TRIGUNA DHARMA Maka berdasarkan data music playlist diatas terlebih dahulu dikelompokkan sesuai set objek dan variabelnya beserta asumsi nilai yang dipergunakan seperti pada tabel-tabel berikut Tabel Set Objek Dan Variabel Data Kategori Lagu Objek Waktu Putar Variabel 1 (x1) Negara Asal Variabel 2 (x2) Genre Musik Variabel 3 (x3) Langkah Pasti Menuju Sukses
Tabel Asumsi Objek No Objek Asumsi 1 Timmy Thomas - You Are All I Need 2 Lighthouse Family - Ain't No Sunshine B 3 Cake - I Will Survive C 4 Anggun - Still Reminds Me D 5 Aloe Blacc - Hello World E 6 One Direction – Story of My Life F 7 Rihanna - Diamonds G 8 Hayley Westenra - Prayer H 9 Feel Fascinated - Peng You I 10 Lisa Ono - I Feel Good J 11 James Morrison – I Won't Let You Go K 13 Jason Mraz - Im Yours M 14 Titi DJ - Tak Kan Ada Cinta Yang Lain N 15 The Beatles - Dont Let Me Down O 16 Diana Krall - All Night Long P 17 Cymande - Brother On The Side Q 18 Maliq&D'essentials - Terdiam R 19 Norah Jones - Don't Know Why S 20 Citra Scholastika T
STMIK TRIGUNA DHARMA X2 Nilai Barat 1 Indonesia 2 Chinese 3 Tabel Asumsi Waktu Putar Tabel Asumsi Negara Asal X1 Nilai Pagi (05.00 - 10.59) 1 Siang (11.00 - 14.59) 2 Sore (15.00 - 18.59) 3 Malam (19.00 - 00.59) 4 X2 Nilai Barat 1 Indonesia 2 Chinese 3 Langkah Pasti Menuju Sukses
STMIK TRIGUNA DHARMA Tabel Asumsi Genre Musik Dalam tabel-tabel diatas dapat dilihat bahwa objek atau lagu dimisalkan dengan huruf (A, B, C, D dan seterusnya) dan variabel dimisalkan dengan kode (x1, x2 dan x3) begitu juga dengan nilai asumsi adalah sebagai perumpamaan, agar mempermudah perhitungan Genre Musik (V3) Nilai Pop 6 AudioPhille 5 Pop Mix 4 R & B 3 Jazz 2 Mandarin 1 Langkah Pasti Menuju Sukses
STMIK TRIGUNA DHARMA Langkah Pasti Menuju Sukses Setelah pengelompokkan objek dan variabel nilai, maka langkah selanjutnya adalah melakukan perhitungan sesuai algoritma yang dipilih. Namun untuk menghindari terjadinya kesalahan, terlebih dahulu beberapa tabel asumsi diatas digabungkan menjadi satu tabel yang lebih terperinci seperti berikut ini Langkah Pasti Menuju Sukses
Tabel Asumsi Data dan Variabelnya No Objek X1 X2 X3 1 A 6 2 B 5 3 C 4 D E F 7 G 8 H 9 I 10 J 11 K 12 L 13 M 14 N 15 O 16 P 17 Q 18 R 19 S 20 T
Langkah Pasti Menuju Sukses Algoritma Single Linkage Method Dengan Jarak Euclidean Distance 1. Menstandarisasi data-data yang terkumpul dalam tabel menggunakan rumus-rumus yang telah tersedia : a. Mencari rata-rata data dari setiap variabel Langkah Pasti Menuju Sukses
STMIK TRIGUNA DHARMA b. Mencari standar deviasi data dari setiap variabel
STMIK TRIGUNA DHARMA Langkah Pasti Menuju Sukses
STMIK TRIGUNA DHARMA Langkah Pasti Menuju Sukses c. Mencari skor standar (zero standar) dari masing-masing objek setiap variabel. Langkah Pasti Menuju Sukses
Tabel Data Music Playlist Standar Objek X1 X2 X3 A -1,214 -0,509 0,824 B 0,236 C -0,353 D 1,188 E F G -0,405 -0,942 H I 2,884 -2,120 J 0,405 -1,531 K L M N O 1,214 P Q R S
Menentukan ukuran kemiripan atau ketidakmiripan antara data dengan jarak Euclidean distance. Langkah Pasti Menuju Sukses
Tabel Matriks Jarak
STMIK TRIGUNA DHARMA a.Mencari nilai terkecil dari matriks jarak. 3.Melakukan algoritma pengelompokkan euclidean single linkage clustering, dengan langkah-langkah sebagai berikut : a.Mencari nilai terkecil dari matriks jarak. ACEFKLMNPQST mempunyai nilai terkecil yakni 0, maka objek ini menjadi satu cluster. b. Menghitung jarak antar cluster ACEFKLMNPQST dengan objek lainnya. Langkah Pasti Menuju Sukses
Langkah Pasti Menuju Sukses d(ACEFKLMNPQST)B = min {dAB,dCB,dEB,dFB,dKB,dLB,dMB, dNB,dPB,dQB,dSB,dTB} = dAB,dCB,dEB,dFB = 0,589 d(ACEFKLMNPQST)D = min {dAD,dCD,dED,dFD,dKD,dLD,dMD, dND,dPD,dQD,dSD,dTD} = dLD,dND = 1,619 d(ACEFKLMNPQST)G = min {dAG,dCG,dEG,dFG,dKG,dLG,dMG, dNG,dPG,dQG,dSG,dTG} = dCG,dFG = 1,001 d(ACEFKLMNPQST)H = min {dAH,dCH,dEH,dFH,dKH,dLH,dMH, dNH,dPH,dQH,dSH,dTH} = dAH,dCH,dEH,dFH,dKH,dMH = 1,001 d(ACEFKLMNPQST)I = min {dAI,dCI,dEI,dFI,dKI,dLI,dMI,dNI, dPI,dQI,dSI,dTI} = dLI,dNI = 3,493 Langkah Pasti Menuju Sukses
STMIK TRIGUNA DHARMA Langkah Pasti Menuju Sukses d(ACEFKLMNPQST)J = min{dAJ,dCJ,dEJ,dFJ,dKJ,dLJ,dMJ,dNJ, dPJ,dQJ,dSJ,dTJ} = dQJ, dTJ = 1,880 d(ACEFKLMNPQST)O = min{dAO,dCO,dEO,dFO,dKO,dLO,dMO, dNO,dPO,dQO,dSO,dTO} = dPO,dSO = 0,589 d(ACEFKLMNPQST)R = min {dAR,dCR,dER,dFR,dKR,dLR,dMR, dNR,dPR,dQR,dSR,dTR} = dLR,dNR = 0,809 Langkah Pasti Menuju Sukses
Setelah melakukan perhitungan diatas, maka terbentuk matriks jarak yang baru yang menjadi sebuah cluster antara ACEFKLMNPQST pada table di bawah, yaitu cluster 1. Tabel Cluster 1 ACEFKLMNPQST B D G H I J O R 0,589 1,619 1,001 3,493 1,880 0,809 1,766 1,575 1,046 4,212 2,989 2,511 3,013 2,644 2,053 3,541 2,931 2,955 2,441 1,178 3,533 1,899 2,251 2,800 4,080 2,526 1,514 4,659 3,659 2,968 2,456 1,665
c. Mencari nilai terkecil dari matriks jarak, objek ACEFKLMNPQST dan BO yang memiliki nilai terkecil yaitu 0,589. Maka ACEFKLMNPQST dan BO bergabung menjadi satu cluster baru. d(ACEFKLMNPQST-BO)D = min{dACEFKLMNPQST-D, dBD, dOD} = dACEFKLMNPQST-D = 1,619 d(ACEFKLMNPQST-BO)G = min{dACEFKLMNPQST-G, dBG, dOG} = dACEFKLMNPQST-G = 1,001 d(ACEFKLMNPQST-BO)H = min{dACEFKLMNPQST-H, dBH, dOH} = dACEFKLMNPQST-H = 1,001 d(ACEFKLMNPQST-BO)I = min {dACEFKLMNPQST - I, dBI, dOI} = dACEFKLMNPQST-I = 3,493 d(ACEFKLMNPQST-BO)J = min { dACEFKLMNPQST - J, dBJ, dOJ} = dACEFKLMNPQST-J = 1,880 d(ACEFKLMNPQST-BO)R = min{dACEFKLMNPQST-R, dBR, dOR} = dACEFKLMNPQST-R = 0,809
STMIK TRIGUNA DHARMA Tabel Cluster 2 Langkah Pasti Menuju Sukses Setelah pengelompokkan tersebut maka terbentuk matriks jarak baru yang menjadi sebuah cluster antara ACEFKLMNPQST dan BO seperti pada table di bawah yaitu cluster 2. Tabel Cluster 2 ACEFKLMNPQSTBO D G H I J R 1,619 1,001 3,493 1,880 0,809 2,644 2,053 3,541 2,931 2,441 1,178 3,533 1,899 2,800 4,080 2,526 2,251 3,659 2,456 Langkah Pasti Menuju Sukses
d. Setelah itu kembali lagi mencari nilai terkecil dari matriks jarak, untuk objek ACEFKLMNPQSTBO dan R yang memiliki nilai terkecil yaitu 0,809. Maka objek ACEFKLMNPQSTBO dan R akan bergabung menjadi satu cluster d(ACEFKLMNPQSTBO - R)D =min {dACEFKLMNPQSTBO-D,dRD} = dACEFKLMNPQSTBO-D = 1,619 d(ACEFKLMNPQSTBO - R)G =min {dACEFKLMNPQSTBO-G,dRG} = dACEFKLMNPQSTBO-G = 1,001 d(ACEFKLMNPQSTBO - R)H =min {dACEFKLMNPQSTBO-H,dRH} = dACEFKLMNPQSTBO-H = 1,001 d(ACEFKLMNPQSTBO - R)I = min {dACEFKLMNPQSTBO-I, dRI} = dACEFKLMNPQSTBO-I = 3,493 d(ACEFKLMNPQSTBO - R)J = min {dACEFKLMNPQSTBO-J, dRJ} = dACEFKLMNPQSTBO-J = 1,880
Cluster Akhir STMIK TRIGUNA DHARMA ACEFKLMNPQSTBORGHDJ I 1,899 ACEFKLMNPQSTBORGHDJ I 1,899 Langkah Pasti Menuju Sukses
STMIK TRIGUNA DHARMA Langkah Pasti Menuju Sukses Berdasarkan tabel matriks jarak diatas, dari pengelompokan euclidean distance yang dilakukan telah sesuai dengan langkah-langkah dalam pengelompokkan tehnik tersebut. Sebab, telah tersisa 2 objek dalam satu cluster, yakni ACEFKLMNPQSTBORGHDJ dan I Langkah Pasti Menuju Sukses
SEKIAN DAN TERIMA KASIH STMIK TRIGUNA DHARMA SEKIAN DAN TERIMA KASIH Langkah Pasti Menuju Sukses