Universitas Gunadarma KONSEP DATA MINING Disusun Oleh : Dr Lily Wulandari Universitas Gunadarma Logo Seminar
DATA
Ukuran Kesamaan dan Ketidaksamaan Ukuran numerik tentang seberapa mirip dua objek data. Lebih tinggi ketika benda lebih mirip. Kisaran nilai [0,1] Ukuran ketidaksamaan Ukuran numerik tentang seberapa berbedanya dua objek data Nilai turun saat objek lebih mirip Ketidaksamaan minimum seringkali 0 Batas atas bervariasi Kedekatan mengacu pada kesamaan atau ketidaksamaan
Kesamaan / Ketidaksamaan untuk Atribut Sederhana Tabel berikut ini menunjukkan kesamaan dan ketidaksamaan antara dua objek, x dan y, sehubungan dengan atribut tunggal yang sederhana.
Vector Space Model Kalimat memainkan peran penting pada berbagai penelitian yang berhubungan dengan teks dan aplikasi. Vector Space Model (VSM) digunakan sebagai representasi dari kumpulan dataset dokumen teks. Dokumen dalam Vector Space Model (VSM) berupa matriks yang berisi bobot seluruh kata pada tiap dokumen. Bobot tersebut menyatakan kepentingan atau kontribusi kata terhadap suatu dokumen dan kumpulan dokumen. Kepentingan suatu kata dalam dokumen dapat dilihat dari frekuensi kemunculannya terhadap dokumen.
Vector Space Model Gambar di sebelah kanan menunjukkan pemodelan dokumen teks di ruang dimensi dimana (D) adalah kalimat dokumen sedangkan (T) adalah term atau kata. Vector Space Model
Vector Space Model Misalkan terdapat sejumlah n kata yang berbeda sebagai kamus kata (vocabulary) atau indeks kata (terms-index). Kata- kata ini akan membentuk ruang vektor yang memiliki dimensi sebesar n. Setiap kata i dalam dokumen atau query diberikan bobot sebesar wi. Baik dokumen maupun query direpresentasikan sebagai vektor berdimensi n. Matrix Term Document
Vector Space Model Untuk mendapatkan nilai jarak atau kemiripan dokumen, dapat menggunakan berbagai macam varian rumus perhitungan jarak diantaranya adalah : Cosine (5) Manhattan Jaccard (6) Minkowski Dice (7) Mahalanobis Euclidean (8) Weighted.
Cosine Koefisien Cosine merupakan metode ukuran kesamaan yang paling popular, yaitu dengan menghitung sudut antara vektor dokumen dengan vektor kueri. Jika vektor adalah satuan panjang, cosinus dari sudut antara mereka hanyalah dot product dari vektor, persamaannya sebagai berikut: Karena berdasarkan cosinus sudut antara dua vektor, maka nilainya berkisar pada 0 sampai dengan 1, dimana 0 menandakan bahwa kedua dokumen tidak mirip sama sekali, dan 1 menandakan bahwa antar dokumen benar- benar identik. Dimana : D : vektor D Q : vektor Q |D| : besar dari vektor D |Q| : besar dari vektor Q
Jaccard Koefisien Jaccard adalah salah satu metode yang dipakai untuk menghitung similarity antara dua obyek. Ditemukan oleh Paul Jaccard yang merupakan metode ukuran kesamaan yang digunakan untuk membandingkan kesamaan dan keragaman 2 set sampel. Persamaannya sebagai berikut: Dimana : J(D,Q) : nilai similaritas antara set D dan set Q |D n Q| : banyaknya elemen yang sama antara set D dan set Q. “Elemen yang sama” yang dimaksud adalah elemen yang terdapat baik pada set D maupun pada set Q. |D u Q| : banyak seluruh elemen yang ada pada set D dan set Q |D| : banyak elemen yang terdapat pada set D |Q| : banyak elemen yang terdapat pada set Q
Jaccard
Dice
Dice
Euclidean Euclidean distance adalah perhitungan jarak dari 2 buah titik dalam euclidean space. Euclidean berkaitan dengan teorema phytagoras, dan dapat diterapkan biasanya pada ruang 1, 2 dan 3 dimensi, Euclidean juga tetap sederhana jika diterapkan pada dimensi yang lebih tinggi. Dimana D adalah jarak kedua titik, b adalah koordinat titik akhir dan a adalah koordinat titik awal.
Manhattan
Minkowski
Mahalanobis
Weighted
Contoh Kasus Sebagai contoh terdapat 3 buah kata (T1, T2 dan T3), 2 buah dokumen (D1 dan D2) serta sebuah query (Q). Masing-masing bernilai : D1 = 2T1 + 6T2 + 5T3 D2 = 5T1 + 5T2 + 2T3 Q = 0T1 + 0T2 + 2T3
Contoh Kasus
Contoh Kasus
Contoh Kasus
Latihan Jika diketahui A={1,2,3,4}, B={1,2,4}, dan C={1,2,4,5}, berapakah Jaccard (A,B), Jaccard(B,C), dan Jaccard(A,C)? Berikutnya untuk kasus query dan document. Misalnya kita punya: query: ideas of march doc1: caesar died in march doc2: the long march Cari Koefisien Jaccard antara query dengan doc1 dan doc2.
Latihan Diketahui 3 dokumen : d1: “Jack London traveled to Oakland” d2: “Jack London traveled to the city of Oakland” d3: “Jack traveled from Oakland to London” Nilai dari Koefisian Jaccard J(d1,d2) dan J(d1,d3) jika dilakukan dengan n-gram analisis dengan n=2 (bigram) adalah: