Universitas Gunadarma

Slides:



Advertisements
Presentasi serupa
PENGENALAN POLA Dr. Kusrini, M.Kom.
Advertisements

Sistem Persamaan Linier Penulisan Dalam Bentuk Matriks
Vektor Vektor memiliki besaran dan arah. Beberapa besaran fisika yang
Sistem Persamaan Linier
RUANG VEKTOR Trihastuti Agustinah..
ALJABAR LINIER & MATRIKS
Sistem Persamaan Linier
SUDUT ANTARA DUA VEKTOR PROJEKSI & KOMPONEN DUA VEKTOR
BAB V (lanjutan) VEKTOR.
Ranked Retrieval Pencarian Boolean Menghasilkan sekumpulan dokumen yang cocok dengan query, yang tidak cocok tidak muncul Pada kasus.
Vektor Ruang Dimensi 2 dan Dimensi 3
Pemrosesan Teks Klasterisasi Dokumen Teknik Informatika STMIK GI MDP 2013 Shinta P.
Rika yunitarini Teknik Informatika
BAB VIII RUANG HASILKALI DALAM (lanjutan).
2. VEKTOR 2.1 Vektor Perpindahan B
Sistem Persamaan Linier Oleh : Sudaryatno Sudirham
S1 Teknik Informatika Disusun Oleh Dr. Lily Wulandari
RUANG VEKTOR EUCLIDEAN
Tim Dosen Data Mining Fakultas Informatika
Latent Semantic Indexing
Final Project Temu Balik Informasi
Review Jurnal Nasional
MODUL KULIAH 10 Ekstraksi Fitur Bentuk
Anggota Kelompok Dian Santosa (KETUA)
Sistem Berbasis Fuzzy Materi 4
1. Seorang pedagang menjual barangnya sebesar Rp ,00
Pertemuan 7 : Latent Semantic Indexing
Konsep dan Model-model Sistem Temu Balik Informasi
Konsep dan model temu balik informasi
SUPPORT VECTOR MACHINE
Implementasi vector space model untuk pencarian dokumen
Konsep, Metode dan Model Temu Kembali Informasi
Latent Semantic Indexing (LSI)
Review Jurnal Internasional
EFEKTIFITAS SELEKSI FITUR DALAM SISTEM TEMU-KEMBALI INFORMASI
dan Transformasi Linear dalam
VECTOR SPACE MODEL.
Temu balik informasi Anggota Kelompok Ikhsan Fauji
VektoR.
Ketua Kelompok Dian Restiani Anggota : Wahyu Septi Anjar
Array.
Laten Semantic Indexing
TEMU BALIK INFORMASI CONCEPT, PRINCIPLE & ALGORITHMS OF
Algoritma kNN (k-Nearest Neighbor)
Information Retrieval
Clustering (Season 1) K-Means
KOMPUTER GRAFIKA TRANSFORMASI 2D (ROTASI DAN SHEARING)
PERSIAPAN UJIAN NASIONAL
Vektor Vektor memiliki besaran dan arah. Beberapa besaran fisika yang
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
Array.
Analisis Klastering K-Means Model Datamining Kelompok 1 Eko Suryana
Vektor Vektor memiliki besaran dan arah. Beberapa besaran fisika yang
Algoritma kNN (k-Nearest Neighbor)
Similarity Analisis.
VEKTOR.
Vektor Vektor memiliki besaran dan arah. Beberapa besaran fisika yang
MATRIKS Fakultas Ekonomi Universitas Padjadjaran.
Vektor Vektor memiliki besaran dan arah. Beberapa besaran fisika yang
Model Boolean dan Advanced Boolean
Komponen vektor merupakan proyeksi vektor pada sumbu sistem koordinat
Pengelompokan Dokumen (Document Clustering)
IMPLEMENTASI ALGORITMA k-NN
Implementasi clustering K-MEANS (dengan IRIS dataset)
MODUL.1 DATA SPASIAL DAN DATA NON SPASIAL
Hasil Temu Kembali Citra
Temu Kembali Informasi
Intro Algoritma K-Nearest Neighbor (K- NN) adalah sebuah metode klasifikasi terhadap sekumpulan data maupun dokumen berdasarkan pembelajaran  data yang.
Universitas Gunadarma
Algoritma kNN (k-Nearest Neighbor)
Transcript presentasi:

Universitas Gunadarma KONSEP DATA MINING Disusun Oleh : Dr Lily Wulandari Universitas Gunadarma Logo Seminar

DATA

Ukuran Kesamaan dan Ketidaksamaan Ukuran numerik tentang seberapa mirip dua objek data. Lebih tinggi ketika benda lebih mirip. Kisaran nilai [0,1] Ukuran ketidaksamaan Ukuran numerik tentang seberapa berbedanya dua objek data Nilai turun saat objek lebih mirip Ketidaksamaan minimum seringkali 0 Batas atas bervariasi Kedekatan mengacu pada kesamaan atau ketidaksamaan

Kesamaan / Ketidaksamaan untuk Atribut Sederhana Tabel berikut ini menunjukkan kesamaan dan ketidaksamaan antara dua objek, x dan y, sehubungan dengan atribut tunggal yang sederhana.

Vector Space Model Kalimat memainkan peran penting pada berbagai penelitian yang berhubungan dengan teks dan aplikasi. Vector Space Model (VSM) digunakan sebagai representasi dari kumpulan dataset dokumen teks. Dokumen dalam Vector Space Model (VSM) berupa matriks yang berisi bobot seluruh kata pada tiap dokumen. Bobot tersebut menyatakan kepentingan atau kontribusi kata terhadap suatu dokumen dan kumpulan dokumen. Kepentingan suatu kata dalam dokumen dapat dilihat dari frekuensi kemunculannya terhadap dokumen.

Vector Space Model Gambar di sebelah kanan menunjukkan pemodelan dokumen teks di ruang dimensi dimana (D) adalah kalimat dokumen sedangkan (T) adalah term atau kata. Vector Space Model

Vector Space Model Misalkan terdapat sejumlah n kata yang berbeda sebagai kamus kata (vocabulary) atau indeks kata (terms-index). Kata- kata ini akan membentuk ruang vektor yang memiliki dimensi sebesar n. Setiap kata i dalam dokumen atau query diberikan bobot sebesar wi. Baik dokumen maupun query direpresentasikan sebagai vektor berdimensi n. Matrix Term Document

Vector Space Model Untuk mendapatkan nilai jarak atau kemiripan dokumen, dapat menggunakan berbagai macam varian rumus perhitungan jarak diantaranya adalah : Cosine (5) Manhattan Jaccard (6) Minkowski Dice (7) Mahalanobis Euclidean (8) Weighted.

Cosine Koefisien Cosine merupakan metode ukuran kesamaan yang paling popular, yaitu dengan menghitung sudut antara vektor dokumen dengan vektor kueri. Jika vektor adalah satuan panjang, cosinus dari sudut antara mereka hanyalah dot product dari vektor, persamaannya sebagai berikut: Karena berdasarkan cosinus sudut antara dua vektor, maka nilainya berkisar pada 0 sampai dengan 1, dimana 0 menandakan bahwa kedua dokumen tidak mirip sama sekali, dan 1 menandakan bahwa antar dokumen benar- benar identik. Dimana : D : vektor D Q : vektor Q |D| : besar dari vektor D |Q| : besar dari vektor Q

Jaccard Koefisien Jaccard adalah salah satu metode yang dipakai untuk menghitung similarity antara dua obyek. Ditemukan oleh Paul Jaccard yang merupakan metode ukuran kesamaan yang digunakan untuk membandingkan kesamaan dan keragaman 2 set sampel. Persamaannya sebagai berikut: Dimana : J(D,Q) : nilai similaritas antara set D dan set Q |D n Q| : banyaknya elemen yang sama antara set D dan set Q. “Elemen yang sama” yang dimaksud adalah elemen yang terdapat baik pada set D maupun pada set Q. |D u Q| : banyak seluruh elemen yang ada pada set D dan set Q |D| : banyak elemen yang terdapat pada set D |Q| : banyak elemen yang terdapat pada set Q

Jaccard  

Dice  

Dice  

Euclidean Euclidean distance adalah perhitungan jarak dari 2 buah titik dalam euclidean space. Euclidean berkaitan dengan teorema phytagoras, dan dapat diterapkan biasanya pada ruang 1, 2 dan 3 dimensi, Euclidean juga tetap sederhana jika diterapkan pada dimensi yang lebih tinggi. Dimana D adalah jarak kedua titik, b adalah koordinat titik akhir dan a adalah koordinat titik awal.

Manhattan  

Minkowski  

Mahalanobis  

Weighted  

Contoh Kasus Sebagai contoh terdapat 3 buah kata (T1, T2 dan T3), 2 buah dokumen (D1 dan D2) serta sebuah query (Q). Masing-masing bernilai : D1 = 2T1 + 6T2 + 5T3 D2 = 5T1 + 5T2 + 2T3 Q = 0T1 + 0T2 + 2T3

Contoh Kasus  

Contoh Kasus  

Contoh Kasus  

Latihan Jika diketahui A={1,2,3,4}, B={1,2,4}, dan C={1,2,4,5}, berapakah Jaccard (A,B), Jaccard(B,C), dan Jaccard(A,C)? Berikutnya untuk kasus query dan document. Misalnya kita punya: query: ideas of march doc1: caesar died in march doc2: the long march Cari Koefisien Jaccard antara query dengan doc1 dan doc2.

Latihan Diketahui 3 dokumen : d1: “Jack London traveled to Oakland” d2: “Jack London traveled to the city of Oakland” d3: “Jack traveled from Oakland to London” Nilai dari Koefisian Jaccard J(d1,d2) dan J(d1,d3) jika dilakukan dengan n-gram analisis dengan n=2 (bigram) adalah: