Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

Tim Dosen Data Mining Fakultas Informatika

Presentasi serupa


Presentasi berjudul: "Tim Dosen Data Mining Fakultas Informatika"— Transcript presentasi:

1 Tim Dosen Data Mining Fakultas Informatika
DATA BAGIAN 2 Tim Dosen Data Mining Fakultas Informatika

2 Pokok Bahasan Apa Preprocessing Data Agregasi Sampling
2 Apa Preprocessing Data Agregasi Sampling Pengurangan dimensi Feature subset selection Feature creation Diskretisasi dan Binerisasi Transformasi atribut Pengukuran Similaritas & Dissimilaritas Euclidean distance Minkowski distance Mahalanobis Distance Simple Matching Jaccard Coefficients Cosine Tanimoto Korelasi

3 Definisi Data Preprocessing
3 Adalah strategi dan teknik yang saling berkaitan untuk membuat data lebih mudah/cocok untuk digunakan pada data mining Tujuannya : meningkatkan hasil analisis data mining terkait masalah waktu, cost dan kualitas

4 Kategori Data Preprocessing
Bisa dibedakan menjadi 2: Pemilihan berdasarkan objek data (record) untuk menganalisis atau creating/changing atribut Contoh : Agregasi, sampling Pemilihan atribut untuk menganalisis atau creating/changing atribut Contoh: Pengurangan Dimensi, feature subset selection

5 Agregasi 5 Menkombinasikan dua atau lebih atribut (atau objek ) menjadi satu atribut (atau objek) Tujuannya Pengurangan data baik secara jumlah atribut atau objek Merubah skala misalkan penggabungan atribut kota dengan atribut propinsi dan negara Mendapatkan data yang lebih “stabil” karena bisa didapatkan data dengan variabilitas yang kecil

6 Sampling 6 Merupakan teknik utama utnuk memilih data dan biasanya digunakan untuk investigasi data dan analisis data akhir Sampling di statistik ≠sampling di data mining Jika di statistik berkaitan dengan mahalnya atau lamanya pengumpulan keseluruhan data, jika di data mining data keseluruhan ada namun untuk memproses keseluruhan akan terlalu lama

7 Sampling … Prinsip utama sampling yang efektif adalah:
7 Prinsip utama sampling yang efektif adalah: Ouput dengan penggunaan sampel sama bagusnya dengan penggunaan data keseluruhan  berarti data sampel sudah representatif Sampel sudah representatif jika memiliki properti yang mirip (dari segi interest) seperti data asli

8 Tipe-tipe Sampling Simple Random Sampling Sampling without replacement
8 Simple Random Sampling Setiap item memiliki probabilitas yang sama untuk dipilih Sampling without replacement Setiap item yang terpilih akan dikeluarkan dari populasi Sampling with replacement Setiap item yang terpilih tidak dikeluarkan dari populasi, bisa saja terpilih lebih dari satu kali Stratified sampling Data displit menjadi beberapa bagian; lalu diambil sampel secara acak dari tiap bagian

9 Ukuran Sampel Ukuran sampel penting untuk ditentukan
Jika semakin besar jumlah sampel maka peluang sampel tersebut representatif akan besar, namun keuntungan sampling tidak didapat secara optimal Jika semakin kecil sampel kemungkinan pola tidak didapat kan atau kalaupun didapat pola tsb salah Solusinya?? Adaptive/ progressive sampling  Dimulai dari sampel kecil sampai sejumlah sampel yang sudah memadai

10 Ukuran Sampel 10 8000 points Points Points

11 Adaptive/ progressive sampling
11 10 Group Points Probabilitas sampel yang mengandung points dari tiap Group

12 Pengurangan Dimensi Kenapa harus?
Karena data set bisa saja memiliki jumlah features yang sangat banyak (contohnya: data dokumen dengan term sebagi vektor feature-nya) Menghindari Curse of Dimensionality (yakni fenomena di mana analisis data menjadi sangat sulit disebabkan pertambahan dimensi data, data menjadi tersebar /sparse Rmengurangi penggunaan memori dan waktu yang dibutuhkan oleh algortima data mining Memudahkan visualisasi data Membantu pengeliminiran data yang tidak relevan atau noise

13 Teknik Pengurangan Dimensi
13 Principle Component Analysis (PCA) Singular Value Decomposition Lainnya: supervised dan teknik non-linear

14 Principle Component Analysis (PCA)
14 Tujuannya untuk mencari projeksi yang menggambarkan variasi terbesar dalam data Teknik aljabar linier untuk atribut kontinu yang dapat menemukan atribut baru (principal component)

15 Pengurangan Dimensi: ISOMAP
15 By: Tenenbaum, de Silva, Langford (2000) Membangun graf neighbourhood Untuk tiap pasang points pada graf, hitung jarak terpendek– jarak geodesic

16 Feature Subset Selection
16 Untuk pengurangan dimensi data Redundant features duplicate much or all of the information contained in one or more other attributes Example: purchase price of a product and the amount of sales tax paid Irrelevant features contain no information that is useful for the data mining task at hand Example: students' ID is often irrelevant to the task of predicting students' GPA

17 Teknik-teknik Feature Subset Selection
17 Pendekatan Brute-force : Mencari semua kemungkinan subsets feature sebagai input algortima data mining Pendekatan Embedded : Feature selection dilakukan sebagai bagina dari algoritma data mining Pendekatan Filter : Feature dipilih sebelum algoritma data mining dijalankan Pendekatan Wrapper : Penggunaan algoritma data mining sebagai black box untuk menemukan best subset dari atribut

18 Feature Creation 18 Pembuatan atribut baru yang menggambarkan informasi penting pada dataset secara lebih efisien dibanding atribut asal Ada 3 Metodologi umum : Ekstraksi feature domain-specific Mapping Data ke New Space Konstruksi Feature kombinasi features

19 Mapping Data ke New Space
19 Transformasi Fourier Transformasi Wavelet Two Sine Waves Two Sine Waves + Noise Frequency

20 Diskretisasi Beberapa teknik tidak menggunakan label kelas
20 Beberapa teknik tidak menggunakan label kelas Data Equal interval width Equal frequency Clustering

21 Diskretisasi Beberapa teknik menggunakan label kelas
21 Beberapa teknik menggunakan label kelas Entropy based approach 3 categories for both x and y 5 categories for both x and y

22 Transformasi Atribut 22 Merupakan fungsi yang memetakan keseluruhan nilai atibut ke nilai baru dan setiap nilai lama dapat diidentifikasi dengan satu nilai baru Fungsi sederhana: xk, log(x), ex, |x| Standarisasi dan Normaliasi

23 Similaritas dan Disimilaritas
Pengukuran numerik untuk kemiripan dua objek Semakin tinggi semakin mirip range antara [0,1] Disimilaritas Pengukuran numerik untuk perbedaan dua objek Semakin tinggi semakin berbeda Minimum dissimilaritas = 0 Upper limit varies Untuk ukuran similaritas & dissimilaritas bisa menggunakan jarak (distance)

24 Similaritas /Disimilaritas untuk Atribut Sederhana
Misalkan p dan q adalah nilai atribut untuk 2 objek data.

25 Teknik-teknik pengukuran jarak
Euclidean Distance Minkowski distance Mahalanobis Distance

26 Contoh perhitungan Euclidean Distance
Distance Matrix

27 Contoh perhitungan Minkowski Distance
Distance Matrix

28 Contoh perhitungan Mahalanobis Distance
Covariance Matrix: C A: (0.5, 0.5) B: (0, 1) C: (1.5, 1.5) Mahal(A,B) = 5 Mahal(A,C) = 4 B A

29 Similaritas untuk data Binary
Disebut juga similarity coeficients Nilai antara [0,1] Simple Matching dan Jaccard Coefficients Misalkan : M01 = jumlah atribut di mana p = 0 dan q =1 M10 = jumlah atribut di mana p = 1 and q = 0 M00 = jumlah atribut di mana p = 0 and q = 0 M11 = jumlah atribut di mana p = 1 and q = 1 SMC = number of matches / number of attributes = (M11 + M00) / (M01 + M10 + M11 + M00) J = number of 11 matches / number of not-both-zero attributes values = (M11) / (M01 + M10 + M11)

30 Contoh SMC Vs Jaccard p = 1 0 0 0 0 0 0 0 0 0 q = 0 0 0 0 0 0 1 0 0 1
M01 = 2 (jumlah atribut di mana p = 0 dan q =1) M10 = 1 (jumlah atribut di mana p =1 dan q = 0) M00 = 7 (jumlah atribut di mana p =0 dan q = 0) M11 = 0 (jumlah atribut di mana p = 1 dan q = 1) SMC = (M11 + M00)/(M01 + M10 + M11 + M00) = (0+7) / ( ) = 0.7 J = (M11) / (M01 + M10 + M11) = 0 / ( ) = 0

31 Cosine Similarity Jika d1 dan d2 adalah dua vektor dokumen, maka
cos( d1, d2 ) = (d1  d2) / ||d1|| ||d2|| , Keterangan  adalah vector dot product dan || d || adalah panjang vector d. Contoh: d1 = d2 = d1  d2= 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5 ||d1|| = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5 = (42) 0.5 = 6.481 ||d2|| = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6) 0.5 = 2.245 cos( d1, d2 ) = .3150

32 Extended Jaccard Coefficient (Tanimoto)
Merupakan varian dari Jaccard untuk atribut kontinu atau count attributes

33 Korelasi Pengukuran korelasi hubungan linier antara objek-objek
Untuk perhitungan korelasi, data objek distandarkan p & q, lalu dilakukan dot product

34 34 Hatur Nuhun


Download ppt "Tim Dosen Data Mining Fakultas Informatika"

Presentasi serupa


Iklan oleh Google