Data Mining: Concepts and Techniques Preprocessing Data 4/13/2018 Data Mining: Concepts and Techniques
Data Preprocessing Data Preprocessing: Kualitas Data Tugas pokok dalam Data Preprocessing Data Cleaning Data Integration Data Reduction Data Transformation and Data Discretization Summary 2
Data Quality: Why Preprocess the Data? Mengukur kualitas data: Accuracy Completeness Consistency Timeliness: Believability Interpretability
Tugas pokok dalam Data Preprocessing Data cleaning Mengisi data hilang (missing values), memperhalus data noise (smooth noisy data), Mengidentifikasi atau menghilangkan data pencilan (identify or remove outliers) Menyelesaian ketidakkonsistenan data Data integration Mengintegrasikan database database data cubes, atu file-file Data reduction Dimensionality reduction Data compression Data transformation and data discretization
Data Cleaning Data dalam kenyataannya adalh seringkali kotor (Dirty): sangat berpotensi data tidak benar. Penyebanya : kegagalan perangkat, human or computer error, kesalahan transmisi incomplete: nilai nilai atribut yang kurang, dll Misal kewarganegaran= “ ” (missing data) noisy: berisi noise, error, atau outlier (data aneh) e.g., Salary = “−10” (an error) inconsistent: ada perbedaan dalam pengkodean atau penamaan; misal Umur = “42”, Tanggal lahir = “03/07/2010” tingkatan “1, 2, 3”,untuk yang lain “A, B, C”
Incomplete (Missing) Data Data tidak selalu ada misal.,beberapa baris tidak meiliki nilai untuk beberapa atribut seperti penghasilan nasabah pada data penjualan Tidak adanya ada karena Tidak berfungsinya alat data tidak dimasukkan karena kesalahpahaman Suatu data tertentu tidak dianggap penting untuk dimasukkan pada waktu tertentu
Bagaiman mengatasi data yang hilang? Mengabaikan baris ( jika class/label itu hilang) Mengisi data yang hilang secara manual ( entry ulang) Mengisi secara otomatis dengan global constant : misal., “unknown”, Rata-rata atribut Rata-rata atribut untuk semua sample dengan keanggotan dari kelas yang sama : smarter Nilai –nilai yang lebih memungkinkan : inference-based seperti Bayesian formula atau decision tree
Noisy Data Noise: random error atau variance dalam variabel yang diukur Nilai atribut yang tidak benar mungkin karena Kegagalan mengumpulkan data oleh perangkat Maslah entri data Maslah transmisi data Ketidak konsistenan dama pemberian nama/code Maslah lain sehingga perlu data cleaning Duplikasi baris/records Data tidak lengkap Ketidak konsistenan data 8 8
Bagaimana mengatasi noise data? Binning Perta data diurutkan dan dibagi kedalam kelompok (equal-frequency) bins Kemudian dilakukan penghalusan dengan rata-rata bin, median , atau batas bin dll Regressi Memperhalus data dengan fungsi regresi Clustering Deteksi dan menghilangkan outlier Enrich using data integration research!!
Data Integration Data integration: Menggabungkan data dari berbagai sumber Skema integration: misal., A.cust-id B.cust-# Menggabungkan dari berbagai sumber data Identifikasi entitas Mengidentifikasi entitas sebenarnya dari beberapa sumber; misal Bill Clinton = William Clinton Deteksi dan penyelesaian konflik nilai data: Untuk entitas yang sama : nilai-nilai atribut berbeda dari beberapa sumber yang berbeda Should ask students to do some survey on data integration. -JH 10
Mengatasi Redundancy dalam integrasi data Redundansi data terjadi ketika penggabungan dari berbagai sumber database Identifikasi objek: atribut atau objek yang sama memili nama berbeda dalam suatu database Derivable data: Satu atribut mungkin diperoleh dari atribut lain dalam suatu data, misal : gaji tahunan Redundansi attribute mungkin dapat dideteksi dengan analisa korelasi dan analisa kovarian Kehati-hatian dalam melakukan integrasi data dari berbagai sumber dapat membantu atau mengurangi redundasi dan ketidak konsistenana data dan meningkatkan kecepatan dan kualitas proses data mining 11
Correlation Analysis (Nominal Data) Χ2 (chi-square) test Semakin besar nilai Χ2 lebih memungkinkan variabel/atribut tersebut terkait Korelasi ttidak berarti hubungan sebab akibat
Chi-Square Calculation: An Example Menungjukkan bahwa like_science_fiction dan play_chess berkorelasi Play chess Not play chess Sum (row) Like science fiction 250(90) 200(360) 450 Not like science fiction 50(210) 1000(840) 1050 Sum(col.) 300 1200 1500
Correlation Analysis (Numeric Data) Koefisien korelasi (juga disebut Pearson’s product moment coefficient) Dengan n jumlah baris, dan adalah rata rata dari A dan B, σA dan σB adalah masing masing standard deviation A dan B, dan Σ(aibi) jumlah dari perkalian silang AB . jika rA,B > 0, A dan B adalah korelasi positif ( A naik B juga naik). Semakin tinggi korelasinya semakin kuat rA,B = 0: saling bebas; rAB < 0: korelasi negatif
Visually Evaluating Correlation Scatter plots showing the similarity from –1 to 1.
Correlation Korelasi mengukur hubungan linier antara objek Untuk menghitung korelasi, kita standarisasikan data objek A dan B, kemudain tentukan perkalian titiknya
Covariance (Numeric Data) Covariance sama dengan correlation where n is the number of tuples, and are the respective mean or expected values of A and B, σA and σB are the respective standard deviation of A and B Positive covariance: If CovA,B > 0, then A and B both tend to be larger than their expected values Negative covariance: If CovA,B < 0 then if A is larger than its expected value, B is likely to be smaller than its expected value Independence: CovA,B = 0 but the converse is not true: Some pairs of random variables may have a covariance of 0 but are not independent. Only under some additional assumptions (e.g., the data follow multivariate normal distributions) does a covariance of 0 imply independence Correlation coefficient:
Co-Variance: An Example Dapat dihitung juga dengan Misalkan stok A dan B memiliki nilai nilai berikut dalam satu minggu: (2, 5), (3, 8), (5, 10), (4, 11), (6, 14). Question: Jika keduanya dipengaruhi trend industri yang sama apakah keduanya naik atau turun secara bersamaan? E(A) = (2 + 3 + 5 + 4 + 6)/ 5 = 20/5 = 4 E(B) = (5 + 8 + 10 + 11 + 14) /5 = 48/5 = 9.6 Cov(A,B) = (2×5+3×8+5×10+4×11+6×14)/5 − 4 × 9.6 = 4 sehinga, A dan B naik secara bersamaan karena Cov(A, B) > 0.
Data Reduction Strategies Data reduction: mendapatkan representasi dari data yang lebih kecil dala volume data tetapi menghasilkan hasil analitik yang sama Strategi reduksi data Dimensionality reduction, misalkan menghilangkan atribut-atribut yang tidak penting Wavelet transforms Principal Components Analysis (PCA) Feature subset selection, feature creation Numerosity reduction (atau disebut: Data Reduction) Regression and Log-Linear Models Histograms, clustering, sampling Data compression MK 09/09/05: Wiki has dimensionality reduction as feature extraction (PCA) and feature subset selection. It states both wavelet transforms and PCA as forms of data compression. It does not have any pages for "numerosity reduction". We claim there are many different ways to organize data reduction strategies, which is true, so this presentation below should be OK. Let’s discuss.
Data Transformation Suatu fungsi yang memetakan seluruh nilai dari atribut ke nilai baru Metode Smoothing: menghilangkan noise dari data Attribute/feature construction Membentuk atribut baru Aggregation: Normalization min-max z-score normalisasi dengan decimal scaling Discretization 20
Normalisasi Min-max normalization: to [new_minA, new_maxA] Z-score normalization (μ: mean, σ: standard deviation): Ex. Let μ = 54,000, σ = 16,000. Then Normalisasi decimal scaling dimana j bilangan bulat terkecil sehingga Max(|ν’|) < 1
Simple Discretization: Binning Equal-width (distance) partitioning Membagi kedlam N interval dengan ukuran sama Jika A dan B adalah nilai terendah dan tertinggi dari atribut, lebar interva: W = (B –A)/N. outliers mendominasi Data miring tidak dapat diatasi dengan baik Equal-depth (frequency) Membagi N intervals Good data scaling
Binning Methods for Data Smoothing Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 * Partition into equal-frequency (equi-depth) bins: - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34 * Smoothing by bin means: - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29 * Smoothing by bin boundaries: - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, 34