Data PreProcessing (Praproses Data) yudi@upi.edu Diambil dari slide Jiawei Han Feb 2017
Garbage In Garbage Out sumber: http://1.bp.blogspot.com/
Materi Mengapa praproses? Rangkuman data Pembersihan data Integrasi dan transformasi data Pengurangan data Diskretisasi dan pembangkitan hirarki konsep Rangkuman
Mengapa Praproses Data diperlukan? Garbage in garbage out → data jelek, hasil mining jelek Quality decision → berdasarkan quality data Ekstraksi data, pembersihan dan transformasi sering merupakan bagian terbesar data mining.
Kota Bdg: 1800 ton per hari
Mengapa Praproses Data? Data di dunia nyata “kotor” Tidak lengkap: atribut hilang, atau hanya berisi agregat data. Contoh: pekerjaan_ortu =“” Error dan Noisy : Mengandung kesalahan tersembunyi. Contoh: gaji_ortu = “200000” Tidak konsisten: Ketidak cocokan dalam kode dan nama. Contoh: Umur 33, lahir tahun 92 Ketidakcocokan antara record yang duplikasi.
Noisy
Mengapa Data Kotor? Data yang tidak lengkap: Data salah: Tidak tersedia saat pengumpulan Tadinya dianggap tidak penting Data salah: Kesalahan alat pengumpul data Kesalahan manusia/komputer saat entri data Kesalahan saat pengiriman data Data yang tidak konsisten: Sumber data yang berbeda Ref integrity yang dilanggar Duplikasi data
Ukuran Data yang Berkualitas Akurat Lengkap Konsisten Timeliness (tepat waktu) Masuk akal Memberi nilai tambah Dapat diterjemahkan Dapat diakses
Kegiatan dalam Praproses Data Pembersihan data Isi data yang hilang, bersihkan noisy data, identifikasi dan buang outliers dan selesaikan data yang tidak konsisten. Integrasi data Integrasi dari multidatabase Normalisasi dan agregasi Reduksi data Data lebih sedikit tapi hasil statistik sama Diskretisasi Untuk data numerik
Ilustrasi Praproses Data
Pembersihan Data Deteksi anomali Field yang tidak konsisten Nilai NULL untuk field yang seharusnya NOT NULL Rentang nilai numerik (contoh: ada umur negatif) Pola (contoh: kode pos yang memiliki huruf padahal seharusnya angka 5 digit) Duplikasi ID
Karakteristik Data Deskriptif Central tendency Rata-rata, median, modus Karakteristik ketersebaran: Quartiles, outliers dan boxplots
Central Tendency Rata-rata (mean) Median Modus: paling sering muncul 1,5,6,7,7,8,10,12,15,18,20 Modus: paling sering muncul “Ada orang dewasa tenggelam di kolam yang kedalaman rata-ratanya 50 cm”
Modus, Rata-Rata, Median
Ketersebaran Quartile: Q1 (25%), Q3 (75%) Inter-quartile range: IQR = Q3 – Q1 Lima angka penting: min, Q1, Median, Q3, Max Outlier: biasanya lebih kecil atau besar dari 1.5 x IQR Varian Standard deviasi
Analisis Box Plot http://www.datavizcatalogue.com/methods/images/anatomy/box_plot.png
Contoh box plot: rata-rata dua blox pot ini mirip
Contoh Boxplot
Task Pada Data Cleaning Isi data yang hilang Identifikasi outlier dan perhalus noisy data Koreksi data yang tidak konsisten Selesaikan duplikasi akibat integrasi data
Data Cleaning: Data yang hilang Data tidak selalu ada Contoh penghasilan ortu (segan, tidak bersedia) Sebab data hilang Kerusakan mesin Tidak konsisten dan dihapus Tidak dimasukkan karena salah paham Tidak dianggap penting Perubahan data tidak dicatat Data yang hilang mungkin harus diturunkan dari data yang lain. Penangan data yang hilang?
Bagaimana cara menangani data yang hilang? Abaikan record Isi secara manual. (feasible?) Isi secara otomatis: Isi dengan “Tidak-Diketahui” Rata-rata dari isi field itu Rata-rata dengan field yang sekelas (di klasifikasi dulu) Nilai yang paling mungkin (teknik probabilitas)
Noisy Data Noise: kesalahan kecil random. Penyebab: Kesalahan Instrumen pengumpul data Masalah data entry Masalah transmisi data Keterbatasan teknologi Tidak konsisten dalam penamaan (contoh: Jogja vs Yogya)
Bagaimana Cara Menangani Noisy Data? Binning Method: Urutkan dan bagi data dalam “ember” dalam frekuensi yang sama (bin) Regresi Clustering Deteksi dan buang outlier Kombinasi komputer+manusia Deteksi data mencurigakan → tangani oleh manusia
Contoh Binning Methods Urutkan data: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 Bagi dengan frekuensi yang sama: - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34 Smoothing by bin means: - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29 Smoothing by bin boundaries: - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, 34
Regresi y Y1 Y1’ y = x + 1 X1 x
Analisis Cluster
Integrasi Data Integrasi Data: Menggabungkan data dari sumber yang beragam Integrasi Schema : contoh: A.nama ≡ B.nama_depan + B.nama_belakang Identifikasi entitas: Identifikasi entitas dari sumber yang beragam. Con: SBY = Susilo Bambang Yudhoyono Deteksi dan memperbaiki nilai yang konflik Contoh: cm vs feet, kg vs pound
Penanganan Redundancy Data redundan (duplikasi yang tidak perlu) dapat muncul saat integrasi: Atribut yang sama dapat memiliki nama yang berbeda Derivable data: Data berasal dari atribut lain. Contoh: Umur dari tgl lahir.
Transformasi Data Perubahan bentuk data atau konsolidasi Smoothing: membuang noise dari data Agregasi Generalisasi (jalan → kota) Normalisasi: transformasi nilai menjadi skala yang lebih kecil min-max z-score decimal scaling Pembentukan atribut baru
Normalisasi Min-max normalization: ke [new_minA, new_maxA] Contoh, gaji $12,000 sd $98,000 di normaliasi [0.0, 1.0]. Maka $73,000 dipetakan ke Z-score normalization (μ: mean, σ: standard deviation): Contoh μ = 54,000, σ = 16,000. maka Normalisasi dengan decimal scaling (dibagi 10j) sehingga nilai maksimum <1
Strategi Reduksi Data Mengapa reduksi data? Reduksi data: Database/datawarehouse dapat menyimpan Tera/Peta Data. Analisis/mining kompleks dapat membutuhkan waktu yang sangat lama jika menggunakan seluruh data. Reduksi data: Mendapatkan versi data yang volumenya jauh lebih kecil tetapi menghasilkan hasil analisis yang sama (atau mendekati)
Strategi Reduksi Data Agregasi Data Contoh: pendapatan harian jadi pendapatan bulanan Reduksi dimensi → pembuangan atribut Pilih himpunan minimal dari atribut yang tetap representatif. Kompresi data Numerosity reduction: representasi yang lebih kecil Diskretisasi dan pembangkitan konsep hirarki.
Kompresi Data Data Original Data Terkompresi lossless Original Data (Diperkirakan) lossy
Kompresi Data Kompresi String Kompresi Audio/video Time sequence Ada beberapa algoritma Kompresi Audio/video Biasanya lossy compression Sometimes small fragments of signal can be reconstructed without reconstructing the whole Time sequence Pendek-pendek, dan bervariasi dalam jangka waktu lama
Dimensionality Reduction: Wavelet Transformation Discrete wavelet transform (DWT): proses sinyal Compressed approximation: simpan bagian terkuat dari wavelet coefficient. Mirip dengan discrete Fourier transform (DFT), tapi lebih baik
Numerosity Reduction Kurangi data dengan memilih bentuk alternatif yang lebih kecil. Parametric Asumsikan data cocok dengan model, perkirakan parameter model, lalu buang datanya. Non-parametric methods Tidak ada asumsi model histograms, clustering, sampling
Contoh Parametric https://camo.githubusercontent.com/c
Diskretisasi Tiga jenis atribut: Diskretisasi: Nominal (tidak terurut) Contoh: warna, pekerjaan Ordinal (terurut) Contoh: pangkat Continuous real atau angka integer Diskretisasi: Bagi range pada data continuous dalam interval Masukan data ke dalam interval bayi: <1 thn; balita: 1-3 thn; lansia >60