Data PreProcessing (Praproses Data)

Data PreProcessing (Praproses Data)
Diambil dari slide Jiawei Han Feb 2017

Garbage In Garbage Out sumber:

Materi Mengapa praproses? Rangkuman data Pembersihan data
Integrasi dan transformasi data Pengurangan data Diskretisasi dan pembangkitan hirarki konsep Rangkuman

Mengapa Praproses Data diperlukan?
Garbage in garbage out → data jelek, hasil mining jelek Quality decision → berdasarkan quality data Ekstraksi data, pembersihan dan transformasi sering merupakan bagian terbesar data mining.

Kota Bdg: 1800 ton per hari

Mengapa Praproses Data?
Data di dunia nyata “kotor” Tidak lengkap: atribut hilang, atau hanya berisi agregat data. Contoh: pekerjaan_ortu =“” Error dan Noisy : Mengandung kesalahan tersembunyi. Contoh: gaji_ortu = “200000” Tidak konsisten: Ketidak cocokan dalam kode dan nama. Contoh: Umur 33, lahir tahun 92 Ketidakcocokan antara record yang duplikasi.

Mengapa Data Kotor? Data yang tidak lengkap: Data salah:
Tidak tersedia saat pengumpulan Tadinya dianggap tidak penting Data salah: Kesalahan alat pengumpul data Kesalahan manusia/komputer saat entri data Kesalahan saat pengiriman data Data yang tidak konsisten: Sumber data yang berbeda Ref integrity yang dilanggar Duplikasi data

Ukuran Data yang Berkualitas
Akurat Lengkap Konsisten Timeliness (tepat waktu) Masuk akal Memberi nilai tambah Dapat diterjemahkan Dapat diakses

Kegiatan dalam Praproses Data
Pembersihan data Isi data yang hilang, bersihkan noisy data, identifikasi dan buang outliers dan selesaikan data yang tidak konsisten. Integrasi data Integrasi dari multidatabase Normalisasi dan agregasi Reduksi data Data lebih sedikit tapi hasil statistik sama Diskretisasi Untuk data numerik

Ilustrasi Praproses Data

Pembersihan Data Deteksi anomali Field yang tidak konsisten
Nilai NULL untuk field yang seharusnya NOT NULL Rentang nilai numerik (contoh: ada umur negatif) Pola (contoh: kode pos yang memiliki huruf padahal seharusnya angka 5 digit) Duplikasi ID

Karakteristik Data Deskriptif
Central tendency Rata-rata, median, modus Karakteristik ketersebaran: Quartiles, outliers dan boxplots

Central Tendency Rata-rata (mean) Median Modus: paling sering muncul
1,5,6,7,7,8,10,12,15,18,20 Modus: paling sering muncul “Ada orang dewasa tenggelam di kolam yang kedalaman rata-ratanya 50 cm”

Modus, Rata-Rata, Median

Ketersebaran Quartile: Q1 (25%), Q3 (75%)
Inter-quartile range: IQR = Q3 – Q1 Lima angka penting: min, Q1, Median, Q3, Max Outlier: biasanya lebih kecil atau besar dari 1.5 x IQR Varian Standard deviasi

Analisis Box Plot

Contoh box plot: rata-rata dua blox pot ini mirip

Contoh Boxplot

Task Pada Data Cleaning
Isi data yang hilang Identifikasi outlier dan perhalus noisy data Koreksi data yang tidak konsisten Selesaikan duplikasi akibat integrasi data

Data Cleaning: Data yang hilang
Data tidak selalu ada Contoh penghasilan ortu (segan, tidak bersedia) Sebab data hilang Kerusakan mesin Tidak konsisten dan dihapus Tidak dimasukkan karena salah paham Tidak dianggap penting Perubahan data tidak dicatat Data yang hilang mungkin harus diturunkan dari data yang lain. Penangan data yang hilang?

Bagaimana cara menangani data yang hilang?
Abaikan record Isi secara manual. (feasible?) Isi secara otomatis: Isi dengan “Tidak-Diketahui” Rata-rata dari isi field itu Rata-rata dengan field yang sekelas (di klasifikasi dulu) Nilai yang paling mungkin (teknik probabilitas)

Noisy Data Noise: kesalahan kecil random. Penyebab:
Kesalahan Instrumen pengumpul data Masalah data entry Masalah transmisi data Keterbatasan teknologi Tidak konsisten dalam penamaan (contoh: Jogja vs Yogya)

Bagaimana Cara Menangani
Noisy Data? Binning Method: Urutkan dan bagi data dalam “ember” dalam frekuensi yang sama (bin) Regresi Clustering Deteksi dan buang outlier Kombinasi komputer+manusia Deteksi data mencurigakan → tangani oleh manusia

Contoh Binning Methods
Urutkan data: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 Bagi dengan frekuensi yang sama: - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34 Smoothing by bin means: - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29 Smoothing by bin boundaries: - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, 34

Regresi y Y1 Y1’ y = x + 1 X1 x

Analisis Cluster

Integrasi Data Integrasi Data:
Menggabungkan data dari sumber yang beragam Integrasi Schema : contoh: A.nama ≡ B.nama_depan + B.nama_belakang Identifikasi entitas: Identifikasi entitas dari sumber yang beragam. Con: SBY = Susilo Bambang Yudhoyono Deteksi dan memperbaiki nilai yang konflik Contoh: cm vs feet, kg vs pound

Penanganan Redundancy
Data redundan (duplikasi yang tidak perlu) dapat muncul saat integrasi: Atribut yang sama dapat memiliki nama yang berbeda Derivable data: Data berasal dari atribut lain. Contoh: Umur dari tgl lahir.

Transformasi Data Perubahan bentuk data atau konsolidasi
Smoothing: membuang noise dari data Agregasi Generalisasi (jalan → kota) Normalisasi: transformasi nilai menjadi skala yang lebih kecil min-max z-score decimal scaling Pembentukan atribut baru

Normalisasi Min-max normalization: ke [new_minA, new_maxA]
Contoh, gaji $12,000 sd $98,000 di normaliasi [0.0, 1.0]. Maka $73,000 dipetakan ke Z-score normalization (μ: mean, σ: standard deviation): Contoh μ = 54,000, σ = 16,000. maka Normalisasi dengan decimal scaling (dibagi 10j) sehingga nilai maksimum <1

Strategi Reduksi Data Mengapa reduksi data? Reduksi data:
Database/datawarehouse dapat menyimpan Tera/Peta Data. Analisis/mining kompleks dapat membutuhkan waktu yang sangat lama jika menggunakan seluruh data. Reduksi data: Mendapatkan versi data yang volumenya jauh lebih kecil tetapi menghasilkan hasil analisis yang sama (atau mendekati)

Strategi Reduksi Data Agregasi Data
Contoh: pendapatan harian jadi pendapatan bulanan Reduksi dimensi → pembuangan atribut Pilih himpunan minimal dari atribut yang tetap representatif. Kompresi data Numerosity reduction: representasi yang lebih kecil Diskretisasi dan pembangkitan konsep hirarki.

Kompresi Data Data Original Data Terkompresi lossless Original Data
(Diperkirakan) lossy

Kompresi Data Kompresi String Kompresi Audio/video Time sequence
Ada beberapa algoritma Kompresi Audio/video Biasanya lossy compression Sometimes small fragments of signal can be reconstructed without reconstructing the whole Time sequence Pendek-pendek, dan bervariasi dalam jangka waktu lama

Dimensionality Reduction: Wavelet Transformation
Discrete wavelet transform (DWT): proses sinyal Compressed approximation: simpan bagian terkuat dari wavelet coefficient. Mirip dengan discrete Fourier transform (DFT), tapi lebih baik

Numerosity Reduction Kurangi data dengan memilih bentuk alternatif yang lebih kecil. Parametric Asumsikan data cocok dengan model, perkirakan parameter model, lalu buang datanya. Non-parametric methods Tidak ada asumsi model histograms, clustering, sampling

Contoh Parametric

Diskretisasi Tiga jenis atribut: Diskretisasi:
Nominal (tidak terurut) Contoh: warna, pekerjaan Ordinal (terurut) Contoh: pangkat Continuous real atau angka integer Diskretisasi: Bagi range pada data continuous dalam interval Masukan data ke dalam interval bayi: <1 thn; balita: 1-3 thn; lansia >60

Data PreProcessing (Praproses Data)

Presentasi serupa

Presentasi berjudul: "Data PreProcessing (Praproses Data)"— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan

Masuk

Otorisasi melalui jaringan sosial:

Data PreProcessing (Praproses Data)

Presentasi serupa

Presentasi berjudul: "Data PreProcessing (Praproses Data)"— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan