Data PreProcessing (Praproses Data)

Slides:



Advertisements
Presentasi serupa
KNOWLEGDE DISCOVERY in DATABASE (KDD)
Advertisements

Analisis Outlier.
SEKILAS STATISTIKA 1. Menjelaskan konsep dasar data & pembagiannya 2
Analysis and Presentation of Data
DATA MINING 1.
Kuisoner Tidak Layak Diolah Karena
Pertemuan 1 PRAKTIKUM STATISTIKA. Definisi Statistik dan Statistika Statistik adalah kumpulan data dalam bentuk angka maupun bukan angka yang disusun.
STATISTIK NONPARAMETRIK Kuliah 1: Pengertian Statistika Nonparametrik Dosen: Dr. Hamonangan Ritonga, MSc Sekolah Tinggi Ilmu Statistik Jakarta Tahun.
M ANAJEMEN D ATA “Pengaksesan Data”. P ENDAHULUAN Selama beberapa waktu, teknologi informasi berkonsentrasi pada pembangunan sistem bermisi kritis,- sistem.
The Knowledge Discovery Process
Langkah awal sebelum menganalisis data
Tugas Pengendalian Mutu
STATISTIK DESKRIPTIF Statistika Deskriptif Statistik Inferensial
1 Analisis Data Output Slide terutama diambil dari: “The Art of Computer Systems Performance Analysis” by Raj Jain, Wiley [Chapters 12, 13, and 25]
Metode Statistika (STK211)

Kompresi Citra dan Reduksi Data
Studi Deskriptif dan Analisis Data Dasar
Data Mining: Klasifikasi dan Prediksi Naive Bayesian & Bayesian Network . April 13, 2017.
Teknik Penyusunan Laporan / Metodologi Penelitian
1 6 Statistika Deskriptif. © John Wiley & Sons, Inc. Applied Statistics and Probability for Engineers, by Montgomery and Runger. Ringkasan Numerik dari.
UKURAN DISPERSI Presented by Astuti Mahardika, M.Pd.
Tim Dosen Data Mining Fakultas Informatika
VARIABEL.
ANALISIS OUTLIER 1 Data Mining.
Kompresi Gambar Klasifikasi Kompresi Teknik Kompresi 1.
STATISTIK untuk Penelitian Kesehatan
STATISTIK DESKRIPTIF Pengumpulan data, pengorganisasian, penyajian data Distribusi frekuensi Ukuran pemusatan Ukuran penyebaran Skewness, kurtosis.
Analisis Data Kuantitatif
STATISTIK DESKRIPTIF.
BLS SESI – 3 DATA MINING WAHYU NURJAYA WK.
PENGOLAHAN dan analisis DATA
Probabilitas dan Statistik
Probabilitas dan Statistik
STATISTIKA DAN PROBABILITAS
Meminimalkan Kebutuhan Memori dalam Merepresentasikan Citra Digital
PEMBUATAN POHON KEPUTUSAN
Distribusi Sampling Juweti Charisma.
Data Mining: Concepts and Techniques
UKURAN-UKURAN STATISTIK
RESEARCH FIELDS BIDANG PENELITIAN.
Statistika Industri Week 2
EKSTRAKURIKULER : DATA ANALYSIS
Business Intelligent Ramos Somya, S.Kom., M.Cs.
STATISTIK 1 Pertemuan 5,6: Ukuran Pemusatan dan Penyebaran
STATISTIK 1 Pertemuan 5,6: Ukuran Pemusatan dan Penyebaran
Webinar 8 Pengolahan Data
STATISTIKA Pertemuan 3: Ukuran Pemusatan dan Penyebaran
PENGANTAR BIOSTATISTIK
Pengantar Statistik Juweti Charisma.
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
STATISTIK DESKRIPTIF Statistika Deskriptif Statistik Inferensial
EKSPLORASI DATA & DATA WAREHOUSE PERTEMUAN - 2 NOVIANDI
Data dan Eksplorasi Data
Statistika Deksriptif
SQL(SELECT QUERY LANGUAGE)
Deskripsi Numerik Data
Konsep dan Teknik Data Mining
DATA PREPARATION Kompetensi
Pertemuan 10 Mata Kuliah Pengolahan Citra
Oleh : Rahmat Robi Waliyansyah, M.Kom.
DATA PREPARATION.
Dct.
Analisis Data Statistik Deskriptif Dr. Oos M. Anwas.
Knowledge Discovery (KDD) Process
BIOSTATISTIK.
Pertemuan 11 Studi Deskriptif dan Analisis Data Dasar.
Universitas Gunadarma
Distribusi Sampling Menik Dwi Kurniatie, S.Si., M.Biotech.
Transcript presentasi:

Data PreProcessing (Praproses Data) yudi@upi.edu Diambil dari slide Jiawei Han Feb 2017

Garbage In Garbage Out sumber: http://1.bp.blogspot.com/

Materi Mengapa praproses? Rangkuman data Pembersihan data Integrasi dan transformasi data Pengurangan data Diskretisasi dan pembangkitan hirarki konsep Rangkuman

Mengapa Praproses Data diperlukan? Garbage in garbage out → data jelek, hasil mining jelek Quality decision → berdasarkan quality data Ekstraksi data, pembersihan dan transformasi sering merupakan bagian terbesar data mining.

Kota Bdg: 1800 ton per hari

Mengapa Praproses Data? Data di dunia nyata “kotor” Tidak lengkap: atribut hilang, atau hanya berisi agregat data. Contoh: pekerjaan_ortu =“” Error dan Noisy : Mengandung kesalahan tersembunyi. Contoh: gaji_ortu = “200000” Tidak konsisten: Ketidak cocokan dalam kode dan nama. Contoh: Umur 33, lahir tahun 92 Ketidakcocokan antara record yang duplikasi.

Noisy

Mengapa Data Kotor? Data yang tidak lengkap: Data salah: Tidak tersedia saat pengumpulan Tadinya dianggap tidak penting Data salah: Kesalahan alat pengumpul data Kesalahan manusia/komputer saat entri data Kesalahan saat pengiriman data Data yang tidak konsisten: Sumber data yang berbeda Ref integrity yang dilanggar Duplikasi data

Ukuran Data yang Berkualitas Akurat Lengkap Konsisten Timeliness (tepat waktu) Masuk akal Memberi nilai tambah Dapat diterjemahkan Dapat diakses

Kegiatan dalam Praproses Data Pembersihan data Isi data yang hilang, bersihkan noisy data, identifikasi dan buang outliers dan selesaikan data yang tidak konsisten. Integrasi data Integrasi dari multidatabase Normalisasi dan agregasi Reduksi data Data lebih sedikit tapi hasil statistik sama Diskretisasi Untuk data numerik

Ilustrasi Praproses Data

Pembersihan Data Deteksi anomali Field yang tidak konsisten Nilai NULL untuk field yang seharusnya NOT NULL Rentang nilai numerik (contoh: ada umur negatif) Pola (contoh: kode pos yang memiliki huruf padahal seharusnya angka 5 digit) Duplikasi ID

Karakteristik Data Deskriptif Central tendency Rata-rata, median, modus Karakteristik ketersebaran: Quartiles, outliers dan boxplots

Central Tendency Rata-rata (mean) Median Modus: paling sering muncul 1,5,6,7,7,8,10,12,15,18,20 Modus: paling sering muncul “Ada orang dewasa tenggelam di kolam yang kedalaman rata-ratanya 50 cm”

Modus, Rata-Rata, Median

Ketersebaran Quartile: Q1 (25%), Q3 (75%) Inter-quartile range: IQR = Q3 – Q1 Lima angka penting: min, Q1, Median, Q3, Max Outlier: biasanya lebih kecil atau besar dari 1.5 x IQR Varian Standard deviasi

Analisis Box Plot http://www.datavizcatalogue.com/methods/images/anatomy/box_plot.png

Contoh box plot: rata-rata dua blox pot ini mirip

Contoh Boxplot

Task Pada Data Cleaning Isi data yang hilang Identifikasi outlier dan perhalus noisy data Koreksi data yang tidak konsisten Selesaikan duplikasi akibat integrasi data

Data Cleaning: Data yang hilang Data tidak selalu ada Contoh penghasilan ortu (segan, tidak bersedia) Sebab data hilang Kerusakan mesin Tidak konsisten dan dihapus Tidak dimasukkan karena salah paham Tidak dianggap penting Perubahan data tidak dicatat Data yang hilang mungkin harus diturunkan dari data yang lain. Penangan data yang hilang?

Bagaimana cara menangani data yang hilang? Abaikan record Isi secara manual. (feasible?) Isi secara otomatis: Isi dengan “Tidak-Diketahui” Rata-rata dari isi field itu Rata-rata dengan field yang sekelas (di klasifikasi dulu) Nilai yang paling mungkin (teknik probabilitas)

Noisy Data Noise: kesalahan kecil random. Penyebab: Kesalahan Instrumen pengumpul data Masalah data entry Masalah transmisi data Keterbatasan teknologi Tidak konsisten dalam penamaan (contoh: Jogja vs Yogya)

Bagaimana Cara Menangani Noisy Data? Binning Method: Urutkan dan bagi data dalam “ember” dalam frekuensi yang sama (bin) Regresi Clustering Deteksi dan buang outlier Kombinasi komputer+manusia Deteksi data mencurigakan → tangani oleh manusia

Contoh Binning Methods Urutkan data: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 Bagi dengan frekuensi yang sama: - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34 Smoothing by bin means: - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29 Smoothing by bin boundaries: - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, 34

Regresi y Y1 Y1’ y = x + 1 X1 x

Analisis Cluster

Integrasi Data Integrasi Data: Menggabungkan data dari sumber yang beragam Integrasi Schema : contoh: A.nama ≡ B.nama_depan + B.nama_belakang Identifikasi entitas: Identifikasi entitas dari sumber yang beragam. Con: SBY = Susilo Bambang Yudhoyono Deteksi dan memperbaiki nilai yang konflik Contoh: cm vs feet, kg vs pound

Penanganan Redundancy Data redundan (duplikasi yang tidak perlu) dapat muncul saat integrasi: Atribut yang sama dapat memiliki nama yang berbeda Derivable data: Data berasal dari atribut lain. Contoh: Umur dari tgl lahir.

Transformasi Data Perubahan bentuk data atau konsolidasi Smoothing: membuang noise dari data Agregasi Generalisasi (jalan → kota) Normalisasi: transformasi nilai menjadi skala yang lebih kecil min-max z-score decimal scaling Pembentukan atribut baru

Normalisasi Min-max normalization: ke [new_minA, new_maxA] Contoh, gaji $12,000 sd $98,000 di normaliasi [0.0, 1.0]. Maka $73,000 dipetakan ke Z-score normalization (μ: mean, σ: standard deviation): Contoh μ = 54,000, σ = 16,000. maka Normalisasi dengan decimal scaling (dibagi 10j) sehingga nilai maksimum <1

Strategi Reduksi Data Mengapa reduksi data? Reduksi data: Database/datawarehouse dapat menyimpan Tera/Peta Data. Analisis/mining kompleks dapat membutuhkan waktu yang sangat lama jika menggunakan seluruh data. Reduksi data: Mendapatkan versi data yang volumenya jauh lebih kecil tetapi menghasilkan hasil analisis yang sama (atau mendekati)

Strategi Reduksi Data Agregasi Data Contoh: pendapatan harian jadi pendapatan bulanan Reduksi dimensi → pembuangan atribut Pilih himpunan minimal dari atribut yang tetap representatif. Kompresi data Numerosity reduction: representasi yang lebih kecil Diskretisasi dan pembangkitan konsep hirarki.

Kompresi Data Data Original Data Terkompresi lossless Original Data (Diperkirakan) lossy

Kompresi Data Kompresi String Kompresi Audio/video Time sequence Ada beberapa algoritma Kompresi Audio/video Biasanya lossy compression Sometimes small fragments of signal can be reconstructed without reconstructing the whole Time sequence Pendek-pendek, dan bervariasi dalam jangka waktu lama

Dimensionality Reduction: Wavelet Transformation Discrete wavelet transform (DWT): proses sinyal Compressed approximation: simpan bagian terkuat dari wavelet coefficient. Mirip dengan discrete Fourier transform (DFT), tapi lebih baik

Numerosity Reduction Kurangi data dengan memilih bentuk alternatif yang lebih kecil. Parametric Asumsikan data cocok dengan model, perkirakan parameter model, lalu buang datanya. Non-parametric methods Tidak ada asumsi model histograms, clustering, sampling

Contoh Parametric https://camo.githubusercontent.com/c

Diskretisasi Tiga jenis atribut: Diskretisasi: Nominal (tidak terurut) Contoh: warna, pekerjaan Ordinal (terurut) Contoh: pangkat Continuous real atau angka integer Diskretisasi: Bagi range pada data continuous dalam interval Masukan data ke dalam interval bayi: <1 thn; balita: 1-3 thn; lansia >60