Data Mining: Concepts and Techniques

Slides:



Advertisements
Presentasi serupa
Pengujian Hipotesis.
Advertisements

Bayesian: Multi-Parameter Model
The Knowledge Discovery Process
KUSWANTO, SUB POKOK BAHASAN Mata kuliah dan SKS Manfaat Deskripsi Tujuan instruksional umum Pokok bahasan.
Langkah awal sebelum menganalisis data
Regresi linier sederhana
Korelasi Linier KUSWANTO Korelasi Keeratan hubungan antara 2 variabel yang saling bebas Walaupun dilambangkan dengan X dan Y namun keduanya diasumsikan.
TEKNIK PENGINTEGRALAN
Pertemuan 02 Ukuran Numerik Deskriptif
BLACK BOX TESTING.
Presented By : Group 2. A solution of an equation in two variables of the form. Ax + By = C and Ax + By + C = 0 A and B are not both zero, is an ordered.
Bina Nusantara Model Simulasi Peretemuan 23 (Off Clas) Mata kuliah: K0194-Pemodelan Matematika Terapan Tahun: 2008.
Research Design (Cont). Jenis Perancangan Riset Jenis perancangan mana yg akan digunakan ? Peneliti perlu memikirkan tentang apa yang mereka inginkan.
Testing Implementasi Sistem Oleh :Rifiana Arief, SKom, MMSI
Data Mining: Klasifikasi dan Prediksi Naive Bayesian & Bayesian Network . April 13, 2017.
REGRESI LINIER BERGANDA (MULTIPLE LINEAR REGRESSION)
Pendugaan Parameter Proporsi dan Varians (Ragam) Pertemuan 14 Matakuliah: L0104 / Statistika Psikologi Tahun : 2008.
1 Pertemuan 03 dan 04 Ukuran Variasi Matakuliah: I Statistika Tahun: 2008 Versi: Revisi.
Population and sample. Population is complete actual/theoretical collection of numerical values (scores) that are of interest to the researcher. Simbol.
1 Pertemuan 10 Fungsi Kepekatan Khusus Matakuliah: I0134 – Metode Statistika Tahun: 2007.
Pertemuan 07 Peluang Beberapa Sebaran Khusus Peubah Acak Kontinu
Simple Regression ©. Null Hypothesis The analysis of business and economic processes makes extensive use of relationships between variables.
MULTIPLE REGRESSION ANALYSIS THE THREE VARIABLE MODEL: NOTATION AND ASSUMPTION 08/06/2015Ika Barokah S.
Pertemuan 06 Sinyal dan Data
Smoothing. Basic Smoothing Models Moving average, weighted moving average, exponential smoothing Single and Double Smoothing First order exponential smoothing.
Tim Dosen Data Mining Fakultas Informatika
Ukuran Penyimpangan atau Disversi Pertemuan 04
Jaringan Nirkabel Bab #5 – Enkoding Sinyal.
REGRESI LINIER BERGANDA (MULTIPLE LINEAR REGRESSION)
STATISTIKA CHATPER 4 (Perhitungan Dispersi (Sebaran))
BLS SESI – 3 DATA MINING WAHYU NURJAYA WK.
Menyelesaikan Masalah Program Linear
Pengujian Hipotesis (I) Pertemuan 11
Matakuliah : I0014 / Biostatistika Tahun : 2005 Versi : V1 / R1
Regresi.
BY EKA ANDRIANI NOVALIA RIZKANISA VELA DESTINA
Pendugaan Parameter (I) Pertemuan 9
Peramalan Data Time Series
Image Enhancement –Spatial Filtering
Review Operasi Matriks
PENDUGAAN PARAMETER Pertemuan 8
the formula for the standard deviation:
KORELASI DAN REGRESI LINEAR SEDERHANA
BILANGAN REAL BILANGAN BERPANGKAT.
Pendugaan Parameter (II) Pertemuan 10
REAL NUMBERS EKSPONENT NUMBERS.
Classification Supervised learning.
VARIABEL ACAK (RANDOM VARIABLES)
REGRESI LINIER BERGANDA (MULTIPLE LINEAR REGRESSION)
Fungsi Kepekatan Peluang Khusus Pertemuan 10
Teknik Pengujian Software
Manajemen Proyek Perangkat Lunak (MPPL)
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
Eksperimen Satu Faktor: (Disain RAL)
Master data Management
EKSPLORASI DATA & DATA WAREHOUSE PERTEMUAN - 2 NOVIANDI
Analisis Korelasi dan Regresi Berganda Manajemen Informasi Kesehatan
Data dan Eksplorasi Data
Uji Korelasi dan Regresi
Pertemuan 21 dan 22 Analisis Regresi dan Korelasi Sederhana
Konsep dan Teknik Data Mining
Data PreProcessing (Praproses Data)
Simultaneous Linear Equations
DATA PREPARATION Kompetensi
Operasi Matriks Dani Suandi, M.Si..
DATA PREPARATION.
Lesson 2-1 Conditional Statements 1 Lesson 2-1 Conditional Statements.
Knowledge Discovery (KDD) Process
2. Discussion TASK 1. WORK IN PAIRS Ask your partner. Then, in turn your friend asks you A. what kinds of product are there? B. why do people want to.
Wednesday/ September,  There are lots of problems with trade ◦ There may be some ways that some governments can make things better by intervening.
Transcript presentasi:

Data Mining: Concepts and Techniques Preprocessing Data 4/13/2018 Data Mining: Concepts and Techniques

Data Preprocessing Data Preprocessing: Kualitas Data Tugas pokok dalam Data Preprocessing Data Cleaning Data Integration Data Reduction Data Transformation and Data Discretization Summary 2

Data Quality: Why Preprocess the Data? Mengukur kualitas data: Accuracy Completeness Consistency Timeliness: Believability Interpretability

Tugas pokok dalam Data Preprocessing Data cleaning Mengisi data hilang (missing values), memperhalus data noise (smooth noisy data), Mengidentifikasi atau menghilangkan data pencilan (identify or remove outliers) Menyelesaian ketidakkonsistenan data Data integration Mengintegrasikan database database data cubes, atu file-file Data reduction Dimensionality reduction Data compression Data transformation and data discretization

Data Cleaning Data dalam kenyataannya adalh seringkali kotor (Dirty): sangat berpotensi data tidak benar. Penyebanya : kegagalan perangkat, human or computer error, kesalahan transmisi incomplete: nilai nilai atribut yang kurang, dll Misal kewarganegaran= “ ” (missing data) noisy: berisi noise, error, atau outlier (data aneh) e.g., Salary = “−10” (an error) inconsistent: ada perbedaan dalam pengkodean atau penamaan; misal Umur = “42”, Tanggal lahir = “03/07/2010” tingkatan “1, 2, 3”,untuk yang lain “A, B, C”

Incomplete (Missing) Data Data tidak selalu ada misal.,beberapa baris tidak meiliki nilai untuk beberapa atribut seperti penghasilan nasabah pada data penjualan Tidak adanya ada karena Tidak berfungsinya alat data tidak dimasukkan karena kesalahpahaman Suatu data tertentu tidak dianggap penting untuk dimasukkan pada waktu tertentu

Bagaiman mengatasi data yang hilang? Mengabaikan baris ( jika class/label itu hilang) Mengisi data yang hilang secara manual ( entry ulang) Mengisi secara otomatis dengan global constant : misal., “unknown”, Rata-rata atribut Rata-rata atribut untuk semua sample dengan keanggotan dari kelas yang sama : smarter Nilai –nilai yang lebih memungkinkan : inference-based seperti Bayesian formula atau decision tree

Noisy Data Noise: random error atau variance dalam variabel yang diukur Nilai atribut yang tidak benar mungkin karena Kegagalan mengumpulkan data oleh perangkat Maslah entri data Maslah transmisi data Ketidak konsistenan dama pemberian nama/code Maslah lain sehingga perlu data cleaning Duplikasi baris/records Data tidak lengkap Ketidak konsistenan data 8 8

Bagaimana mengatasi noise data? Binning Perta data diurutkan dan dibagi kedalam kelompok (equal-frequency) bins Kemudian dilakukan penghalusan dengan rata-rata bin, median , atau batas bin dll Regressi Memperhalus data dengan fungsi regresi Clustering Deteksi dan menghilangkan outlier Enrich using data integration research!!

Data Integration Data integration: Menggabungkan data dari berbagai sumber Skema integration: misal., A.cust-id  B.cust-# Menggabungkan dari berbagai sumber data Identifikasi entitas Mengidentifikasi entitas sebenarnya dari beberapa sumber; misal Bill Clinton = William Clinton Deteksi dan penyelesaian konflik nilai data: Untuk entitas yang sama : nilai-nilai atribut berbeda dari beberapa sumber yang berbeda Should ask students to do some survey on data integration. -JH 10

Mengatasi Redundancy dalam integrasi data Redundansi data terjadi ketika penggabungan dari berbagai sumber database Identifikasi objek: atribut atau objek yang sama memili nama berbeda dalam suatu database Derivable data: Satu atribut mungkin diperoleh dari atribut lain dalam suatu data, misal : gaji tahunan Redundansi attribute mungkin dapat dideteksi dengan analisa korelasi dan analisa kovarian Kehati-hatian dalam melakukan integrasi data dari berbagai sumber dapat membantu atau mengurangi redundasi dan ketidak konsistenana data dan meningkatkan kecepatan dan kualitas proses data mining 11

Correlation Analysis (Nominal Data) Χ2 (chi-square) test Semakin besar nilai Χ2 lebih memungkinkan variabel/atribut tersebut terkait Korelasi ttidak berarti hubungan sebab akibat

Chi-Square Calculation: An Example Menungjukkan bahwa like_science_fiction dan play_chess berkorelasi Play chess Not play chess Sum (row) Like science fiction 250(90) 200(360) 450 Not like science fiction 50(210) 1000(840) 1050 Sum(col.) 300 1200 1500

Correlation Analysis (Numeric Data) Koefisien korelasi (juga disebut Pearson’s product moment coefficient) Dengan n jumlah baris, dan adalah rata rata dari A dan B, σA dan σB adalah masing masing standard deviation A dan B, dan Σ(aibi) jumlah dari perkalian silang AB . jika rA,B > 0, A dan B adalah korelasi positif ( A naik B juga naik). Semakin tinggi korelasinya semakin kuat rA,B = 0: saling bebas; rAB < 0: korelasi negatif

Visually Evaluating Correlation Scatter plots showing the similarity from –1 to 1.

Correlation Korelasi mengukur hubungan linier antara objek Untuk menghitung korelasi, kita standarisasikan data objek A dan B, kemudain tentukan perkalian titiknya

Covariance (Numeric Data) Covariance sama dengan correlation where n is the number of tuples, and are the respective mean or expected values of A and B, σA and σB are the respective standard deviation of A and B Positive covariance: If CovA,B > 0, then A and B both tend to be larger than their expected values Negative covariance: If CovA,B < 0 then if A is larger than its expected value, B is likely to be smaller than its expected value Independence: CovA,B = 0 but the converse is not true: Some pairs of random variables may have a covariance of 0 but are not independent. Only under some additional assumptions (e.g., the data follow multivariate normal distributions) does a covariance of 0 imply independence Correlation coefficient:

Co-Variance: An Example Dapat dihitung juga dengan Misalkan stok A dan B memiliki nilai nilai berikut dalam satu minggu: (2, 5), (3, 8), (5, 10), (4, 11), (6, 14). Question: Jika keduanya dipengaruhi trend industri yang sama apakah keduanya naik atau turun secara bersamaan? E(A) = (2 + 3 + 5 + 4 + 6)/ 5 = 20/5 = 4 E(B) = (5 + 8 + 10 + 11 + 14) /5 = 48/5 = 9.6 Cov(A,B) = (2×5+3×8+5×10+4×11+6×14)/5 − 4 × 9.6 = 4 sehinga, A dan B naik secara bersamaan karena Cov(A, B) > 0.

Data Reduction Strategies Data reduction: mendapatkan representasi dari data yang lebih kecil dala volume data tetapi menghasilkan hasil analitik yang sama Strategi reduksi data Dimensionality reduction, misalkan menghilangkan atribut-atribut yang tidak penting Wavelet transforms Principal Components Analysis (PCA) Feature subset selection, feature creation Numerosity reduction (atau disebut: Data Reduction) Regression and Log-Linear Models Histograms, clustering, sampling Data compression MK 09/09/05: Wiki has dimensionality reduction as feature extraction (PCA) and feature subset selection. It states both wavelet transforms and PCA as forms of data compression. It does not have any pages for "numerosity reduction". We claim there are many different ways to organize data reduction strategies, which is true, so this presentation below should be OK. Let’s discuss.

Data Transformation Suatu fungsi yang memetakan seluruh nilai dari atribut ke nilai baru Metode Smoothing: menghilangkan noise dari data Attribute/feature construction Membentuk atribut baru Aggregation: Normalization min-max z-score normalisasi dengan decimal scaling Discretization 20

Normalisasi Min-max normalization: to [new_minA, new_maxA] Z-score normalization (μ: mean, σ: standard deviation): Ex. Let μ = 54,000, σ = 16,000. Then Normalisasi decimal scaling dimana j bilangan bulat terkecil sehingga Max(|ν’|) < 1

Simple Discretization: Binning Equal-width (distance) partitioning Membagi kedlam N interval dengan ukuran sama Jika A dan B adalah nilai terendah dan tertinggi dari atribut, lebar interva: W = (B –A)/N. outliers mendominasi Data miring tidak dapat diatasi dengan baik Equal-depth (frequency) Membagi N intervals Good data scaling

Binning Methods for Data Smoothing Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 * Partition into equal-frequency (equi-depth) bins: - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34 * Smoothing by bin means: - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29 * Smoothing by bin boundaries: - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, 34