Preparing the Data.

Slides:



Advertisements
Presentasi serupa
Pengukuran dan Skala.
Advertisements

PEMROSESAN FILE DAN KONSEP MANAJEMEN DATA
Clustering Okt 2012.
GRAFIK KENDALI (CONTROL CHARTS)
Analysis and Presentation of Data
STATISTIK NONPARAMETRIK Kuliah 1: Pengertian Statistika Nonparametrik Dosen: Dr. Hamonangan Ritonga, MSc Sekolah Tinggi Ilmu Statistik Jakarta Tahun.
The Knowledge Discovery Process
Langkah awal sebelum menganalisis data
© 2002 Prentice-Hall, Inc.Chap 3-1 Bab 3 Pengukuran.
Pertemuan 02 Ukuran Numerik Deskriptif
Perancangan Database Pertemuan 07 s.d 08
STATISTIKA Srikandi Kumadji.
Pengertian dan Peranan Statistika dan Data Statistik Pertemuan 01
Presented By : Group 2. A solution of an equation in two variables of the form. Ax + By = C and Ax + By + C = 0 A and B are not both zero, is an ordered.
Citra Digital dan Pengolahannya
Data Mining: Klasifikasi dan Prediksi Naive Bayesian & Bayesian Network . April 13, 2017.
Kuswanto Ukuran Pemusatan Data.
PEMBUATAN MODEL DATA dan DESAIN DATABASE
Appropriate Measures of Central Tendency Nominal variables Mode Ordinal variables Median Interval level variables Mean - If the distribution is normal.
1 Pertemuan Ketujuh Measurement Basic Matakuliah: MN J0412/ Riset Pemasaran Tahun: 2007 Versi:
Floating Point (Multiplication)
1 Pertemuan 10 Fungsi Kepekatan Khusus Matakuliah: I0134 – Metode Statistika Tahun: 2007.
Pertemuan 03 Ukuran Penyimpangan (Variasi)
PENDUGAAN PARAMETER Pertemuan 7
1 Pertemuan #2 Probability and Statistics Matakuliah: H0332/Simulasi dan Permodelan Tahun: 2005 Versi: 1/1.
9.3 Geometric Sequences and Series. Objective To find specified terms and the common ratio in a geometric sequence. To find the partial sum of a geometric.
Data Mining: Mengenal dan memahami data
VARIABEL.
Data Hasil Ukur.
Ukuran Gejala Pusat (Central Tendency)
STATISTIKA CHATPER 4 (Perhitungan Dispersi (Sebaran))
HTML BASIC (Contd…..) PERTEMUAN KEDUA.
Tipe Data By Serdiwansyah N. A..
Buy Famvir Online Canada
Chapter 2 Representasi Data: Grafik
Mengkode Data dan screening
Fakultas Informatika – Telkom University
GRAFIK KENDALI (CONTROL CHARTS)
STATISTIKA Mean, Median dan Modus.
Analisis Univariat dan Bivariat
STATISTIKA Srikandi Kumadji.
Cartesian coordinates in two dimensions
VARIABEL Metode Penelitian Psikologi 1
Cartesian coordinates in two dimensions
Model Berorinetasi Data
Pengujian Hipotesis (I) Pertemuan 11
Matakuliah : I0014 / Biostatistika Tahun : 2005 Versi : V1 / R1
KIMIA ANALISIS Konsep Statistika.
CLASS DIAGRAM.
PENGANTAR STATISTIK INDUSTRI I
PROBLEM (pengukuran atribut psikologis).
Pohon Keputusan (Decision Trees)
Similarity/ Dissimilarity
Pendugaan Parameter (II) Pertemuan 10
STATISTIK 1 Pertemuan 5,6: Ukuran Pemusatan dan Penyebaran
( Cascading style sheets)
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
Pertemuan 4 CLASS DIAGRAM.
Model Berorinetasi Data
EKSPLORASI DATA & DATA WAREHOUSE PERTEMUAN - 2 NOVIANDI
Control Chart Transparency Masters to accompany Heizer/Render – Principles of Operations Management, 5e, and Operations Management, 7e.
Data dan Eksplorasi Data
Data Mining DATA SET. Set Data Ada bermacam –macam cara untuk merepresentasikan data, Misalnya, atribut yang digunakan untuk menggambarkan jenis objek.
STATISTIKA Srikandi Kumadji.
Data PreProcessing (Praproses Data)
KULIAH “PRAKTIKUM BASIS DATA“ TEKNIK INFORMATIKA UNIVERSITAS MERCU BUANA Oleh : AFIYATI S.KOM, MT.
DATA PREPARATION Kompetensi
DATA PREPARATION.
Universitas Gunadarma
Komponen table Ms. Access
Transcript presentasi:

Preparing the Data

What is Data? Kumpulan obyek data dan atributnya Attributes Kumpulan obyek data dan atributnya Atribut adalah property atau karakteristik suatu obyek Contoh: warna mata, temperature, dll Atribut dikenal sebagai variable, field, ataupun karakteristik Kumpulan dari atribut menggambarkan obyek Obyek dikenal juga sebagai record, point, case, sample, entitas Objects

Attribute Values Nilai atribut adalah angka2 atau symbol2 yg diassign ke suatu atribut Perbedaan antara atribut dan nilai atribut Atribut yg sama dapat dipetakkan ke nilai atribut yg beda Misal: ketinggian dapat diukur dalam feet atau meter Atribut yg beda dapat dipetakan ke himpunan nilai yg sama Contoh: nilai atribut untuk ID dan age adalah integer Tetapi property nilai atribut dapat berbeda: ID tidak mempunyai batasan nilai maksimum dan minimum

Attribute Types Ada jenis2 atribut yg berbeda: Nominal Ordinal Contoh: nomor ID, warna mata, kode pos Ordinal Rangking/ tingkatan (contoh rasa dari kripik kentang dalam skala 1-10), grade, tinggi dalam {tinggi, sedang, rendah} Interval Contoh: tanggal kalender, temperature dalam Celsius atau Fahrenheit Ratio Contoh: temperature dalam Kelvin, panjang, waktu, jumlah

Properties of Attribute Values /1 Jenis atribut tergantung pada properti berikut yg mana dia miliki Distinctness: =  Order: < > Addition: + - Multiplication: * / Nominal attribute: distinctness Ordinal attribute: distinctness & order Interval attribute: distinctness, order & addition Ratio attribute: all 4 properties

Properties of Attribute Values /2 Attribute Type Description Examples Operations Nominal The values of a nominal attribute are just different names, i.e., nominal attributes provide only enough information to distinguish one object from another. (=, ) zip codes, employee ID numbers, eye color, sex: {male, female} mode, entropy, contingency correlation, 2 test Ordinal The values of an ordinal attribute provide enough information to order objects. (<, >) hardness of minerals, {good, better, best}, grades, street numbers median, percentiles, rank correlation, run tests, sign tests Interval For interval attributes, the differences between values are meaningful, i.e., a unit of measurement exists. (+, - ) calendar dates, temperature in Celsius or Fahrenheit mean, standard deviation, Pearson's correlation, t and F tests Ratio For ratio variables, both differences and ratios are meaningful. (*, /) temperature in Kelvin, monetary quantities, counts, age, mass, length, electrical current geometric mean, harmonic mean, percent variation Mode =modus (nilai sering muncul)

Properties of Attribute Values / 3 Attribute Level Transformation Comments Nominal Any permutation of values If all employee ID numbers were reassigned, would it make any difference? Ordinal An order preserving change of values, i.e., new_value = f(old_value) where f is a monotonic function. An attribute encompassing the notion of good, better best can be represented equally well by the values {1, 2, 3} or by { 0.5, 1, 10}. Interval new_value =a * old_value + b where a and b are constants Thus, the Fahrenheit and Celsius temperature scales differ in terms of where their zero value is and the size of a unit (degree). Ratio new_value = a * old_value Length can be measured in meters or feet.

Discrete and Continuous Attributes Discrete Attribute Mempunyai himpunan nilai terbatas atau tak terbatas Contoh: zip codes, himpunan kata dalam kumpulan dokumen Sering direpresentasikan sbg variable integer Note: binary attributes  special case Continuos Attribute Memiliki angka2 real sebagai nilai atribut Contoh: temperatur, tinggi atau berat Dapat diukur dan direpresentasikan menggunakan sejumlah digit terbatas Ciri khasnya direpresentasikan sebagai variable pecahan

Asymmetric Attributes Hanya keberadaannya (non zero attribute value) diperhatikan Contoh: Kata-kata muncul di dokumen Item-item muncul di transaksi customer

Types of data sets Record Graph Ordered Data Matrix Document Data Transaction Data Graph World Wide Web Molecular Structures Ordered Spatial Data Temporal Data Sequential Data Genetic Sequence Data

Important characteristics of structured data Dimensionality Sparsity Hanya menghitung kemunculan Resolution Pola2 bergantung skala

Record Data Data yg berisi kumpulan record, yg mana masing-masing berisi suatu himpunan atribut yang ditentukan.

Data Matrix Jika objek data mempunyai kumpulan atribut numerik yg ditentukan , kemudian data objek dapat dipandang sebagai titik dalam ruang multidimensional, di mana setiap dimensi merepresentasian suatu atribut yang berbeda. Seperti data set dapat direpresentasikan dengan suatu matrik m dengan n di mana ada m baris, satu dari setiap objek dan n kolom, satu untuk setiap atribut.

Document Data Setiap document menjadi suatu ‘term’ vector, Setiap term adalah komponen (atribut) dari vector Nilai setiap komponen adalah banyaknya waktu yg berhubungan terms terdapat dalam document

Transaction Data Jenis spesial dari data rekord , dimana Setiap record (transaksi) mencangkup kumpulan item-item Contoh: Toko penjualan bahan makanan. Sejumlah produk dibeli customer selama perjalanan pembelian merupakan suatu transaksi, namun produk yg dibeli merupakan item

Graph Data Contoh: Generic graph and HTML Links

Chemical Data Benzene Molecule: C6H6

Ordered Data /1 Sequence of transaction Items/Events An element of the sequence

Ordered Data /2 Genomic sequence data

Ordered Data /3 Spatio-Temporal data Average Monthly Temperature of land and ocean

Data Quality Jenis masalah apa kualitas data? Bagaimana kita dapat mendeteksi masalah dengan data? Apa yg dapat kita lakukan tentang masalah ini? Contoh masalah kualitas data: Noise & outliers Missing Values Duplicate data

Noise Mengacu pada modifikasi nilai original Contoh: distorsi suara seseorang ketika berbicara Two Sine Waves Two Sine Waves + Noise

Outliers /1 Outliers adalah obyek data dengan karakteristik berbeda dengan kebanyakan data obyek lain dalam data set.

Outliers /2 Contoh: suatu data set merepresentasikan gambaran umur dengan 20 nilai yg berbeda, Age = {3, 56, 23, 39, 156, 52, 41, 22, 9, 28, 139, 31, 55, 20, -67, 37, 11, 55, 45, 37} Maka parameter statistika yg berhubungan: Mean = 39.9 Standard deviation = 45.65 Jika kita memilih nilai threshold untuk distribusi normal data : Theshold = Mean ± 2 x Standard Deviation maka seluruh data yg diluar range [-54.1, 131.2] adalah potential outliers. Dan oleh karena age >0, mungkin mengurangi range menjadi [0, 131.2]. Sehingga ada outlier berdasarkan kriteria yg diberikan: 156, 139dan -67 Dengan kemungkinan yg tinggi, dapat disimpulkan 3 data tersebut ada mistypo (data yg dimasukkan dengan penambahan digit atau tanda ‘-’)

Missing Values Beberapa alasan missing values: Informasi tidak terkumpul (misal: orang2 menolak memberikan info umur dan berat mereka) Atribut mungkin tidak dapat diaplikasikan je semua kasus (misal: pendapatan tidak dapat diaplikasikan ke anak2) Mengatasi missing values: Eliminasi obyek data Mengestimasi missing value selama analisis Mengganti dengan semua nilai kemungkinan (pembobotan oleh kemungkinannya)

Duplicate Data Data set mungkin terdapat obyek data yang duplikat, atau hampir duplikasi dari yg lain Isu utama dengan menggabungkan sumber yg berbeda2 Contoh: orang yg sama dengan berbagai email address Data cleaning Proses perlakuan dengan isu data duplikasi

Data Preprocessing: Why is Needed? Data di dunia riil cenderung kotor Incompete: kekurangan nilai atribut, kurang atribut ttt yg menarik, atau hanya berupa kumpulan data Noise: berisi errors atau outliers Inconsistent: berisi berbeda format dalam code dan nama Data yg tidak berkualitas, tidak ada hasil2 mining yg berkualitas Keputusan kualitas harus didasarkan pada data kualitas Data warehouse memerlukan integritas konsisten dari data kualitas

Major task in Data Preprocessing Data Cleaning Data Integration Data Transformation Data Reduction Data Discretisation

Forms of Data Preprocessing

Transforming Data Centering Normalization Scaling Mengurangi setiap data dengan rata2 dari setiap atribut Normalization Hasil dari centering dibagi dengan standard deviasi Scaling Merubah data sehingga berada dalam skala tertentu