Fakultas Informatika – Telkom University DATA Fakultas Informatika – Telkom University 1 12/11/2017
Pokok Bahasan 2 Data dan informasi Jenis-jenis data Kualitas Data
Data dan Informasi? Data adalah deskripsi tentang benda, kejadian, aktivitas, dan transaksi, yang tidak mempunyai makna atau tidak berpengaruh secara langsung kepada pemakai. Informasi adalah data yang telah diolah menjadi sebuah bentuk yang berarti bagi penerimanya dan bermanfaat dalam pengambilan keputusan saat ini atau saat mendatang (Davis 1999). 3
Hirarki Data,Informasi dan Knowledge 4
Merupakan kumpulan objek data dan atributnya Data dalam Data Mining Atribut Merupakan kumpulan objek data dan atributnya Umur Kegemukan Hipertensi Muda Gemuk Tidak Sangat gemuk Paruh baya Terlalu Gemuk Ya Tua Objek Salah Satu Contoh Data 5
Atribut? 6 Atribut merupakan properti atau karakteristik yang dimiliki oleh sebuah objek. Nama lain atribut: variabel, field, karakteristik, feature, atau observasi Setiap objek akan digambarkan melalui satu set atribut yang sudah ditentukan sebelumnya ( atribut) Contoh: Gajah memiliki karakteristik : hidung : panjang , telinga: lebar, badan : besar Objek bisa juga disebut : instance (Tidak sama dengan instance di Java Prog.Language), record, point, case, sample atau entity
Nilai Atribut 7 Nilai sebuah atribut bisa terdiri dari : Angka 1, 2.002, 081931461344 dll Simbol emas, laki-laki, kurus dll Setiap atribut bisa diberikan nilai dalam skala yang berbeda Contoh: panjang bisa diukur dengan meter atau kaki Atribut yang berbeda bisa saja memiliki skala nilai / tipe yang sama Contoh: nilai atribut untuk NIP dan umur dalam integer , namun nilai tersebut memiliki properti (detail di slide hal 9) yang berbeda NIP mungkin tak terbatas akan tetapi umur memiliki nilai maksimum dan minimum
Tipe-tipe Atribut 8 Jika dibedakan berdasarkan “levels of measurement “ ada: Nominal Contoh: Nomer KTP Nasional, NIP, Kode pos Ordinal Contoh: tinggi badan {tinggi, sedang, pendek}, grade nilai Interval Contoh: tanggal, suhu pada skala Celsius atau Fahrenheit. Ratio Contoh: suhu dalam skala Kelvin, panjang (yang terukur cm,meter dst), waktu
Properties dari Nilai Atribut 9 Tipe Atribut ditentukan oleh properti yang dimilikinya sebagai berikut: Distinctness: = Order: < > Addition: + - Multiplication: * / Atribut Nominal : distinctness Atribut Ordinal : distinctness & order Atribut Interval : distinctness, order & addition Atribut Ratio : all 4 properties
Atribut Diskrit dan Atribut Kontinu 10 Atribut Diskrit Nilai yang dimiliki terbatas atau bisa dihitung Contoh: kode pos, words in a collection of documents Biasanya berupa variabel integer Note: atribut binary merupakan atribut diskrit kasus khusus Atribut Kontinu Nilai atribut merupakan bilangan riil Contoh: suhu = 23.4 ‘ Celcius, tinggi = 172,2 cm atau berat= 3.15 kg. Atribut kontinu biasanya direpresentasikan sebagai variabel floating-point.
Tipe Dataset 11 Tipe Umum Karakteristik Umum: Record Graph Ordered Dimensionality Sparsity Resolution
Data Record 12 Data yang terdiri dari kumpulan records dengan sejumlah atribut yang fix Umur TkKegemukan Hipertensi Muda Gemuk Tidak Sangat gemuk Paruh baya Terlalu Gemuk Ya Tua
Data Matriks 13 Jika objek data memiliki atribut numerik yang sama dan tetap, maka objek data dapat digambarkan sebagai point dalam multi- dimensional space, di mana setiap dimensi merupakan atribut yang berbeda Data set tsb. Bisa digambarkan dengan matriks m X n, m = baris, satu untuk tiap objek, dan n kolom, satu untuk tiap atribut
Data Dokumen 14 Setiap dokumen menjadi vektor `term’, Tiap term menjadi atribut dari vektor Nilai setiap komponen merupakan jumlah term yang muncul dalam dokumen.
DataTransaksi 15 Tipe data record yang spesial, dimana Setiap transaksi /record terdiri dari beberapa item. Contoh: data satu struk belanja di supermarket dianggap sebagai sebuah record transaksi
Link HTML Data Graph 16 Graph umum 3 2 4 <a href=“penelitian/penelitian.html#bbbb”> Data Mining</a> <li> <a href=“penelitian/penelitian.html#aaaa”>Klasifikasi</a> <a href=“penelitian/penelitian.html#ffff”>Klastering</a> 3 4 2
Data Kimia 17 Molekul Benzena : C6H6
Data Ordered 18 Transaksi yang sekuens Items/Events Elemen dari sekuens
Data Ordered 19 Data sekuens Genom Sequence ladder by radioactive sequencing compared to fluorescent peaks Source: http://en.wikipedia.org/wiki/DNA_sequencing
Data Ordered : Data Spatio-Temporal 20 Sumber: http://www.ij-healthgeographics.com/content/7/1/66
Kualitas Data 21 Apa yang menjadi permasalahan dengan data? Bagaimana mendeteksinya? Apa yang bisa dilakukan? Contoh masalah kualitas data : Noise dan outliers missing values Data duplikat
Noise 22 Modifikasi nilai sebenarnya Contoh: distorsi suara pada pembicaraan di telpon “snow” on television screen Two Sine Waves Two Sine Waves + Noise
Outliers 23 Objek data yang berbeda karakteristik dengan objek data kebanyakan:
Missing Values 24 Contoh Missing Value: Nama Gender Umur Penghasilan Pendidikan Alamat Rudi L 45 2.500.000 SMA Buah Batu Ando 23 3.600.000 S1 Dago Kusno 50 4.100.000 Gede Bage Fadli 4 - Antapani Ayyesha P 2 Fahira 35 2.000.000 Erika 41 10.000.000 S2
Alasan Adanya Missing Value 25 Informasi tidak terkumpul dengan lengkap Misal: orang menolak menyebutkan umur dan berat badan Atribut mungkin tidak bisa diterapkan untuk semua kasus Misal: Penghasilan tidak bisa diaplikasikan untuk Bayi dan anak kecil Solusi Penangan missing values Mengeliminasi objek data Mengestimasi Missing Values Tidak memperhatikan Missing Value saat analisis Menggantikan dengan semua kemungkinan nilai (pembobotan berdasarkan probabilitasnya)
Data Duplikat 26 Data set mungkin terdapat objek data yang duplikat Penyebab ketika mengumpulkan data daro sumber yang bermacam-macam Contoh: Survey dilakukan berdasarkan alamat email padahal satu orang bisa memiliki lebih dari satu alamat email Solusi ? Data cleaning
Pertanyaan??