Universitas Gunadarma KONSEP DATA MINING Disusun Oleh : Dr Lily Wulandari Universitas Gunadarma Logo Seminar
DATA
Apa Itu Data? Kumpulan objek data dan atributnya Attributes Kumpulan objek data dan atributnya Atribut adalah properti atau karakteristik dari suatu objek Contoh: warna mata seseorang, suhu, dll. Atribut juga dikenal sebagai variabel, field, karakteristik, dimensi, atau fitur Kumpulan atribut menggambarkan objek Objek juga dikenal sebagai record, point, case, sampel, entitas, atau instance Objects
Pandangan Data Yang Lebih Lengkap Data mungkin memiliki bagian Berbagai bagian data mungkin memiliki hubungan Secara umum, data mungkin memiliki struktur Data bisa tidak lengkap
Nilai Atribut Nilai atribut adalah angka atau simbol yang ditetapkan ke sebuah objek tertentu Perbedaan antara atribut dan nilai atribut Atribut yang sama dapat dipetakan ke nilai atribut yang berbeda Contoh: tinggi dapat diukur dalam kaki atau meter Atribut yang berbeda dapat dipetakan ke set nilai yang sama Contoh: Nilai atribut untuk ID dan usia adalah bilangan bulat Tetapi properti dari nilai atribut bisa berbeda
Tipe Atribut Ada berbagai jenis atribut Nominal Contoh: nomor ID, warna mata, kode pos, NPM, JenisKelamin Urut/Ordinal Contoh: peringkat (mis., Rasa keripik kentang pada skala 1-10), nilai, tinggi [tinggi, sedang, pendek], tingkat kelulusan : [cumlaude, sangat memuaskan, memuaskan], suhu : [dingin, normal, panas]. Selang/Interval Contoh: tanggal kalender, suhu dalam Celcius atau Fahrenheit Perbandingan/Ratio Contoh: umur, tinggi, panjang, waktu
Properti Nilai Atribut Jenis atribut tergantung pada properti / operasi berikut yang dimilikinya: Distinctness: = Order: < > Differences are + - meaningful : Ratios are * / meaningful Nominal attribute: distinctness Ordinal attribute: distinctness & order Interval attribute: distinctness, order & meaningful differences Ratio attribute: all 4 properties/operations
Perbedaan Antara Ratio dan Interval Apakah secara fisik bermakna untuk mengatakan bahwa suhu 10° dua kali suhu 5° skala Celsius? skala Fahrenheit? Skala Kelvin? Pertimbangkan mengukur ketinggian di atas rata-rata Jika tinggi Bill tiga inci di atas rata-rata dan tinggi Bob enam inci di atas rata-rata, maka dapatkah kita mengatakan bahwa Bob dua kali lebih tinggi dari Bill? Apakah situasi ini analog dengan suhu?
Atribut Diskrit dan Kontinue Hanya memiliki seperangkat nilai yang terbatas atau tak terhingga jumlahnya Contoh: kode pos, jumlah, atau kumpulan kata dalam kumpulan dokumen Sering direpresentasikan sebagai variabel integer. Catatan: atribut biner adalah kasus khusus atribut diskrit Atribut Kontinu Memiliki bilangan riill untuk nilai atribut Contoh : temperatur, tinggi atau berat Nilai riil hanya dapat diukur dan diwakili dengan menggunakan jumlah digit yang terbatas Atribute Kontinu biasanya direpresentasikan sebagai variabel floating-point.
Tipe Himpunan Data Record Data Matrix Document Data Transaction Data Graph World Wide Web Molecular Structures Ordered Spatial Data Temporal Data Sequential Data Genetic Sequence Data
Karakteristik Penting Data Dimensi (jumlah atribut) Data dimensi tinggi membawa sejumlah tantangan Sparsity Hanya kehadiran yang diperhitungkan Resolusi Pola tergantung pada skala Ukuran Jenis analisis mungkin tergantung pada ukuran data
Record Data Data yang terdiri dari kumpulan record, yang masing- masing terdiri dari himpunan atribut tetap
Data Matrix Jika objek data memiliki himpunan tetap atribut numerik yang sama, maka objek data dapat dianggap sebagai titik dalam ruang multi-dimensi, di mana setiap dimensi mewakili atribut yang berbeda Kumpulan data tersebut dapat diwakili oleh matriks mxn, di mana ada baris m, satu untuk setiap objek, dan n kolom, satu untuk setiap atribut
Data Dokumen Setiap dokumen menjadi vektor 'istilah’ Setiap istilah adalah komponen (atribut) dari vektor Nilai dari setiap komponen adalah berapa kali istilah yang sesuai terjadi dalam dokumen.
Data Transaksi Jenis data record khusus, di mana Setiap record (transaksi) melibatkan serangkaian item. Misalnya, pertimbangkan toko bahan makanan. Set produk yang dibeli oleh pelanggan selama satu perjalanan belanja merupakan transaksi, sedangkan produk individu yang dibeli adalah item.
Data Graf Contoh: Grafik generik, molekul, dan halaman web Benzene Molecule: C6H6
Ordered Data Urutan transaksi Items/Events An element of the sequence
Ordered Data Data urutan genom
Ordered Data Data Spatio-Temporal Average Monthly Temperature of land and ocean
Kualitas Data Kualitas data yang buruk berdampak negatif pada banyak upaya pemrosesan data “Poin paling penting adalah kualitas data yang buruk adalah bencana yang sedang berlangsung. Kualitas data yang buruk menyebabkan setidaknya sepuluh persen (10%) biaya perusahaan ; dua puluh persen (20%) mungkin merupakan perkiraan yang lebih baik. “ Thomas C. Redman, DM Review, August 2004
Kualitas Data Kesalahan Pengukuran: Nilai yang dicatat berbeda dengan nilai sebenarnya (noise, bias, precission, acuracy) Kesalahan Pengumpulan: seperti hilangnya obyek data/nilai dari atribut/lingkup obyek data yang tidak tetap Duplicate Data: obyek data ganda
Kesalahan Pengumpulan Outliers: obyek data yg memiliki sifat yg berbeda sekali dari kebanyakan obyek data. Missing Value: nilai pada suatu atribut yang tidak ditemukan/kosong. Bisa karena responden menolak memberikan informasi Atribut tidak bisa diterapkan ke semua kasus Diatasi dengan mengurangi obyek data,memperkirakan missing value,mengganti dengan nilai yg memungkinkan
Kualitas Data Contoh data mining: model klasifikasi untuk mendeteksi orang-orang yang berisiko dalam pinjaman dibangun menggunakan data yang buruk Beberapa kandidat yang layak mendapat kredit ditolak pinjamannya Lebih banyak pinjaman diberikan kepada individu yang wanprestasi
Kualitas Data Apa jenis masalah kualitas data? Bagaimana bisa mendeteksi masalah dengan data? Apa yang bisa dilakukan tentang masalah ini? Contoh masalah kualitas data: Noise dan outliers Nilai yang hilang Data rangkap Data yang salah
Noise Two Sine Waves Two Sine Waves + Noise Untuk objek, noise adalah yang tidak ada hubungannya dengan objek Untuk atribut, noise mengacu pada modifikasi nilai asli Contoh: distorsi suara seseorang ketika berbicara di telepon yang buruk dan “bintik-bintik" di layar televisi Two Sine Waves Two Sine Waves + Noise
Outliers Outliers adalah objek data dengan karakteristik yang sangat berbeda dari sebagian besar objek data lainnya dalam kumpulan data Kasus 1: Outliers adalah noise yang mengganggu analisis data Kasus 2: Outliers adalah tujuan dari analisis Penipuan kartu kredit Deteksi gangguan Penyebab?
Nilai Yang Hilang Alasan hilangnya nilai Informasi tidak dikumpulkan (mis., Orang menolak memberikan usia dan berat badan mereka) Atribut mungkin tidak berlaku untuk semua kasus (mis., Pen dapatan tahunan tidak berlaku untuk anak-anak)
Nilai Yang Hilang Menangani nilai yang hilang Hilangkan objek atau variabel data Perkirakan nilai yang hilang Contoh: deret waktu temperatur Contoh: hasil sensus Abaikan nilai yang hilang selama analisis
Nilai yang Hilang Hilang sepenuhnya secara acak (Missing completely at random / MCAR) Hilangnya nilai tidak tergantung pada atribut Isi nilai berdasarkan atribut Analisis mungkin tidak bias secara keseluruhan Missing at Random (MAR) Hilang terkait dengan variabel lain Isi nilai berdasarkan nilai-nilai lain Hampir selalu menghasilkan bias dalam analisis
Nilai yang Hilang Missing Not at Random (MNAR) Kehilangan terkait dengan pengukuran yang tidak teramati Kehilangan yang informatif atau tidak dapat diabaikan Tidak mungkin mengetahui situasi dari data
Data Duplikat Kumpulan data dapat mencakup objek data yang merupakan duplikat, atau hampir duplikat satu sama lain Masalah utama saat menggabungkan data dari sumber yang heterogen Contoh: Orang yang sama dengan banyak alamat email Pembersihan data Proses berurusan dengan masalah data duplikat Kapan data duplikat tidak dihapus?
Pemrosesan Data Awal Agregasi Sampling Binerisasi dan Diskretisasi Pengurangan Dimensi Pemilihan Fitur Transformasi Variabel
Agregasi Penggabungan obyek ke dalam sebuah obyek tunggal Sum,average,min,max
Sampling Pemilihan bagian obyek data yang akan dianalisis. Sample harus representatif (mewakili seluruh data) Sample disebut resprentatif jika mempunyai sifat yang sama dengan seluruh data biasa diukur dengan rata- rata/mean Penggunaan sample yang baik tidak menjamin bahwa hasil pemrosesan data mining pada sample sama bagusnya dengan pemrosesan pada seluruh data asli
Binerisasi Transformasi data dari tipe continue,diskret menjadi tipe biner. Algoritma asosiasi membutuhkan data dengan atribut bertipe biner Jumlah atribut yg dibutuhkan utk binerisasi adalah N=log2(M), M= jml kelas kategori Contoh: {rusak,jelek,sedang,bagus,sempurna}, M=5 N=log2(5) = 3, sehingga tdp 3 atribut x1,x2,x3
Contoh Binerisasi
Diskretisasi Transformasi data dari tipe kontinu ke diskrit
Pengurangan Dimensi Mengurangi jumlah waktu dan memory yg dibutuhkan Membuat data lebih mudah divisualisasi Membantu mengurangi fitur-fitur yang tdk relevan/mengurangi gangguan/derau Teknik yang digunakan Principal Component Analysis (PCA) Singular Value Decomposition(SVD)
Pemilihan Fitur Proses pencarian terhadap semua kemungkinan subset fitur. Menghilangkan fitur yang redundan Misal: harga_jual,pajak,discount Menghilangkan fitur-fitur yang tidak mengandung informasi yang berguna untuk pekerjaan data mining Misal: tinggi badan mhs pada pekerjaan prediksi kelulusan mhs , tidak relevan
Pemilihan Fitur Teknik yang digunakan: Brute-force Pada proses data mining dilakukan dengan mencoba semua fitur. Filtering: Memilih fitur sebelum proses data mining dilakukan wrapper Menggunakan algoritma data mining untuk memilih sub-set fitur yang paling baik.
Transformasi Fitur Merupakan proses yang memetakan keseluruhan himpunan nilai dari fitur-fitur yang diberikan ke suatu subset nilai pengganti sedemikian sehingga nilai yang lama dapat dikenali dengan satu dari nilai-nilai yang baru tersebut. Metode dalam transformasi fitur: Standarisasi (median , standar deviasi). Normalization, dimana data sebuah atribut diskalakan ke dalam rentang (kecil) yang ditentukan (Metode: Min-max Normalization, z-score Normalization,Normalization by Decimal Scaling).