Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

Universitas Gunadarma

Presentasi serupa


Presentasi berjudul: "Universitas Gunadarma"— Transcript presentasi:

1 Universitas Gunadarma
KONSEP DATA MINING Disusun Oleh : Dr Lily Wulandari Universitas Gunadarma Logo Seminar

2 DATA

3 Apa Itu Data? Kumpulan objek data dan atributnya
Attributes Kumpulan objek data dan atributnya Atribut adalah properti atau karakteristik dari suatu objek Contoh: warna mata seseorang, suhu, dll. Atribut juga dikenal sebagai variabel, field, karakteristik, dimensi, atau fitur Kumpulan atribut menggambarkan objek Objek juga dikenal sebagai record, point, case, sampel, entitas, atau instance Objects

4 Pandangan Data Yang Lebih Lengkap
Data mungkin memiliki bagian Berbagai bagian data mungkin memiliki hubungan Secara umum, data mungkin memiliki struktur Data bisa tidak lengkap

5 Nilai Atribut Nilai atribut adalah angka atau simbol yang ditetapkan ke sebuah objek tertentu Perbedaan antara atribut dan nilai atribut Atribut yang sama dapat dipetakan ke nilai atribut yang berbeda Contoh: tinggi dapat diukur dalam kaki atau meter Atribut yang berbeda dapat dipetakan ke set nilai yang sama Contoh: Nilai atribut untuk ID dan usia adalah bilangan bulat Tetapi properti dari nilai atribut bisa berbeda

6 Tipe Atribut Ada berbagai jenis atribut Nominal
Contoh: nomor ID, warna mata, kode pos, NPM, JenisKelamin Urut/Ordinal Contoh: peringkat (mis., Rasa keripik kentang pada skala 1-10), nilai, tinggi [tinggi, sedang, pendek], tingkat kelulusan : [cumlaude, sangat memuaskan, memuaskan], suhu : [dingin, normal, panas]. Selang/Interval Contoh: tanggal kalender, suhu dalam Celcius atau Fahrenheit Perbandingan/Ratio Contoh: umur, tinggi, panjang, waktu

7 Properti Nilai Atribut
Jenis atribut tergantung pada properti / operasi berikut yang dimilikinya: Distinctness: =  Order: < > Differences are meaningful : Ratios are * / meaningful Nominal attribute: distinctness Ordinal attribute: distinctness & order Interval attribute: distinctness, order & meaningful differences Ratio attribute: all 4 properties/operations

8 Perbedaan Antara Ratio dan Interval
Apakah secara fisik bermakna untuk mengatakan bahwa suhu 10° dua kali suhu 5° skala Celsius? skala Fahrenheit? Skala Kelvin? Pertimbangkan mengukur ketinggian di atas rata-rata Jika tinggi Bill tiga inci di atas rata-rata dan tinggi Bob enam inci di atas rata-rata, maka dapatkah kita mengatakan bahwa Bob dua kali lebih tinggi dari Bill? Apakah situasi ini analog dengan suhu?

9 Atribut Diskrit dan Kontinue
Hanya memiliki seperangkat nilai yang terbatas atau tak terhingga jumlahnya Contoh: kode pos, jumlah, atau kumpulan kata dalam kumpulan dokumen Sering direpresentasikan sebagai variabel integer. Catatan: atribut biner adalah kasus khusus atribut diskrit Atribut Kontinu Memiliki bilangan riill untuk nilai atribut Contoh : temperatur, tinggi atau berat Nilai riil hanya dapat diukur dan diwakili dengan menggunakan jumlah digit yang terbatas Atribute Kontinu biasanya direpresentasikan sebagai variabel floating-point.

10 Tipe Himpunan Data Record Data Matrix Document Data Transaction Data
Graph World Wide Web Molecular Structures Ordered Spatial Data Temporal Data Sequential Data Genetic Sequence Data

11 Karakteristik Penting Data
Dimensi (jumlah atribut) Data dimensi tinggi membawa sejumlah tantangan Sparsity Hanya kehadiran yang diperhitungkan Resolusi   Pola tergantung pada skala Ukuran Jenis analisis mungkin tergantung pada ukuran data

12 Record Data Data yang terdiri dari kumpulan record, yang masing- masing terdiri dari himpunan atribut tetap

13 Data Matrix Jika objek data memiliki himpunan tetap atribut numerik yang sama, maka objek data dapat dianggap sebagai titik dalam ruang multi-dimensi, di mana setiap dimensi mewakili atribut yang berbeda Kumpulan data tersebut dapat diwakili oleh matriks mxn, di mana ada baris m, satu untuk setiap objek, dan n kolom, satu untuk setiap atribut

14 Data Dokumen Setiap dokumen menjadi vektor 'istilah’
Setiap istilah adalah komponen (atribut) dari vektor Nilai dari setiap komponen adalah berapa kali istilah yang sesuai terjadi dalam dokumen.

15 Data Transaksi Jenis data record khusus, di mana
Setiap record (transaksi) melibatkan serangkaian item. Misalnya, pertimbangkan toko bahan makanan. Set produk yang dibeli oleh pelanggan selama satu perjalanan belanja merupakan transaksi, sedangkan produk individu yang dibeli adalah item.

16 Data Graf Contoh: Grafik generik, molekul, dan halaman web
Benzene Molecule: C6H6

17 Ordered Data Urutan transaksi Items/Events An element of the sequence

18 Ordered Data Data urutan genom

19 Ordered Data Data Spatio-Temporal
Average Monthly Temperature of land and ocean

20 Kualitas Data Kualitas data yang buruk berdampak negatif pada banyak upaya pemrosesan data “Poin paling penting adalah kualitas data yang buruk adalah bencana yang sedang berlangsung. Kualitas data yang buruk menyebabkan setidaknya sepuluh persen (10%) biaya perusahaan ; dua puluh persen (20%) mungkin merupakan perkiraan yang lebih baik. “ Thomas C. Redman, DM Review, August 2004

21 Kualitas Data Kesalahan Pengukuran: Nilai yang dicatat berbeda dengan nilai sebenarnya (noise, bias, precission, acuracy) Kesalahan Pengumpulan: seperti hilangnya obyek data/nilai dari atribut/lingkup obyek data yang tidak tetap Duplicate Data: obyek data ganda

22 Kesalahan Pengumpulan
Outliers: obyek data yg memiliki sifat yg berbeda sekali dari kebanyakan obyek data. Missing Value: nilai pada suatu atribut yang tidak ditemukan/kosong. Bisa karena responden menolak memberikan informasi Atribut tidak bisa diterapkan ke semua kasus Diatasi dengan mengurangi obyek data,memperkirakan missing value,mengganti dengan nilai yg memungkinkan

23 Kualitas Data Contoh data mining: model klasifikasi untuk mendeteksi orang-orang yang berisiko dalam pinjaman dibangun menggunakan data yang buruk Beberapa kandidat yang layak mendapat kredit ditolak pinjamannya Lebih banyak pinjaman diberikan kepada individu yang wanprestasi

24 Kualitas Data Apa jenis masalah kualitas data?
Bagaimana bisa mendeteksi masalah dengan data? Apa yang bisa dilakukan tentang masalah ini? Contoh masalah kualitas data: Noise dan outliers Nilai yang hilang Data rangkap Data yang salah

25 Noise Two Sine Waves Two Sine Waves + Noise
Untuk objek, noise adalah yang tidak ada hubungannya dengan objek Untuk atribut, noise mengacu pada modifikasi nilai asli Contoh: distorsi suara seseorang ketika berbicara di telepon yang buruk dan “bintik-bintik" di layar televisi Two Sine Waves Two Sine Waves + Noise

26 Outliers Outliers adalah objek data dengan karakteristik yang sangat berbeda dari sebagian besar objek data lainnya dalam kumpulan data Kasus 1: Outliers adalah noise yang mengganggu analisis data Kasus 2: Outliers adalah tujuan dari analisis Penipuan kartu kredit Deteksi gangguan Penyebab?

27 Nilai Yang Hilang Alasan hilangnya nilai
Informasi tidak dikumpulkan (mis., Orang menolak memberikan usia dan berat badan mereka) Atribut mungkin tidak berlaku untuk semua kasus (mis., Pen dapatan tahunan tidak berlaku untuk anak-anak)

28 Nilai Yang Hilang Menangani nilai yang hilang
Hilangkan objek atau variabel data Perkirakan nilai yang hilang Contoh: deret waktu temperatur Contoh: hasil sensus Abaikan nilai yang hilang selama analisis

29 Nilai yang Hilang Hilang sepenuhnya secara acak (Missing completely at random / MCAR) Hilangnya nilai tidak tergantung pada atribut Isi nilai berdasarkan atribut Analisis mungkin tidak bias secara keseluruhan Missing at Random (MAR) Hilang terkait dengan variabel lain Isi nilai berdasarkan nilai-nilai lain Hampir selalu menghasilkan bias dalam analisis

30 Nilai yang Hilang Missing Not at Random (MNAR)
Kehilangan terkait dengan pengukuran yang tidak teramati Kehilangan yang informatif atau tidak dapat diabaikan Tidak mungkin mengetahui situasi dari data

31 Data Duplikat Kumpulan data dapat mencakup objek data yang merupakan duplikat, atau hampir duplikat satu sama lain Masalah utama saat menggabungkan data dari sumber yang heterogen Contoh: Orang yang sama dengan banyak alamat Pembersihan data Proses berurusan dengan masalah data duplikat Kapan data duplikat tidak dihapus?

32 Pemrosesan Data Awal Agregasi Sampling Binerisasi dan Diskretisasi
Pengurangan Dimensi Pemilihan Fitur Transformasi Variabel

33 Agregasi Penggabungan obyek ke dalam sebuah obyek tunggal
Sum,average,min,max

34 Sampling Pemilihan bagian obyek data yang akan dianalisis.
Sample harus representatif (mewakili seluruh data) Sample disebut resprentatif jika mempunyai sifat yang sama dengan seluruh data biasa diukur dengan rata- rata/mean Penggunaan sample yang baik tidak menjamin bahwa hasil pemrosesan data mining pada sample sama bagusnya dengan pemrosesan pada seluruh data asli

35 Binerisasi Transformasi data dari tipe continue,diskret menjadi tipe biner. Algoritma asosiasi membutuhkan data dengan atribut bertipe biner Jumlah atribut yg dibutuhkan utk binerisasi adalah N=log2(M), M= jml kelas kategori Contoh: {rusak,jelek,sedang,bagus,sempurna}, M=5 N=log2(5) = 3, sehingga tdp 3 atribut x1,x2,x3

36 Contoh Binerisasi

37 Diskretisasi Transformasi data dari tipe kontinu ke diskrit

38 Pengurangan Dimensi Mengurangi jumlah waktu dan memory yg dibutuhkan
Membuat data lebih mudah divisualisasi Membantu mengurangi fitur-fitur yang tdk relevan/mengurangi gangguan/derau Teknik yang digunakan Principal Component Analysis (PCA) Singular Value Decomposition(SVD)

39 Pemilihan Fitur Proses pencarian terhadap semua kemungkinan subset fitur. Menghilangkan fitur yang redundan Misal: harga_jual,pajak,discount Menghilangkan fitur-fitur yang tidak mengandung informasi yang berguna untuk pekerjaan data mining Misal: tinggi badan mhs pada pekerjaan prediksi kelulusan mhs , tidak relevan

40 Pemilihan Fitur Teknik yang digunakan: Brute-force
Pada proses data mining dilakukan dengan mencoba semua fitur. Filtering: Memilih fitur sebelum proses data mining dilakukan wrapper Menggunakan algoritma data mining untuk memilih sub-set fitur yang paling baik.

41 Transformasi Fitur Merupakan proses yang memetakan keseluruhan himpunan nilai dari fitur-fitur yang diberikan ke suatu subset nilai pengganti sedemikian sehingga nilai yang lama dapat dikenali dengan satu dari nilai-nilai yang baru tersebut. Metode dalam transformasi fitur: Standarisasi (median , standar deviasi). Normalization, dimana data sebuah atribut diskalakan ke dalam rentang (kecil) yang ditentukan (Metode: Min-max Normalization, z-score Normalization,Normalization by Decimal Scaling).

42


Download ppt "Universitas Gunadarma"

Presentasi serupa


Iklan oleh Google