Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

Data Mining DATA SET. Set Data Ada bermacam –macam cara untuk merepresentasikan data, Misalnya, atribut yang digunakan untuk menggambarkan jenis objek.

Presentasi serupa


Presentasi berjudul: "Data Mining DATA SET. Set Data Ada bermacam –macam cara untuk merepresentasikan data, Misalnya, atribut yang digunakan untuk menggambarkan jenis objek."— Transcript presentasi:

1 Data Mining DATA SET

2 Set Data Ada bermacam –macam cara untuk merepresentasikan data, Misalnya, atribut yang digunakan untuk menggambarkan jenis objek ( bisa berupa kulitatif maupun kuantitatif ). Set data dapat mempunyai karakterisktik yang berbeda, misalnya ada set data yng menggunakan nilai deret waktu (times series) atau sebuah nilai angka, bahkan berupa objek dengan hubungan khusus didalamnya. Untuk itulah data mining berusaha mengakomodasi perbedaan cara tersebut agar representasi yang berbeda dapat digenarilasi dan dapat diproses dengan cara yang universal oleh data mining. Disamping cara representasi yang berbeda, kualitas set data itu sendiri juga sering menjadi hal yang perlu diperhatikan di awal sebelum proses penggalian informasi. Masalah yang sering muncu pada data mentah adalah duplikasi data, ketidakkonsistenan (redundansi) data, kelaianan, data yang salah, dst.

3 Set Data

4

5 Set data ( data set ) dapat dipandang sebagai kumpulan objek data. Nama lain yang sering digunakan adalah record, point, vector, pattern, event, observation, case, atau bahkan data. Sementara objek data digambarkan dengan sejumlah atribut yang menagkap (capture) karakter dasar objek data. Contohnya tinggi badan yang memberikan nilai kuantitatif tinggi badan seseorang. Atribut adalah sifat atau property atau karakteriditik objek data yang nilainya bias bermacm-macam dari satu objek ke objek yang lain, dari satu waktu ke waktu yang lain. Misalnya warna kuliat orang lain, berat badan seseorang juga bias berubah dari waktu ke waktu. Warna kuliat bias mempunyai nilai simbolik { hitam,putih,kuning,langsat, coklat,sawo matang}, sedangkan berat badan bias berupa nilai angka numeric misalnya 35,50,70,85.

6 Tipe Atribut

7 Ada empat sifat penting yang dimiliki atribut secara umum : 1.Distinctness, = dan ≠ 2.Order, dan ≥ 3.Addition, + dan – 4.Multiplication, * dan / Atribut nominal dan ordinal merupakan jenis kategories, nilai kualitatif mis : nomor kode pos,nomor KTP. Nilai tersebut sebenarnya nilai simbolik, tidak mungkin dilakukan operasi aritmatika seperti pada tipe numeric. Sedangkan atribut interval dan rasio keduanya merupakan jenis numeric, nilainya kualitatif dapat dilakukan operasi aritmatika, bias direpresentasikan dengan nilai integer atau continue. Sementara berdasarkan angka nilai, atribut dapat dibedakan menjadi dua yaitu : diskret dan continue. Sebuah atribut dapat bernilai diskret jika mempunyai nilai dan himpunan jumlah yang terbatas. Jenis ini bias ditemui pada atribut kategories yang hanya mempunyai beberapa variasi nilai, seperti suhu yang pada contoh sebelumnya hanya mempunyai tiga kemungkinan {dingin,normal,panas}. Contoh lain yang paling sederhana adalah jenis kelamin, hanya pria dan wanita. Nilai ini kadang direpresentasikan dengan bilangan biner seperti ya/tidak, benar/wanita, atau 0/1. Sedangkan atribut yang bernilai continue akan mempunyai jangkauan nilai real. Seperti variable panjang, tinggi, nilainya biasanya menggunakan representasi floating point atau real. Namn, meskipun menggunakan representasi real, ukuran presisi jumlah angka dibelakang koma tetap digunakan.

8 Data Rekord Kebanyakan metode data mining mengasumsikan bahwa set data yang diprses adalah kumpulan baris data (record/entries/objects), dimana setiap barisnya terdiri atas sejumlah fitur (atribut) yang tetap. Contoh data record : Nama HewanPenutup KulitKakiBertelurMelahirkanBeratKelas BurungBulu2YaTidak0.3Unggas UlarSisik0Ya 10Reptil TikusBulu4TidakYa0.8Mamalia AyamBulu2YaTidak2.3Unggas KambingRambut4TidakYa21Mamalia SapiRambut4TidakYa120Mamalia KadalSisik4YaTidak0.4Reptil KucingRambut4TidakYa1.5Mamalia BekicotCangkang0YaTidak0.2Reptil HarimauRambut4TidakYa43Mamalia BebekBulu2YaTidak1.7Unggas

9 IDTItem 123456123456 Susu,Bedak,Sabun Roti, Susu,Mentega Gula, Roti, Terigu Bedak,Gula,Sabun,roti Roti,terigu Gula,Susu,Sabun,Mentega Data TransaksiData Matriks TinggiBeratSepatuCelana 168 175 170 165 171 169 60 85 77 55 66 70 38 42 39 38 41 40 30 35 39 28 27 29 Matriks Istilah Dokumen MainMenangKalahGol Tim 1 Tim 2 Tim 3 12 15 8 12 13 0 028028 10 12 1 Jika set data berisi kumpulan data dimana semua data mempunyai sejumlah atribut( fitur) numeric yang sama, seta data tersebut dapat dipandang sebagai vector ( data ) dalam wilayah multidimensi, dimana setiap dimensi (fitur ) merepresentasikan atribut yang berbeda yang menggambarkan objek/data.

10 Proses Data Mining

11 Output/Pola/Model/Knowledge 1.Decision Tree (Pohon Keputusan) 2.Korelasi dan Asosiasi 3.Rule (Aturan) IF ips3=2.8 THEN lulustepatwaktu 4.Cluster (Klaster) 5. Formula/Function (Rumus atau Fungsi Regresi) WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN

12 Konsep Pohon Keputusan Mengubah data menjadi pohon keputusan (decision tree) dan aturan-aturan keputusan (rule) Berat overweightaverage Jenis Kelamin Tidak underweight Tidak pria wanita Ya Usia muda tua YaYa/Tidak R1: IF berat=average v berat=underweight THEN hipertensi=tidak R2: IF berat=overweight^kelamin=wanita THEN hipertensi=ya R3: IF berat=overweigt^kelamin=pria^ usia=muda THEN hipertensi=ya R4: IF berat=overweigt^kelamin=pria^ usia=tua THEN hipertensi=tidak NamaUsiaBeratKelaminHipertensi Alimudaoverweightpriaya Edimudaunderweightpriatidak Anniemudaaveragewanitatidak Budimantuaoverweightpriatidak Hermantuaoverweightpriaya Didimudaunderweightpriatidak Rinatuaoverweightwanitaya Gatottuaaveragepriatidak

13 Konsep Data dalam Pohon Keputusan Data dinyatakan dalam bentuk tabel dengan atribut dan record. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan tree. Misalkan untuk menentukan main tenis, kriteria yang diperhatikan adalah cuaca, angin dan temperatur. Salah satu atribut merupakan atribut yang menyatakan data solusi per-item data yang disebut dengan target atribut. Atribut memiliki nilai-nilai yang dinamakan dengan instance. Misalkan atribut cuaca mempunyai instance berupa cerah, berawan dan hujan.

14 NamaCuacaAnginTemperaturMain Kevincerahkeraspanastidak Yusufcerahlambatpanasya Indraberawankerassedangtidak Rudihujankerasdingintidak Stevencerahlambatdinginya attribut Target atribut Sample

15 Proses dalam Pohon Keputusan

16 Entropy(S) adalah jumlah bit yang diperkirakan dibutuhkan untuk dapat mengekstrak suatu kelas (+ atau -) dari sejumlah data acak pada ruang sample S. Entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas. Semakin kecil nilai Entropy maka semakin baik untuk digunakan dalam mengekstraksi suatu kelas. Panjang kode untuk menyatakan informasi secara optimal adalah –log 2 p bits untuk messages yang mempunyai probabilitas p. Sehingga jumlah bit yang diperkirakan untuk mengekstraksi S ke dalam kelas adalah: -p + log 2 p + - p log 2 p

17 3. Kemudian hitung nilai gain dengan rumus Keterangan : S = himpunan kasus A = fitur n = Jumlah partisi atribut A |S i | = proporsi S i terhadap S |S| = jumlah kasus dalam S 4. Ulangi langkah ke-2 sehingga semua record terpartisi. 5. Proses partisi pohon keputusan akan berhenti saat : a.Semua record dalam simpul Nmendapat kelas yang sama b.Tidak ada didalam record yang dipartisi lagi. c.Tidak Ada Record Di Dalam Cabang Yang Kosong.

18 PelangganSimpananAsetPendapatanResiko Kredit 1234567812345678 Medium Low High Medium Low High Low Medium High Low Medium High Low Medium 75 50 25 50 100 25 75 Good Bad Good Bad Good Tabel Data untuk Klasifikasi Resiko Kredit Data training pada table diatas adalah untuk menentukan apakah seorang nasabah bermas alah atau tidak, ditentukan oleh kolom predictor saving, asset dan pendapatan. Kolom resiko kredit adalah kelas dari masing-masing record.

19

20 3. Hitung nilai gain untuk setiap atribut, lalu tentukan nilai gaintertinggi. Yang mempunyai nilai ga in tertinngi itulah yang akan menjadi akar dari pohon. Misalkan untuk atribut saving dengan nil ai low didapat nilai gain : Gain (S,A) = 0.9544 – (2/8(1) + 3/8(0) + 3/8(0.9183) = 0.3601 LATIHAN : Lanjutkan untuk mencari nilai entropy dan nilai gain dari masing-masing data diatas.

21 Darsono Nababan THANK YOU


Download ppt "Data Mining DATA SET. Set Data Ada bermacam –macam cara untuk merepresentasikan data, Misalnya, atribut yang digunakan untuk menggambarkan jenis objek."

Presentasi serupa


Iklan oleh Google