Data Mining DATA SET. Set Data Ada bermacam –macam cara untuk merepresentasikan data, Misalnya, atribut yang digunakan untuk menggambarkan jenis objek.

Slides:



Advertisements
Presentasi serupa
Suatu kumpulan angka yang tersusun lebih dari satu angka.
Advertisements

Pohon Keputusan (Decision Tree)
M-4 data penelitian Beta Suryokusumo
BAHAN AJAR STATISTIKA ELEMENTER MAA 306
Statistik Non Parametrik TEMU I DIAKHIR PERTEMUAN MAHASISWA 1.MENGENAL DATA DAN JENISNYA, 2.MENGETAHUI KEGUNAAN STATISTIK NON- PARAMETRIK 3.MEMBUAT HIPOTESIS.
TINJAUAN UMUM DATA DAN STATISTIKA
? 1. Konsep Statistika STATISTIKA : Kegiatan untuk : mengumpulkan data
VARIABEL PENELITIAN PERTEMUAN 9.
9. MENENTUKAN VARIABEL A. Pengertian dan macam variabel
PENGERTIAN STATISTIK DAN DATA
Penyajian Data dalam Bentuk Tabel
Decision Tree.
STATISTIKA BISNIS Raisa Pratiwi.
Struktur Data dan Penyajian Data
Data Mining Algoritma C4.5. Penjelasan metode Kelebihan dan kekurangan.
PENGANTAR STATISTIKA MANAJEMEN
KONSEP PENGUKURAN.
STATISTIKA BISNIS BY : ERVI COFRIYANTI.
Decision Tree.
DATA DAN PENGUKURAN DALAM STATISTIKA
TINJAUAN UMUM DATA DAN STATISTIKA
10. MENENTUKAN VARIABEL A. Pengertian dan macam variabel
STUDI KASUS KLASIFIKASI Algoritma C 4.5
Fakultas Informatika – Telkom University
Nida Nusaibatul Adawiyah
Peran Utama Data Mining
Algoritma C4.5. Algoritma C4.5 Object-Oriented Programming Introduction Algoritma C4.5 merupakan algoritma yang digunakan.
Data Mining Junta Zeniarja, M.Kom, M.CS
TINJAUAN UMUM DATA DAN STATISTIKA
Decision Tree Classification.
Decision Tree Classification.
Resista Vikaliana, S.Si. MM
Klasifikasi Berdasarkan Teorema Bayes
PENGUKURAN Pengukuran :pemberian “angka” terhadap fenomena dengan mengikuti aturan tertentu Proses pengukuran : investigasi mengenai ciri-ciri yang mendasari.
Array.
Klasifikasi.
PENGANTAR STATISTIKA.
Penyajian Data dan Distribusi Frekuensi
DATA STATISTIK.
UNIVERSITAS WIRARAJA SUMENEP
10. MENENTUKAN VARIABEL A. Pengertian dan macam variabel
02 STATISTIK Pengumpulan Data Bethriza Hanum ST., MT Teknik
? 1. Konsep Statistika STATISTIKA : Kegiatan untuk : mengumpulkan data
Array.
JENIS-JENIS DATA Denny Agustiawan, M.pd
DATA.
Pengantar Statistik Juweti Charisma.
PENDAHULUAN.
Data dan Eksplorasi Data
MIK | FAKULTAS ILMU-ILMU KESEHATAN
KLASIFIKASI.
Statistik Dasar Kuliah 8.
TINJAUAN UMUM DATA DAN STATISTIKA
Anggota Dwita Eprila ( ) Mayang Hermeiliza Eka Putri ( ) Nadiah Amelia ( ) Rafif Abdusalam ( ) Shofyan.
Perancangan Sistem Klasifikasi Masa Studi Mahasiswa Menggunakan Data Mining Berbasis Algoritma ID3 (Studi Kasus:Jurusan Teknik Komputer –Unikom) Oleh:
Chapter 06 Pengukuran Variabel.
DATA PREPARATION Kompetensi
TEKNIK MENYUSUN KUISIONER
Decision Tree Pertemuan : 13.
PERTEMUAN II VARIABEL & DATA 6-Dec-18.
DATA PREPARATION.
KONSEP PENGUKURAN.
BIOSTATISTIK.
Pertemuan 10.
Manfaat dan Teknik Penyajian Data
SMK BINA INSAN Pemograman Dasar Operasi Aritmatika Dan Logika Yobi Saputra 22.
KONSEP PENGUKURAN.
Data Mining Classification.
DATA PENELITIAN.
TEKNIK MENYUSUN KUISIONER. JENIS KUISIONER Jenis kuisioner ditentukan oleh metode penelitian yang digunakan Jenis kuisioner ditentukan oleh metode penelitian.
Transcript presentasi:

Data Mining DATA SET

Set Data Ada bermacam –macam cara untuk merepresentasikan data, Misalnya, atribut yang digunakan untuk menggambarkan jenis objek ( bisa berupa kulitatif maupun kuantitatif ). Set data dapat mempunyai karakterisktik yang berbeda, misalnya ada set data yng menggunakan nilai deret waktu (times series) atau sebuah nilai angka, bahkan berupa objek dengan hubungan khusus didalamnya. Untuk itulah data mining berusaha mengakomodasi perbedaan cara tersebut agar representasi yang berbeda dapat digenarilasi dan dapat diproses dengan cara yang universal oleh data mining. Disamping cara representasi yang berbeda, kualitas set data itu sendiri juga sering menjadi hal yang perlu diperhatikan di awal sebelum proses penggalian informasi. Masalah yang sering muncu pada data mentah adalah duplikasi data, ketidakkonsistenan (redundansi) data, kelaianan, data yang salah, dst.

Set Data

Set data ( data set ) dapat dipandang sebagai kumpulan objek data. Nama lain yang sering digunakan adalah record, point, vector, pattern, event, observation, case, atau bahkan data. Sementara objek data digambarkan dengan sejumlah atribut yang menagkap (capture) karakter dasar objek data. Contohnya tinggi badan yang memberikan nilai kuantitatif tinggi badan seseorang. Atribut adalah sifat atau property atau karakteriditik objek data yang nilainya bias bermacm-macam dari satu objek ke objek yang lain, dari satu waktu ke waktu yang lain. Misalnya warna kuliat orang lain, berat badan seseorang juga bias berubah dari waktu ke waktu. Warna kuliat bias mempunyai nilai simbolik { hitam,putih,kuning,langsat, coklat,sawo matang}, sedangkan berat badan bias berupa nilai angka numeric misalnya 35,50,70,85.

Tipe Atribut

Ada empat sifat penting yang dimiliki atribut secara umum : 1.Distinctness, = dan ≠ 2.Order, dan ≥ 3.Addition, + dan – 4.Multiplication, * dan / Atribut nominal dan ordinal merupakan jenis kategories, nilai kualitatif mis : nomor kode pos,nomor KTP. Nilai tersebut sebenarnya nilai simbolik, tidak mungkin dilakukan operasi aritmatika seperti pada tipe numeric. Sedangkan atribut interval dan rasio keduanya merupakan jenis numeric, nilainya kualitatif dapat dilakukan operasi aritmatika, bias direpresentasikan dengan nilai integer atau continue. Sementara berdasarkan angka nilai, atribut dapat dibedakan menjadi dua yaitu : diskret dan continue. Sebuah atribut dapat bernilai diskret jika mempunyai nilai dan himpunan jumlah yang terbatas. Jenis ini bias ditemui pada atribut kategories yang hanya mempunyai beberapa variasi nilai, seperti suhu yang pada contoh sebelumnya hanya mempunyai tiga kemungkinan {dingin,normal,panas}. Contoh lain yang paling sederhana adalah jenis kelamin, hanya pria dan wanita. Nilai ini kadang direpresentasikan dengan bilangan biner seperti ya/tidak, benar/wanita, atau 0/1. Sedangkan atribut yang bernilai continue akan mempunyai jangkauan nilai real. Seperti variable panjang, tinggi, nilainya biasanya menggunakan representasi floating point atau real. Namn, meskipun menggunakan representasi real, ukuran presisi jumlah angka dibelakang koma tetap digunakan.

Data Rekord Kebanyakan metode data mining mengasumsikan bahwa set data yang diprses adalah kumpulan baris data (record/entries/objects), dimana setiap barisnya terdiri atas sejumlah fitur (atribut) yang tetap. Contoh data record : Nama HewanPenutup KulitKakiBertelurMelahirkanBeratKelas BurungBulu2YaTidak0.3Unggas UlarSisik0Ya 10Reptil TikusBulu4TidakYa0.8Mamalia AyamBulu2YaTidak2.3Unggas KambingRambut4TidakYa21Mamalia SapiRambut4TidakYa120Mamalia KadalSisik4YaTidak0.4Reptil KucingRambut4TidakYa1.5Mamalia BekicotCangkang0YaTidak0.2Reptil HarimauRambut4TidakYa43Mamalia BebekBulu2YaTidak1.7Unggas

IDTItem Susu,Bedak,Sabun Roti, Susu,Mentega Gula, Roti, Terigu Bedak,Gula,Sabun,roti Roti,terigu Gula,Susu,Sabun,Mentega Data TransaksiData Matriks TinggiBeratSepatuCelana Matriks Istilah Dokumen MainMenangKalahGol Tim 1 Tim 2 Tim Jika set data berisi kumpulan data dimana semua data mempunyai sejumlah atribut( fitur) numeric yang sama, seta data tersebut dapat dipandang sebagai vector ( data ) dalam wilayah multidimensi, dimana setiap dimensi (fitur ) merepresentasikan atribut yang berbeda yang menggambarkan objek/data.

Proses Data Mining

Output/Pola/Model/Knowledge 1.Decision Tree (Pohon Keputusan) 2.Korelasi dan Asosiasi 3.Rule (Aturan) IF ips3=2.8 THEN lulustepatwaktu 4.Cluster (Klaster) 5. Formula/Function (Rumus atau Fungsi Regresi) WAKTU TEMPUH = JARAK LAMPU PESANAN

Konsep Pohon Keputusan Mengubah data menjadi pohon keputusan (decision tree) dan aturan-aturan keputusan (rule) Berat overweightaverage Jenis Kelamin Tidak underweight Tidak pria wanita Ya Usia muda tua YaYa/Tidak R1: IF berat=average v berat=underweight THEN hipertensi=tidak R2: IF berat=overweight^kelamin=wanita THEN hipertensi=ya R3: IF berat=overweigt^kelamin=pria^ usia=muda THEN hipertensi=ya R4: IF berat=overweigt^kelamin=pria^ usia=tua THEN hipertensi=tidak NamaUsiaBeratKelaminHipertensi Alimudaoverweightpriaya Edimudaunderweightpriatidak Anniemudaaveragewanitatidak Budimantuaoverweightpriatidak Hermantuaoverweightpriaya Didimudaunderweightpriatidak Rinatuaoverweightwanitaya Gatottuaaveragepriatidak

Konsep Data dalam Pohon Keputusan Data dinyatakan dalam bentuk tabel dengan atribut dan record. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan tree. Misalkan untuk menentukan main tenis, kriteria yang diperhatikan adalah cuaca, angin dan temperatur. Salah satu atribut merupakan atribut yang menyatakan data solusi per-item data yang disebut dengan target atribut. Atribut memiliki nilai-nilai yang dinamakan dengan instance. Misalkan atribut cuaca mempunyai instance berupa cerah, berawan dan hujan.

NamaCuacaAnginTemperaturMain Kevincerahkeraspanastidak Yusufcerahlambatpanasya Indraberawankerassedangtidak Rudihujankerasdingintidak Stevencerahlambatdinginya attribut Target atribut Sample

Proses dalam Pohon Keputusan

Entropy(S) adalah jumlah bit yang diperkirakan dibutuhkan untuk dapat mengekstrak suatu kelas (+ atau -) dari sejumlah data acak pada ruang sample S. Entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas. Semakin kecil nilai Entropy maka semakin baik untuk digunakan dalam mengekstraksi suatu kelas. Panjang kode untuk menyatakan informasi secara optimal adalah –log 2 p bits untuk messages yang mempunyai probabilitas p. Sehingga jumlah bit yang diperkirakan untuk mengekstraksi S ke dalam kelas adalah: -p + log 2 p + - p log 2 p

3. Kemudian hitung nilai gain dengan rumus Keterangan : S = himpunan kasus A = fitur n = Jumlah partisi atribut A |S i | = proporsi S i terhadap S |S| = jumlah kasus dalam S 4. Ulangi langkah ke-2 sehingga semua record terpartisi. 5. Proses partisi pohon keputusan akan berhenti saat : a.Semua record dalam simpul Nmendapat kelas yang sama b.Tidak ada didalam record yang dipartisi lagi. c.Tidak Ada Record Di Dalam Cabang Yang Kosong.

PelangganSimpananAsetPendapatanResiko Kredit Medium Low High Medium Low High Low Medium High Low Medium High Low Medium Good Bad Good Bad Good Tabel Data untuk Klasifikasi Resiko Kredit Data training pada table diatas adalah untuk menentukan apakah seorang nasabah bermas alah atau tidak, ditentukan oleh kolom predictor saving, asset dan pendapatan. Kolom resiko kredit adalah kelas dari masing-masing record.

3. Hitung nilai gain untuk setiap atribut, lalu tentukan nilai gaintertinggi. Yang mempunyai nilai ga in tertinngi itulah yang akan menjadi akar dari pohon. Misalkan untuk atribut saving dengan nil ai low didapat nilai gain : Gain (S,A) = – (2/8(1) + 3/8(0) + 3/8(0.9183) = LATIHAN : Lanjutkan untuk mencari nilai entropy dan nilai gain dari masing-masing data diatas.

Darsono Nababan THANK YOU