Universitas Gunadarma

Slides:

Advertisements

Presentasi serupa

Sumber: Pedoman Penulisan Ilmiah Proposal dan Skripsi

Advertisements

TINJAUAN UMUM DATA DAN STATISTIKA

BAHAN AJAR STATISTIKA ELEMENTER MAA 306

SEKILAS STATISTIKA 1. Menjelaskan konsep dasar data & pembagiannya 2

Pertemuan Ke – 1 BAB I PENDAHULUAN.

TINJAUAN UMUM DATA DAN STATISTIKA

Pengukuran dan Skala.

TINJAUAN UMUM DATA DAN STATISTIKA

Tugas Pengendalian Mutu

STATISTIKA Srikandi Kumadji.

PENARIKAN SAMPEL & PENDUGAAN PARAMETER

PENGERTIAN STATISTIK DAN DATA

METODE PENELITIAN KUANTITATIF

Tim Dosen Data Mining Fakultas Informatika

PENGANTAR STATISTIKA MANAJEMEN

II. PENGUMPULAN, PENGOLAHAN, PENYAJIAN, ANALISIS DAN PENYIMPULAN DATA

ANALISIS OUTLIER 1 Data Mining.

2. Data & Proses Datamining

PENGERTIAN STATISTIK DAN STATISTIKA

KONSEP DASAR STATISTIK & DATA Oleh: Roni Saputra, M.Si

Pengukuran, Skala, Sumber Sekunder

MANAJEMEN DATA NURUL AINI

Pendahuluan Tujuan yang umum dan penting: mempelajari suatu kelompok besar (populasi) dengan cara melakukan pengujian data dari beberapa anggota kelompok.

TINJAUAN UMUM DATA DAN STATISTIKA

DISTRIBUSI PROBABILITAS

Fakultas Informatika – Telkom University

Preparing the Data.

STATISTIKA Srikandi Kumadji.

SRI SULASMIYATI, S.Sos, M.AP

Entity Relationship Model

TINJAUAN UMUM DATA DAN STATISTIKA

LITERATUR Prinsip-prinsip Statistik untuk Teknik dan Sains, Harinaldi, penerbit Erlangga, 2005 Pengantar Statistik Ekonomi dan Perusahaan, edisi revisi.

Arum Handini Primandari, M.Sc.

Pengertian Statistika

Entity Relationship Model

PENDAHULUAN OLEH: MOH. AMIN.

TINJAUAN UMUM STATISTIKA

Intan Silviana Mustikawati, SKM, MPH

Penyajian Data dan Distribusi Frekuensi

DATA STATISTIK.

PENGERTIAN STATISTIK DAN DATA

Statistik Quality Control 1- Pendahuluan

Oleh : Binti Asrofin Akbid Wimisada 2012

? 1. Konsep Statistika STATISTIKA : Kegiatan untuk : mengumpulkan data

Drs. Indratmo Yudono, MSi

Statistik Bisnis 1- Pendahuluan

MODEL KETERHUBUNGAN ENTITAS (Entity-Relationship)

Pengantar Statistik Juweti Charisma.

PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN

DATA STATISTIKA Statistika aderismanto01.wordpress.com.

EKSPLORASI DATA & DATA WAREHOUSE PERTEMUAN - 2 NOVIANDI

PENDAHULUAN KELOMPOK I: Norjanah Ervi Febrianti Eka Wahyu Syahdawaty

Data dan Eksplorasi Data

Data Mining DATA SET. Set Data Ada bermacam –macam cara untuk merepresentasikan data, Misalnya, atribut yang digunakan untuk menggambarkan jenis objek.

Pertemuan ke-1 Matakuliah Statistika Akuntansi UII

FIKES – MANAJEMEN INFORMASI KESEHATAN

STATISTIKA Srikandi Kumadji.

DATA STRUCTURE DAN DATA TYPES PERTEMUAN 8 NOVIANDI

TINJAUAN UMUM DATA DAN STATISTIKA

Data PreProcessing (Praproses Data)

PERTEMUAN II VARIABEL & DATA 6-Dec-18.

STATISTIKA DAN PROBABILITAS Rahmat Thaib, S.Kom.,M.Kom.

Pengenalan Data, Variabel, Sampling, Hipotesis dan Program SPSS

PENGERTIAN DISTRIBUSI TEORITIS

DISTRIBUSI SAMPLING Jaka Wijaya Kusuma M.Pd.

Transcript presentasi:

Universitas Gunadarma KONSEP DATA MINING Disusun Oleh : Dr Lily Wulandari Universitas Gunadarma Logo Seminar

DATA

Apa Itu Data? Kumpulan objek data dan atributnya Attributes Kumpulan objek data dan atributnya Atribut adalah properti atau karakteristik dari suatu objek Contoh: warna mata seseorang, suhu, dll. Atribut juga dikenal sebagai variabel, field, karakteristik, dimensi, atau fitur Kumpulan atribut menggambarkan objek Objek juga dikenal sebagai record, point, case, sampel, entitas, atau instance Objects

Pandangan Data Yang Lebih Lengkap Data mungkin memiliki bagian Berbagai bagian data mungkin memiliki hubungan Secara umum, data mungkin memiliki struktur Data bisa tidak lengkap

Nilai Atribut Nilai atribut adalah angka atau simbol yang ditetapkan ke sebuah objek tertentu Perbedaan antara atribut dan nilai atribut Atribut yang sama dapat dipetakan ke nilai atribut yang berbeda Contoh: tinggi dapat diukur dalam kaki atau meter Atribut yang berbeda dapat dipetakan ke set nilai yang sama Contoh: Nilai atribut untuk ID dan usia adalah bilangan bulat Tetapi properti dari nilai atribut bisa berbeda

Tipe Atribut Ada berbagai jenis atribut Nominal Contoh: nomor ID, warna mata, kode pos, NPM, JenisKelamin Urut/Ordinal Contoh: peringkat (mis., Rasa keripik kentang pada skala 1-10), nilai, tinggi [tinggi, sedang, pendek], tingkat kelulusan : [cumlaude, sangat memuaskan, memuaskan], suhu : [dingin, normal, panas]. Selang/Interval Contoh: tanggal kalender, suhu dalam Celcius atau Fahrenheit Perbandingan/Ratio Contoh: umur, tinggi, panjang, waktu

Properti Nilai Atribut Jenis atribut tergantung pada properti / operasi berikut yang dimilikinya: Distinctness: =  Order: < > Differences are + - meaningful : Ratios are * / meaningful Nominal attribute: distinctness Ordinal attribute: distinctness & order Interval attribute: distinctness, order & meaningful differences Ratio attribute: all 4 properties/operations

Perbedaan Antara Ratio dan Interval Apakah secara fisik bermakna untuk mengatakan bahwa suhu 10° dua kali suhu 5° skala Celsius? skala Fahrenheit? Skala Kelvin? Pertimbangkan mengukur ketinggian di atas rata-rata Jika tinggi Bill tiga inci di atas rata-rata dan tinggi Bob enam inci di atas rata-rata, maka dapatkah kita mengatakan bahwa Bob dua kali lebih tinggi dari Bill? Apakah situasi ini analog dengan suhu?

Atribut Diskrit dan Kontinue Hanya memiliki seperangkat nilai yang terbatas atau tak terhingga jumlahnya Contoh: kode pos, jumlah, atau kumpulan kata dalam kumpulan dokumen Sering direpresentasikan sebagai variabel integer. Catatan: atribut biner adalah kasus khusus atribut diskrit Atribut Kontinu Memiliki bilangan riill untuk nilai atribut Contoh : temperatur, tinggi atau berat Nilai riil hanya dapat diukur dan diwakili dengan menggunakan jumlah digit yang terbatas Atribute Kontinu biasanya direpresentasikan sebagai variabel floating-point.

Tipe Himpunan Data Record Data Matrix Document Data Transaction Data Graph World Wide Web Molecular Structures Ordered Spatial Data Temporal Data Sequential Data Genetic Sequence Data

Karakteristik Penting Data Dimensi (jumlah atribut) Data dimensi tinggi membawa sejumlah tantangan Sparsity Hanya kehadiran yang diperhitungkan Resolusi Pola tergantung pada skala Ukuran Jenis analisis mungkin tergantung pada ukuran data

Record Data Data yang terdiri dari kumpulan record, yang masing- masing terdiri dari himpunan atribut tetap

Data Matrix Jika objek data memiliki himpunan tetap atribut numerik yang sama, maka objek data dapat dianggap sebagai titik dalam ruang multi-dimensi, di mana setiap dimensi mewakili atribut yang berbeda Kumpulan data tersebut dapat diwakili oleh matriks mxn, di mana ada baris m, satu untuk setiap objek, dan n kolom, satu untuk setiap atribut

Data Dokumen Setiap dokumen menjadi vektor 'istilah’ Setiap istilah adalah komponen (atribut) dari vektor Nilai dari setiap komponen adalah berapa kali istilah yang sesuai terjadi dalam dokumen.

Data Transaksi Jenis data record khusus, di mana Setiap record (transaksi) melibatkan serangkaian item. Misalnya, pertimbangkan toko bahan makanan. Set produk yang dibeli oleh pelanggan selama satu perjalanan belanja merupakan transaksi, sedangkan produk individu yang dibeli adalah item.

Data Graf Contoh: Grafik generik, molekul, dan halaman web Benzene Molecule: C6H6

Ordered Data Urutan transaksi Items/Events An element of the sequence

Ordered Data Data urutan genom

Ordered Data Data Spatio-Temporal Average Monthly Temperature of land and ocean

Kualitas Data Kualitas data yang buruk berdampak negatif pada banyak upaya pemrosesan data “Poin paling penting adalah kualitas data yang buruk adalah bencana yang sedang berlangsung. Kualitas data yang buruk menyebabkan setidaknya sepuluh persen (10%) biaya perusahaan ; dua puluh persen (20%) mungkin merupakan perkiraan yang lebih baik. “ Thomas C. Redman, DM Review, August 2004

Kualitas Data Kesalahan Pengukuran: Nilai yang dicatat berbeda dengan nilai sebenarnya (noise, bias, precission, acuracy) Kesalahan Pengumpulan: seperti hilangnya obyek data/nilai dari atribut/lingkup obyek data yang tidak tetap Duplicate Data: obyek data ganda

Kesalahan Pengumpulan Outliers: obyek data yg memiliki sifat yg berbeda sekali dari kebanyakan obyek data. Missing Value: nilai pada suatu atribut yang tidak ditemukan/kosong. Bisa karena responden menolak memberikan informasi Atribut tidak bisa diterapkan ke semua kasus Diatasi dengan mengurangi obyek data,memperkirakan missing value,mengganti dengan nilai yg memungkinkan

Kualitas Data Contoh data mining: model klasifikasi untuk mendeteksi orang-orang yang berisiko dalam pinjaman dibangun menggunakan data yang buruk Beberapa kandidat yang layak mendapat kredit ditolak pinjamannya Lebih banyak pinjaman diberikan kepada individu yang wanprestasi

Kualitas Data Apa jenis masalah kualitas data? Bagaimana bisa mendeteksi masalah dengan data? Apa yang bisa dilakukan tentang masalah ini? Contoh masalah kualitas data: Noise dan outliers Nilai yang hilang Data rangkap Data yang salah

Noise Two Sine Waves Two Sine Waves + Noise Untuk objek, noise adalah yang tidak ada hubungannya dengan objek Untuk atribut, noise mengacu pada modifikasi nilai asli Contoh: distorsi suara seseorang ketika berbicara di telepon yang buruk dan “bintik-bintik" di layar televisi Two Sine Waves Two Sine Waves + Noise

Outliers Outliers adalah objek data dengan karakteristik yang sangat berbeda dari sebagian besar objek data lainnya dalam kumpulan data Kasus 1: Outliers adalah noise yang mengganggu analisis data Kasus 2: Outliers adalah tujuan dari analisis Penipuan kartu kredit Deteksi gangguan Penyebab?

Nilai Yang Hilang Alasan hilangnya nilai Informasi tidak dikumpulkan (mis., Orang menolak memberikan usia dan berat badan mereka) Atribut mungkin tidak berlaku untuk semua kasus (mis., Pen dapatan tahunan tidak berlaku untuk anak-anak)

Nilai Yang Hilang Menangani nilai yang hilang Hilangkan objek atau variabel data Perkirakan nilai yang hilang Contoh: deret waktu temperatur Contoh: hasil sensus Abaikan nilai yang hilang selama analisis

Nilai yang Hilang Hilang sepenuhnya secara acak (Missing completely at random / MCAR) Hilangnya nilai tidak tergantung pada atribut Isi nilai berdasarkan atribut Analisis mungkin tidak bias secara keseluruhan Missing at Random (MAR) Hilang terkait dengan variabel lain Isi nilai berdasarkan nilai-nilai lain Hampir selalu menghasilkan bias dalam analisis

Nilai yang Hilang Missing Not at Random (MNAR) Kehilangan terkait dengan pengukuran yang tidak teramati Kehilangan yang informatif atau tidak dapat diabaikan Tidak mungkin mengetahui situasi dari data

Data Duplikat Kumpulan data dapat mencakup objek data yang merupakan duplikat, atau hampir duplikat satu sama lain Masalah utama saat menggabungkan data dari sumber yang heterogen Contoh: Orang yang sama dengan banyak alamat email Pembersihan data Proses berurusan dengan masalah data duplikat Kapan data duplikat tidak dihapus?

Pemrosesan Data Awal Agregasi Sampling Binerisasi dan Diskretisasi Pengurangan Dimensi Pemilihan Fitur Transformasi Variabel

Agregasi Penggabungan obyek ke dalam sebuah obyek tunggal Sum,average,min,max

Sampling Pemilihan bagian obyek data yang akan dianalisis. Sample harus representatif (mewakili seluruh data) Sample disebut resprentatif jika mempunyai sifat yang sama dengan seluruh data biasa diukur dengan rata- rata/mean Penggunaan sample yang baik tidak menjamin bahwa hasil pemrosesan data mining pada sample sama bagusnya dengan pemrosesan pada seluruh data asli

Binerisasi Transformasi data dari tipe continue,diskret menjadi tipe biner. Algoritma asosiasi membutuhkan data dengan atribut bertipe biner Jumlah atribut yg dibutuhkan utk binerisasi adalah N=log2(M), M= jml kelas kategori Contoh: {rusak,jelek,sedang,bagus,sempurna}, M=5 N=log2(5) = 3, sehingga tdp 3 atribut x1,x2,x3

Contoh Binerisasi

Diskretisasi Transformasi data dari tipe kontinu ke diskrit

Pengurangan Dimensi Mengurangi jumlah waktu dan memory yg dibutuhkan Membuat data lebih mudah divisualisasi Membantu mengurangi fitur-fitur yang tdk relevan/mengurangi gangguan/derau Teknik yang digunakan Principal Component Analysis (PCA) Singular Value Decomposition(SVD)

Pemilihan Fitur Proses pencarian terhadap semua kemungkinan subset fitur. Menghilangkan fitur yang redundan Misal: harga_jual,pajak,discount Menghilangkan fitur-fitur yang tidak mengandung informasi yang berguna untuk pekerjaan data mining Misal: tinggi badan mhs pada pekerjaan prediksi kelulusan mhs , tidak relevan

Pemilihan Fitur Teknik yang digunakan: Brute-force Pada proses data mining dilakukan dengan mencoba semua fitur. Filtering: Memilih fitur sebelum proses data mining dilakukan wrapper Menggunakan algoritma data mining untuk memilih sub-set fitur yang paling baik.

Transformasi Fitur Merupakan proses yang memetakan keseluruhan himpunan nilai dari fitur-fitur yang diberikan ke suatu subset nilai pengganti sedemikian sehingga nilai yang lama dapat dikenali dengan satu dari nilai-nilai yang baru tersebut. Metode dalam transformasi fitur: Standarisasi (median , standar deviasi). Normalization, dimana data sebuah atribut diskalakan ke dalam rentang (kecil) yang ditentukan (Metode: Min-max Normalization, z-score Normalization,Normalization by Decimal Scaling).