Konsep dan Teknik Data Mining Karakterisasi dan Komparasi

Slides:



Advertisements
Presentasi serupa
STATISTIKA DESKRIPTIF
Advertisements

Analisis Outlier.
DESAIN DAN ANALISIS PENELITIAN
Pengolahan Data.
Pengenalan Data Warehouse
Perbaikan Citra pada Domain Spasial
ANALISIS DATA Pokok Bahasan Oleh: SAPJA ANANTANYU
DESKRIPSI DATA (STATISTIKA DESKRIPTIF)
STATISTIK I (DESKRIPTIF) MKF
BAB VI UKURAN VARIASI ATAU DISPERSI (Pengukuran Dispersi) (Pertemuan ke-8) Oleh: Andri Wijaya, S.Pd., S.Psi., M.T.I. Program Studi Sistem Informasi Sekolah.
1 Analisis Data Output Slide terutama diambil dari: “The Art of Computer Systems Performance Analysis” by Raj Jain, Wiley [Chapters 12, 13, and 25]
7. Penyajian Data TABEL GRAFIK. 7. Penyajian Data TABEL GRAFIK.

1 6 Statistika Deskriptif. © John Wiley & Sons, Inc. Applied Statistics and Probability for Engineers, by Montgomery and Runger. Ringkasan Numerik dari.
PENGANTAR DATA MINING.
1. Statistika dan Statistik
DESKRIPSI DATA (STATISTIKA DESKRIPTIF)
METODE NUMERIK & GRAFIK
PERTEMUAN 6 Teknik Analisis dan Penyajian Data
? 1. Konsep Statistika STATISTIKA : Kegiatan untuk : mengumpulkan data
STATISTIK DESKRIPTIF.
STATISTIK untuk Penelitian Kesehatan
STATISTIK DESKRIPTIF Pengumpulan data, pengorganisasian, penyajian data Distribusi frekuensi Ukuran pemusatan Ukuran penyebaran Skewness, kurtosis.
TENDENSI SENTRAL.
STATISTIKA Jurusan PWK-FT-UB Pertemuan ke-2/2-4,14-16
PENGOLAHAN dan analisis DATA
Probabilitas dan Statistik
BIOSTATISTIK DESKRIPTIF
UKURAN NILAI SENTRAL&UKURAN PENYEBARAN
UKURAN VARIASI ATAU DISPERSI (Pengukuran Dispersi)
Ukuran Pemusatan (Central Tendency)
UKURAN NILAI SENTRAL&UKURAN PENYEBARAN
II. STUDI DESKRIPTIF DATA
KIMIA ANALISIS Konsep Statistika.
Statistik Deskriptif.
Computer Vision Materi 7
STATISTIK1 Pertemuan 3: Ukuran Pemusatan dan Penyebaran
TEKNIK ANALISIS DATA KUANTITATIF (Metode Statistika)
EKSTRAKURIKULER : DATA ANALYSIS
UKURAN NILAI SENTRAL&UKURAN PENYEBARAN
DISTRIBUSI NORMAL Data merupakan data kontinu (interval atau rasio)
Ukuran Variasi atau Dispersi
STATISTIKA DESKRIPTIF
? 1. Konsep Statistika STATISTIKA : Kegiatan untuk : mengumpulkan data
STATISTIK 1 Pertemuan 5,6: Ukuran Pemusatan dan Penyebaran
OLEH : RESPATI WULANDARI, M.KES
STATISTIK 1 Pertemuan 5,6: Ukuran Pemusatan dan Penyebaran
Adhi Gurmilang STATISTIK DESKRIPTIF.
Ukuran Variasi atau Dispersi
Drs. Indratmo Yudono, MSi
STATISTIKA Pertemuan 3: Ukuran Pemusatan dan Penyebaran
STATISTIKA Pertemuan 3: Ukuran Pemusatan dan Penyebaran
ANALISis DATA statistik
TPD (Teknik Pengolahan Data)
Statistika Deskriptif
SQC 2- Statistik Deskriptif
ALAT-ALAT MANAJEMEN (2)
Probabilitas dan Statistik
PENDAHULUAN.
ANALISis DATA statistik
STATISTIKA DESKRIPTIF
? 1. Konsep Statistika STATISTIKA : Kegiatan untuk : mengumpulkan data
? 1. Konsep Statistika STATISTIKA : Kegiatan untuk : mengumpulkan data
Statistika Deksriptif
STATISTIK DESKRIPTIF Penajian data.
Probabilitas dan Statistika
Statistik Dasar Kuliah 8.
DESKRIPSI DATA Pertemuan 3.
STATISTIK DESKRIPTIF.
STATISTIKA DESKRIPTIF Tendensi Sentral & Ukuran Dispersi KELOMPOK 2.
Transcript presentasi:

Konsep dan Teknik Data Mining Karakterisasi dan Komparasi 5 Deskripsi Konsep: Karakterisasi dan Komparasi

Deskripsi Konsep: Karakterisasi dan Komparasi Apa Itu Konsep Deskripsi? Generalisasi Data dan Karakterisasi Berbasis Rangkuman Karakterisasi Analitis: Analisis Relevan Atribut Komparasi Kelas Mining: Perbedaan Antara Kelas Berbeda Ukuran Statistik Deskriptif Mining Dalam Database Besar

Apa Itu Konsep Deskripsi? Dalam prakteknya, ada 2 goal utama “level tinggi” dari data mining: prediksi dan deskripsi. Prediksi meliputi penggunaan beberapa variabel atau field dalam database untuk menaksir nilai-nilai yang tidak diketahui atau nilai yang akan datang dari variabel yang diminati lainnya. Deskripsi memusatkan perhatian mencari pola yang menguraikan data yang bisa diinterpretasikan manusia Dalam konteks KDD, deskripsi cenderung lebih penting ketimbang prediksi. Untuk pengenalan pola dan aplikasi mesin pembelajaran, prediksi adalah goal utama proses KDD

Apa Itu Konsep Deskripsi? Karakterisasi: menyediakan suatu rangkuman yang ringkas dan singkat dari koleksi data yang diberikan Komparasi: menyediakan deskripsi-deskripsi yang membandingkan 2 atau lebih koleksi data

Goal Prediksi dan Deskripsi: Tugas Utama Data Mining Klasifikasi adalah pembelajaran suatu fungsi yang memetakan (mengklasifikasikan) suatu item data kedalam salah satu dari dari beberapa kelas yang didefinisikan sebelumnya (Prediksi) Regresi adalah pembelajaran suatu fungsi yang memetakan suatu item data ke suatu variabel prediksi bernilai riil (Prediksi) Clustering adalah suatu tugas umum deskripsi dimana seseorang mencoba mengenali suatu himpunan berhingga kategori atau cluster untuk menguraikan data (Deskripsi) Yang dekat dengan clustering adalah tugas dari taksiran peluang densitas yang memuat teknik-teknik untuk penaksiran, dari data, gabungan fungsi peluang densitas multivariabel dari seluruh varabel/field didalam database

Goal Prediksi dan Deskripsi: Tugas Utama Data Mining Rangkuman meliputi metoda-metoda untuk mencari suatu deksripsi kompak untuk suatu subset data Pemodelan bergantung memuat pencarian suatu model yang menguraikan kebergantungan berarti antara variabel-variabel Model-model bergantung ada pada 2 level: Level struktural dari model merinci (sering secara grafis) variabel mana yang bergantung secara lokal pada setiap yang lain, dan Level kuantitatif dari model merinci kekuatan dari kebergantungan menggunakan beberapa skala numerik

Goal Prediksi dan Deskripsi: Tugas Utama Data Mining Deteksi perubahan dan deviasi memusatkan perhatian pada penemuan perubahan yang paling berarti dalam data dari nilai-nilai yang diukur atau normatif sebelumnya

Induksi Berorientasi Atribut Diusulkan tahun 1989 (KDD ‘89 workshop) Tidak dibatasi untuk kategori data tidak juga hanya untuk ukuran-ukuran khusus. Bagaimana ini dilakukan? Mengumpulkan data relevan tugas (relasi awal) menggunakan suatu query database relasional Mengerjakan generalisasi dengan membuang atribut atau generalisasi atribut. Menerapkan agregasi dengan menggabungkan atribut yang identik, tuple yang di generalisasikan dan mengumpulkan jumlahnya Penyajian ke user yang interaktif

Atribut Yang Relevan Terhadap Analisis Mengapa? Dimensi mana yang harus disertakan? Berapa tinggi level generalisasi? Otomatis VS. Interaktif Mengurangi jumlah atribut; mudah untuk memahami pola Apa? Metoda statistik untuk pemrosesan awal data Menyaring atribut yang tak relevan atau relevan tetapi lemah Menahan atau merangking atribut yang relevan Relevansi terkait dengan dimensi dan level Karakterisasi dan komparasi analitis

Atribut Yang Relevan Terhadap Analisis Bagaimana? Koleksi Data Generalisasi Analitis Menggunakan analisis information gain (misal, entropy atau ukuran lainnya) untuk mengenali dimensi dan level yang sangat relevan. Analisis Relevansi Mengurutkan dan memilih dimensi dan level yang paling relevan. Induksi berorientasi atribut untuk kelas deskripsi Atas dimensi/level terpilih Operasi OLAP (misal, drilling, slicing) atas kaidah yang relevan

Ukuran Yang Relevan Ukuran relevan kuantitatif menentukan kekuatan suatu atribut mengklasifikasikan sekumpulan data. Metoda-metoda Informasi gain (ID3) Rasio gain (C4.5) Indeks gini Tabel statistik kontingensi 2 Koefisien ketakpastian

Information Gain Suatu ukuran berharga dari suatu atribut adalah suatu properti statistik yang disebut information gain. Information gain mengukur seberapa baik suatu atribut yang diberikan memisahkan sampel pelatihan menurut klasifikasi targetnya. Ukuran ini digunakan untuk memilih diantara kandidat atribut pada setiap step waktu memelihara pohonnya

Information Gain Information gain adalah reduksi yang diharapkan dalam entropy yang disebabkan oleh pempartisian sampel-sampel berdasarkan atribut ini. Lebih tepatnya, information gain, Gain (S, A) dari suatu atribut A, relatif terhadap suatu koleksi sampel S yang didefinisikan sebagai: dimana Values(A) adalah himpunan seluruh nilai-nilai yang mungkin untuk atribut A, dan Sv adalah subset dari S dimana atribut A memiliki nilai v (artinya, Sv = {s Î S | A(s) = v}).

Entropy Entropy adalah suatu ukuran homogenitas dari sekumpulan sampel Entropy adalah suatu ukuran yang umum digunakan dalam teori informasi Entropy menggambarkan kemurnian (ketakmurnian) dari suatu koleksi sampel sebarang Diberikan suatu himpunan S, memuat hanya contoh-contoh positif dan negatif dari suatu konsep target (suatu problem 2 kelas), entropy dari himpunan S relatif terhadap klasifikasi biner dan sederhana didefinisikan sebagai berikut:

Entropy(S) = - pplog2 pp – pnlog2 pn dimana pp adalah perbandingan dari contoh positip dalam S dengan jumlah S dan pn adalah perbandingan dari contoh negatif dalam S dengan jumlah S. Dalam seluruh kalkulasi yang melibatkan entropy kita mendefinisikan 0log0 bernilai 0. Contoh: Misalkan S adalah koleksi 25 sampel, yang melibatkan 15 sampel positip dan 10 sampel negatip. [15+, 10-]. Tentukan entropy S relatif terhadap klasifikasi ini:

Entropy(S) = - (15/25) log2 (15/25) - (10/25) log2 (10/25) = 0.970 Perhatikan bahwa entropy adalah 0 jika seluruh anggota dari S hanya pada satu kelas yang sama. Sebagai contoh, jika seluruh anggota positip (pp= 1 ), maka pn = 0, dan Entropy(S) = -1* log2(1) – 0 * log20 = -1* 0 – 0*log20 = 0 – 0 = 0. Catatan, entropy adalah 1 (nilai maksimum!) saat koleksi memuat suatu jumlah yang sama dari sampel positip dan negatip.

Entropy Jika koleksi memuat jumlah sampel positip dan negatip yang tak sama, entropy akan terletak diantara 0 dan 1. Gambar berikut menunjukkan bentuk fungsi entropy relatif terhadap klasifikasi biner, dimana p+ bervariasi antara 0 dan 1.

Entropy Entropy 0 bila himpunan S homogen sempurna Entropy 1 bila himpunan S tak homogen sempurna

Entropy dan Perolehan Informasi S memuat tuple si dari kelas Ci untuk i = {1, …, m} Informasi mengukur info yang diperlukan untuk mengklasifikasikan tuple sebarang apapun Entropi dari atribut A dengan nilai-nilai {a1,a2,…,av} Informasi diperoleh dengan pencabangan atas atribut A

Contoh Pohon Keputusan: Entropy Faktor-faktor yang mempengaruhi Sunburn

Contoh Pohon Keputusan: Entropy Fase 1: dari Data ke Pohon Melakukan kalkulasi entropy rata-rata pada data set lengkap untuk masing-masing dari ke-empat atribut Warna rambut blonde red brown 2 positip 2 negatip 1 positip 3 negatip Total sampel = 8

Contoh Pohon Keputusan: Entropy Hitungan entropy rata-rata sampel untuk atribut “warna rambut”

Contoh Pohon Keputusan: Entropy Bila dilakukan juga untuk Height, Weight, dan Lotion Dengan cara yang sama, sekarang kita memilih uji lainnya untuk memisahkan individu sunburned dari subset tak homogen berambut blonde {Sarah, Dana, Annie, dan Katie}.

Contoh Pohon Keputusan: Entropy Bila dilakukan juga untuk Height, Weight, dan Lotion Warna blonde average tall short 1 positip, Sarah 1 negatip, Dana 1 positip, Annie, 1 negatip, Katie

Contoh Pohon Keputusan: Entropy Kalkulasi entropy rata-rata sampel rambut blonde untuk height Atribut lotion lah yang dipilih sebab atribut ini meminimalkan entropy dalam subset rambut blonde. Jadi, uji Hair dan Lotion bersama-sama menjamin pengenalan yang cocok untuk seluruh sampel.

Contoh Pohon Keputusan: Entropy Pohon keputusan lengkap.

Contoh: Karakterisasi Analitis Tugas Menambang karakteristik umum yang menerangkan graduate students menggunakan karakterisasi analitis Diberikan Atribut-atribut name, gender, major, birth_place, birth_date, phone#, dan gpa Gen(ai) = konsep hierarki atas ai Ui = atribut ambang analitis untuk ai Ti = atribut ambang general untuk ai R = atribut ambang yang relevan

Contoh: Karakterisasi Analitis Koleksi data Kelas target: graduate student Kelas lawannya: undergraduate student Generalisasi analitis menggunakan Ui Penghapusan atribut Menghapus name dan phone# Generalisasi atribut Menggeneralisasi major, birth_place, birth_date dan gpa Mengumpulkan jumlah record Kandidat relasi: gender, major, birth_country, age_range dan gpa

Contoh: Karakterisasi Analitis Kandidat relasi untuk kelas Target: Graduate students (=120) Kandidat relasi untuk kelas lawan : Undergraduate students (=130)

Contoh: Karakterisasi Analitis Analisis Relevansi Mengitung informasi yang diharapkan untuk mengklasifikasikan suatu tuple sebarang Mengitung entropy untuk setiap atribut: misal, major major Science Engineering Business 84 Graduate 42 Undergraduate 36 Graduate 46 Undergraduate 0 Graduate

Contoh: Karakterisasi Analitis Analisis Relevansi Menghitung info yang diharapkan yang diperlukan untuk mengklasifikasikan suatu sample yang diberikan jika S dipartisi berdasarkan atribut major Jumlah grad students dalam “Science” Jumlah undergrad students dalam “Science”

Contoh: Karakterisasi Analitis Menghitung perolehan informasi untuk masing-masing atribut Information gain untuk seluruh atribut

Contoh: Karakterisasi Analitis Initial working relation (W0) derivation R = 0.1 Buang atribut yang tak relevan / relevan tapi lemah dari kandidat relasi => buang gender, birth_country remove contrasting class candidate relation Melakukan induksi berorientasi atribut atas W0 menggunakan Ti

Komparasi Kelas Mining Komparasi: membandingkan dua atau lebih kelas Metoda: Partisi himpunan data relevan kedalam kelas target dan kelas kontrasnya Generalisasi kedua kelas ke level tinggi konsep yang sama Membandingkan tuple dengan deskripsi level tinggi yang sama Memberikan setiap tuple deskripsinya dan 2 ukuran: support – distribusi didalam kelas tunggal komparasi – distribusi antara kelas Menonjolkan tuple dengan fitur deskriminan yang kuat Analisis Relevansi: Tentukan atribut (fitur) yang terbaik membedakan kelas-kelas berbeda

Contoh: Komparasi Analitis Diberikan Atribut-atribut name, gender, major, birth_place, birth_date, residence, phone# dan gpa Gen(ai) = konsep hierarki atas atribut-atribut ai Ui = ambang analitis atribut untuk atribut ai Ti = ambang generalisasi atribut untuk atribut ai R = ambang relevan atribut

Contoh: Komparasi Analitis Koleksi data Kelas target dan kontrasnya Analisis relevan atribut Membuang atribut name, gender, major, phone# Sinkronisasi generalisasi Dikontrol oleh ambang dimensi yang diberikan user Relasi/cuboid kelas target utama dan kelas kontrasnya

Contoh: Komparasi Analitis Relasi utama yang digeneralisasi untuk kelas target: Graduate students Relasi utama yang digeneralisasi untuk kelas target: Undergraduate students

Contoh: Komparasi Analitis Operasi OLAP drill down, roll up dan operasi lainnya atas kelas target dan kontras untuk menyesuaikan level abstraksi dari hasil deskripsi Presentasi Sebagai generalisasi relasi, crosstabs, bar charts, pie charts, atau kaidah-kaidah Ukuran kontras untuk merefleksikan komparasi antara kelas target dan kelas kontrasnya Contoh count%

Diskriminan Kuantitatif Kaidah-Kaidah Diskriminan Kuantitatif Cj = kelas target qa = suatu tuple yang digeneralisasi mencakup beberapa tuple dari kelas Tetapi juga mencakup beberapa tuple dari kelas kontras d-weight range: [0, 1]

Diskriminan Kuantitatif Contoh:Kaidah Diskriminan Kuantitatif Jumlah distribusi antara graduate student dan undergraduate students untuk suatu tuple yang digeneralisasi

Contoh: Kaidah Deskripsi Kuantitatif Crosstab menunjukkan nilai-nilai t-weight, d-weight terkait dan jumlah total (dalam ribu) dari TV dan komputer yang terjual pada AllElectronics tahun 1998

Presentasi – Relasi Yang di Generalisasi

Presentasi – Crosstab

Karakteristik Penyembaran Data Mining Motivasi Untuk memahami data lebih baik: tendensi sentral, variasi, dan sebaran Karakteristik penyebaran data median, max, min, quantiles, outliers, variansi, dsb. Dimensi numerik berhubungan dengan interval terurut Sebaran data: dianalisis dengan banyak granulariti dari presisi Analisis Boxplot atau quantile pada interval terurut Analisis sebaran pada ukuran terhitung Peliatan ukuran kedalam dimensi numerik Analisis Boxplot atau quantile pada kubus hasi transformasi

Pengukuran Tendensi Sentral Mean Aritmatika mean berpemberat Median: suatu ukuran menyeluruh Nilai tengah jika jumlah nilai ganjil, atau rata-rata 2 nilai tengah jika jumlah nilai genap Ditaksir dengan interpolasi Mode Nilai yang muncul paling sering di dalam data Unimodal, bimodal, trimodal Rumus empiris:

Pengukuran Penyebaran Data Quartiles, outliers dan boxplots Quartiles: Q1 (25th percentile), Q3 (75th percentile) Inter-quartile range: IQR = Q3 – Q1 Five number summary: min, Q1, M, Q3, max Boxplot: Ujung-ujung dari kotak adalah quartiles, median ditandai, rambut jagung, dan mem-plot outlier secara individu Outlier: biasanya, suatu nilai besar/kurang dari 1.5 x IQR Variansi dan deviasi standard Variance s2: (komputasi aljabar dan skalabel) Deviasi standard s adalah akar dari variansi s2

Analisis BoxPlot 5 jumlah rangkuman dari suatu distribusi: Boxplot Minimum, Q1, M, Q3, Maximum Boxplot Data disajikan dengan suatu kotak Ujung-ujung kotak adalah pada quartile pertama dan ketiga, artinya, tinggi kotak adalah IRQ Median ditandai dengan suatu garis didalam kotak Rambut jagung: dua garis diluar kotak diperbesar ke Minimum dan Maksimum

Visualisasi Data Dispersi: Analisis Boxplot

Ukuran Statistik Deskriptif Mining Dalam Database Besar Variansi Deviasi standard: akar kuadrat dari variansi Mengukur sebaran disekitar mean Nilainya nol jika dan hanya jika seluruh nilai adalah sama Deviasi dan variansi adalah aljabar

Analisis Histogram Tampilan grafik dari deskripsi kelas statistik dasar Histogram frekuensi Suatu metoda grafik univariat Memuat suatu himpunan persegi empat yang menggambarkan jumlah atau frekuensi kehadiran kelas dalam data

Plot Quantile Menampilkan seluruh data (memungkinkan user untuk mengakses perilaku keseluruhan dan kejadian yang tak biasa) Mem-plot informasi quantile Untuk suatu data xi, data diurutkan dalam urutan menaik, fi menunjukkan bahwa hampir 100 fi% dari data dibawah atau sama dengan nilai xi

Plot Quantile-Quantile Grafik dari quantiles dari satu distribusi univariat terhadap quantile line yang terkait Memungkinkan user untuk melihat apakah ada suatu pergeseran dari satu distribusi ke yang lain

Plot Scatter (Hamburan) Menyediakan suatu tampilan awal pada data bivariat untuk melihat cluster dari titik-titik, outliers, dsb Setaiap pasangan nilai diperlakukan sebagai suatu pasangan dari koordinat dan diplot sebagai titik dalam bidang

Kurva Loess Menambahkan suatu kurva yang halus pada suatu plot hamburan dalam upaya menyediakan persepsi lebih baik dari pola kebergantungan Kurva Loess di cocokkan dengan mengatur 2 parameter: suatu parameter penghalusan, dan derejat polinomial yang dicocokkan dengan regresi

Tampilan Grafik Dari Deskripsi Statistik Dasar Histogram Boxplot Plot quantile: setiap nilai xi dipasangkan dengan fi yang menunjukkan bahwa hampir 100 fi % dari data adalah  xi Plot quantile-quantile (q-q): grafik dari quantiles dari sauatu distribusi univariant terhadap quatile lain yang terkait

Tampilan Grafik Dari Deskripsi Statistik Dasar Plot scatter: setiap pasangan nilai adalah suatu pasangan koordinat dan diplot sebagai titik didalam bidang Kurva Loess (regresi lokal): menambahkan suatu kurva halus pada suatu plot hamburan untuk menyediakan persepsi yang lebih baik dari pola kebergantungan