Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

Konsep dan Teknik Data Mining Karakterisasi dan Komparasi

Presentasi serupa


Presentasi berjudul: "Konsep dan Teknik Data Mining Karakterisasi dan Komparasi"— Transcript presentasi:

1 Konsep dan Teknik Data Mining Karakterisasi dan Komparasi
5 Deskripsi Konsep: Karakterisasi dan Komparasi

2 Deskripsi Konsep: Karakterisasi dan Komparasi
Apa Itu Konsep Deskripsi? Generalisasi Data dan Karakterisasi Berbasis Rangkuman Karakterisasi Analitis: Analisis Relevan Atribut Komparasi Kelas Mining: Perbedaan Antara Kelas Berbeda Ukuran Statistik Deskriptif Mining Dalam Database Besar

3 Apa Itu Konsep Deskripsi?
Dalam prakteknya, ada 2 goal utama “level tinggi” dari data mining: prediksi dan deskripsi. Prediksi meliputi penggunaan beberapa variabel atau field dalam database untuk menaksir nilai-nilai yang tidak diketahui atau nilai yang akan datang dari variabel yang diminati lainnya. Deskripsi memusatkan perhatian mencari pola yang menguraikan data yang bisa diinterpretasikan manusia Dalam konteks KDD, deskripsi cenderung lebih penting ketimbang prediksi. Untuk pengenalan pola dan aplikasi mesin pembelajaran, prediksi adalah goal utama proses KDD

4 Apa Itu Konsep Deskripsi?
Karakterisasi: menyediakan suatu rangkuman yang ringkas dan singkat dari koleksi data yang diberikan Komparasi: menyediakan deskripsi-deskripsi yang membandingkan 2 atau lebih koleksi data

5 Goal Prediksi dan Deskripsi: Tugas Utama Data Mining
Klasifikasi adalah pembelajaran suatu fungsi yang memetakan (mengklasifikasikan) suatu item data kedalam salah satu dari dari beberapa kelas yang didefinisikan sebelumnya (Prediksi) Regresi adalah pembelajaran suatu fungsi yang memetakan suatu item data ke suatu variabel prediksi bernilai riil (Prediksi) Clustering adalah suatu tugas umum deskripsi dimana seseorang mencoba mengenali suatu himpunan berhingga kategori atau cluster untuk menguraikan data (Deskripsi) Yang dekat dengan clustering adalah tugas dari taksiran peluang densitas yang memuat teknik-teknik untuk penaksiran, dari data, gabungan fungsi peluang densitas multivariabel dari seluruh varabel/field didalam database

6 Goal Prediksi dan Deskripsi: Tugas Utama Data Mining
Rangkuman meliputi metoda-metoda untuk mencari suatu deksripsi kompak untuk suatu subset data Pemodelan bergantung memuat pencarian suatu model yang menguraikan kebergantungan berarti antara variabel-variabel Model-model bergantung ada pada 2 level: Level struktural dari model merinci (sering secara grafis) variabel mana yang bergantung secara lokal pada setiap yang lain, dan Level kuantitatif dari model merinci kekuatan dari kebergantungan menggunakan beberapa skala numerik

7 Goal Prediksi dan Deskripsi: Tugas Utama Data Mining
Deteksi perubahan dan deviasi memusatkan perhatian pada penemuan perubahan yang paling berarti dalam data dari nilai-nilai yang diukur atau normatif sebelumnya

8 Induksi Berorientasi Atribut
Diusulkan tahun 1989 (KDD ‘89 workshop) Tidak dibatasi untuk kategori data tidak juga hanya untuk ukuran-ukuran khusus. Bagaimana ini dilakukan? Mengumpulkan data relevan tugas (relasi awal) menggunakan suatu query database relasional Mengerjakan generalisasi dengan membuang atribut atau generalisasi atribut. Menerapkan agregasi dengan menggabungkan atribut yang identik, tuple yang di generalisasikan dan mengumpulkan jumlahnya Penyajian ke user yang interaktif

9 Atribut Yang Relevan Terhadap Analisis
Mengapa? Dimensi mana yang harus disertakan? Berapa tinggi level generalisasi? Otomatis VS. Interaktif Mengurangi jumlah atribut; mudah untuk memahami pola Apa? Metoda statistik untuk pemrosesan awal data Menyaring atribut yang tak relevan atau relevan tetapi lemah Menahan atau merangking atribut yang relevan Relevansi terkait dengan dimensi dan level Karakterisasi dan komparasi analitis

10 Atribut Yang Relevan Terhadap Analisis
Bagaimana? Koleksi Data Generalisasi Analitis Menggunakan analisis information gain (misal, entropy atau ukuran lainnya) untuk mengenali dimensi dan level yang sangat relevan. Analisis Relevansi Mengurutkan dan memilih dimensi dan level yang paling relevan. Induksi berorientasi atribut untuk kelas deskripsi Atas dimensi/level terpilih Operasi OLAP (misal, drilling, slicing) atas kaidah yang relevan

11 Ukuran Yang Relevan Ukuran relevan kuantitatif menentukan kekuatan suatu atribut mengklasifikasikan sekumpulan data. Metoda-metoda Informasi gain (ID3) Rasio gain (C4.5) Indeks gini Tabel statistik kontingensi 2 Koefisien ketakpastian

12 Information Gain Suatu ukuran berharga dari suatu atribut adalah suatu properti statistik yang disebut information gain. Information gain mengukur seberapa baik suatu atribut yang diberikan memisahkan sampel pelatihan menurut klasifikasi targetnya. Ukuran ini digunakan untuk memilih diantara kandidat atribut pada setiap step waktu memelihara pohonnya

13 Information Gain Information gain adalah reduksi yang diharapkan dalam entropy yang disebabkan oleh pempartisian sampel-sampel berdasarkan atribut ini. Lebih tepatnya, information gain, Gain (S, A) dari suatu atribut A, relatif terhadap suatu koleksi sampel S yang didefinisikan sebagai: dimana Values(A) adalah himpunan seluruh nilai-nilai yang mungkin untuk atribut A, dan Sv adalah subset dari S dimana atribut A memiliki nilai v (artinya, Sv = {s Î S | A(s) = v}).

14 Entropy Entropy adalah suatu ukuran homogenitas dari sekumpulan sampel
Entropy adalah suatu ukuran yang umum digunakan dalam teori informasi Entropy menggambarkan kemurnian (ketakmurnian) dari suatu koleksi sampel sebarang Diberikan suatu himpunan S, memuat hanya contoh-contoh positif dan negatif dari suatu konsep target (suatu problem 2 kelas), entropy dari himpunan S relatif terhadap klasifikasi biner dan sederhana didefinisikan sebagai berikut:

15 Entropy(S) = - pplog2 pp – pnlog2 pn
dimana pp adalah perbandingan dari contoh positip dalam S dengan jumlah S dan pn adalah perbandingan dari contoh negatif dalam S dengan jumlah S. Dalam seluruh kalkulasi yang melibatkan entropy kita mendefinisikan 0log0 bernilai 0. Contoh: Misalkan S adalah koleksi 25 sampel, yang melibatkan 15 sampel positip dan 10 sampel negatip. [15+, 10-]. Tentukan entropy S relatif terhadap klasifikasi ini:

16 Entropy(S) = - (15/25) log2 (15/25) - (10/25) log2 (10/25) = 0.970
Perhatikan bahwa entropy adalah 0 jika seluruh anggota dari S hanya pada satu kelas yang sama. Sebagai contoh, jika seluruh anggota positip (pp= 1 ), maka pn = 0, dan Entropy(S) = -1* log2(1) – 0 * log20 = -1* 0 – 0*log20 = 0 – 0 = 0. Catatan, entropy adalah 1 (nilai maksimum!) saat koleksi memuat suatu jumlah yang sama dari sampel positip dan negatip.

17 Entropy Jika koleksi memuat jumlah sampel positip dan negatip yang tak sama, entropy akan terletak diantara 0 dan 1. Gambar berikut menunjukkan bentuk fungsi entropy relatif terhadap klasifikasi biner, dimana p+ bervariasi antara 0 dan 1.

18 Entropy Entropy 0 bila himpunan S homogen sempurna
Entropy 1 bila himpunan S tak homogen sempurna

19 Entropy dan Perolehan Informasi
S memuat tuple si dari kelas Ci untuk i = {1, …, m} Informasi mengukur info yang diperlukan untuk mengklasifikasikan tuple sebarang apapun Entropi dari atribut A dengan nilai-nilai {a1,a2,…,av} Informasi diperoleh dengan pencabangan atas atribut A

20 Contoh Pohon Keputusan: Entropy
Faktor-faktor yang mempengaruhi Sunburn

21 Contoh Pohon Keputusan: Entropy
Fase 1: dari Data ke Pohon Melakukan kalkulasi entropy rata-rata pada data set lengkap untuk masing-masing dari ke-empat atribut Warna rambut blonde red brown 2 positip 2 negatip 1 positip 3 negatip Total sampel = 8

22 Contoh Pohon Keputusan: Entropy
Hitungan entropy rata-rata sampel untuk atribut “warna rambut”

23 Contoh Pohon Keputusan: Entropy
Bila dilakukan juga untuk Height, Weight, dan Lotion Dengan cara yang sama, sekarang kita memilih uji lainnya untuk memisahkan individu sunburned dari subset tak homogen berambut blonde {Sarah, Dana, Annie, dan Katie}.

24 Contoh Pohon Keputusan: Entropy
Bila dilakukan juga untuk Height, Weight, dan Lotion Warna blonde average tall short 1 positip, Sarah 1 negatip, Dana 1 positip, Annie, 1 negatip, Katie

25 Contoh Pohon Keputusan: Entropy
Kalkulasi entropy rata-rata sampel rambut blonde untuk height Atribut lotion lah yang dipilih sebab atribut ini meminimalkan entropy dalam subset rambut blonde. Jadi, uji Hair dan Lotion bersama-sama menjamin pengenalan yang cocok untuk seluruh sampel.

26 Contoh Pohon Keputusan: Entropy
Pohon keputusan lengkap.

27 Contoh: Karakterisasi Analitis
Tugas Menambang karakteristik umum yang menerangkan graduate students menggunakan karakterisasi analitis Diberikan Atribut-atribut name, gender, major, birth_place, birth_date, phone#, dan gpa Gen(ai) = konsep hierarki atas ai Ui = atribut ambang analitis untuk ai Ti = atribut ambang general untuk ai R = atribut ambang yang relevan

28 Contoh: Karakterisasi Analitis
Koleksi data Kelas target: graduate student Kelas lawannya: undergraduate student Generalisasi analitis menggunakan Ui Penghapusan atribut Menghapus name dan phone# Generalisasi atribut Menggeneralisasi major, birth_place, birth_date dan gpa Mengumpulkan jumlah record Kandidat relasi: gender, major, birth_country, age_range dan gpa

29 Contoh: Karakterisasi Analitis
Kandidat relasi untuk kelas Target: Graduate students (=120) Kandidat relasi untuk kelas lawan : Undergraduate students (=130)

30 Contoh: Karakterisasi Analitis
Analisis Relevansi Mengitung informasi yang diharapkan untuk mengklasifikasikan suatu tuple sebarang Mengitung entropy untuk setiap atribut: misal, major major Science Engineering Business 84 Graduate 42 Undergraduate 36 Graduate 46 Undergraduate 0 Graduate

31 Contoh: Karakterisasi Analitis
Analisis Relevansi Menghitung info yang diharapkan yang diperlukan untuk mengklasifikasikan suatu sample yang diberikan jika S dipartisi berdasarkan atribut major Jumlah grad students dalam “Science” Jumlah undergrad students dalam “Science”

32 Contoh: Karakterisasi Analitis
Menghitung perolehan informasi untuk masing-masing atribut Information gain untuk seluruh atribut

33 Contoh: Karakterisasi Analitis
Initial working relation (W0) derivation R = 0.1 Buang atribut yang tak relevan / relevan tapi lemah dari kandidat relasi => buang gender, birth_country remove contrasting class candidate relation Melakukan induksi berorientasi atribut atas W0 menggunakan Ti

34 Komparasi Kelas Mining
Komparasi: membandingkan dua atau lebih kelas Metoda: Partisi himpunan data relevan kedalam kelas target dan kelas kontrasnya Generalisasi kedua kelas ke level tinggi konsep yang sama Membandingkan tuple dengan deskripsi level tinggi yang sama Memberikan setiap tuple deskripsinya dan 2 ukuran: support – distribusi didalam kelas tunggal komparasi – distribusi antara kelas Menonjolkan tuple dengan fitur deskriminan yang kuat Analisis Relevansi: Tentukan atribut (fitur) yang terbaik membedakan kelas-kelas berbeda

35 Contoh: Komparasi Analitis
Diberikan Atribut-atribut name, gender, major, birth_place, birth_date, residence, phone# dan gpa Gen(ai) = konsep hierarki atas atribut-atribut ai Ui = ambang analitis atribut untuk atribut ai Ti = ambang generalisasi atribut untuk atribut ai R = ambang relevan atribut

36 Contoh: Komparasi Analitis
Koleksi data Kelas target dan kontrasnya Analisis relevan atribut Membuang atribut name, gender, major, phone# Sinkronisasi generalisasi Dikontrol oleh ambang dimensi yang diberikan user Relasi/cuboid kelas target utama dan kelas kontrasnya

37 Contoh: Komparasi Analitis
Relasi utama yang digeneralisasi untuk kelas target: Graduate students Relasi utama yang digeneralisasi untuk kelas target: Undergraduate students

38 Contoh: Komparasi Analitis
Operasi OLAP drill down, roll up dan operasi lainnya atas kelas target dan kontras untuk menyesuaikan level abstraksi dari hasil deskripsi Presentasi Sebagai generalisasi relasi, crosstabs, bar charts, pie charts, atau kaidah-kaidah Ukuran kontras untuk merefleksikan komparasi antara kelas target dan kelas kontrasnya Contoh count%

39 Diskriminan Kuantitatif
Kaidah-Kaidah Diskriminan Kuantitatif Cj = kelas target qa = suatu tuple yang digeneralisasi mencakup beberapa tuple dari kelas Tetapi juga mencakup beberapa tuple dari kelas kontras d-weight range: [0, 1]

40 Diskriminan Kuantitatif
Contoh:Kaidah Diskriminan Kuantitatif Jumlah distribusi antara graduate student dan undergraduate students untuk suatu tuple yang digeneralisasi

41 Contoh: Kaidah Deskripsi
Kuantitatif Crosstab menunjukkan nilai-nilai t-weight, d-weight terkait dan jumlah total (dalam ribu) dari TV dan komputer yang terjual pada AllElectronics tahun 1998

42 Presentasi – Relasi Yang di Generalisasi

43 Presentasi – Crosstab

44 Karakteristik Penyembaran
Data Mining Motivasi Untuk memahami data lebih baik: tendensi sentral, variasi, dan sebaran Karakteristik penyebaran data median, max, min, quantiles, outliers, variansi, dsb. Dimensi numerik berhubungan dengan interval terurut Sebaran data: dianalisis dengan banyak granulariti dari presisi Analisis Boxplot atau quantile pada interval terurut Analisis sebaran pada ukuran terhitung Peliatan ukuran kedalam dimensi numerik Analisis Boxplot atau quantile pada kubus hasi transformasi

45 Pengukuran Tendensi Sentral
Mean Aritmatika mean berpemberat Median: suatu ukuran menyeluruh Nilai tengah jika jumlah nilai ganjil, atau rata-rata 2 nilai tengah jika jumlah nilai genap Ditaksir dengan interpolasi Mode Nilai yang muncul paling sering di dalam data Unimodal, bimodal, trimodal Rumus empiris:

46 Pengukuran Penyebaran Data
Quartiles, outliers dan boxplots Quartiles: Q1 (25th percentile), Q3 (75th percentile) Inter-quartile range: IQR = Q3 – Q1 Five number summary: min, Q1, M, Q3, max Boxplot: Ujung-ujung dari kotak adalah quartiles, median ditandai, rambut jagung, dan mem-plot outlier secara individu Outlier: biasanya, suatu nilai besar/kurang dari 1.5 x IQR Variansi dan deviasi standard Variance s2: (komputasi aljabar dan skalabel) Deviasi standard s adalah akar dari variansi s2

47 Analisis BoxPlot 5 jumlah rangkuman dari suatu distribusi: Boxplot
Minimum, Q1, M, Q3, Maximum Boxplot Data disajikan dengan suatu kotak Ujung-ujung kotak adalah pada quartile pertama dan ketiga, artinya, tinggi kotak adalah IRQ Median ditandai dengan suatu garis didalam kotak Rambut jagung: dua garis diluar kotak diperbesar ke Minimum dan Maksimum

48 Visualisasi Data Dispersi:
Analisis Boxplot

49 Ukuran Statistik Deskriptif Mining
Dalam Database Besar Variansi Deviasi standard: akar kuadrat dari variansi Mengukur sebaran disekitar mean Nilainya nol jika dan hanya jika seluruh nilai adalah sama Deviasi dan variansi adalah aljabar

50 Analisis Histogram Tampilan grafik dari deskripsi kelas statistik dasar Histogram frekuensi Suatu metoda grafik univariat Memuat suatu himpunan persegi empat yang menggambarkan jumlah atau frekuensi kehadiran kelas dalam data

51 Plot Quantile Menampilkan seluruh data (memungkinkan user untuk mengakses perilaku keseluruhan dan kejadian yang tak biasa) Mem-plot informasi quantile Untuk suatu data xi, data diurutkan dalam urutan menaik, fi menunjukkan bahwa hampir 100 fi% dari data dibawah atau sama dengan nilai xi

52 Plot Quantile-Quantile
Grafik dari quantiles dari satu distribusi univariat terhadap quantile line yang terkait Memungkinkan user untuk melihat apakah ada suatu pergeseran dari satu distribusi ke yang lain

53 Plot Scatter (Hamburan)
Menyediakan suatu tampilan awal pada data bivariat untuk melihat cluster dari titik-titik, outliers, dsb Setaiap pasangan nilai diperlakukan sebagai suatu pasangan dari koordinat dan diplot sebagai titik dalam bidang

54 Kurva Loess Menambahkan suatu kurva yang halus pada suatu plot hamburan dalam upaya menyediakan persepsi lebih baik dari pola kebergantungan Kurva Loess di cocokkan dengan mengatur 2 parameter: suatu parameter penghalusan, dan derejat polinomial yang dicocokkan dengan regresi

55 Tampilan Grafik Dari Deskripsi
Statistik Dasar Histogram Boxplot Plot quantile: setiap nilai xi dipasangkan dengan fi yang menunjukkan bahwa hampir 100 fi % dari data adalah  xi Plot quantile-quantile (q-q): grafik dari quantiles dari sauatu distribusi univariant terhadap quatile lain yang terkait

56 Tampilan Grafik Dari Deskripsi
Statistik Dasar Plot scatter: setiap pasangan nilai adalah suatu pasangan koordinat dan diplot sebagai titik didalam bidang Kurva Loess (regresi lokal): menambahkan suatu kurva halus pada suatu plot hamburan untuk menyediakan persepsi yang lebih baik dari pola kebergantungan


Download ppt "Konsep dan Teknik Data Mining Karakterisasi dan Komparasi"

Presentasi serupa


Iklan oleh Google