Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

Edward PurbaKonsep Deskripsi 1/90 Konsep dan Teknik Data Mining.

Presentasi serupa


Presentasi berjudul: "Edward PurbaKonsep Deskripsi 1/90 Konsep dan Teknik Data Mining."— Transcript presentasi:

1

2 Edward PurbaKonsep Deskripsi 1/90 Konsep dan Teknik Data Mining

3 Edward PurbaKonsep Deskripsi 2/90 Generalisasi Data dan Karakterisasi Berbasis Rangkuman Generalisasi Data dan Karakterisasi Berbasis Rangkuman Karakterisasi Analitis: Analisis Relevan Atribut Karakterisasi Analitis: Analisis Relevan Atribut Ukuran Statistik Deskriptif Mining Dalam Database Besar Ukuran Statistik Deskriptif Mining Dalam Database Besar Apa Itu Konsep Deskripsi? Deskripsi Konsep: Karakterisasi dan Komparasi Komparasi Kelas Mining: Perbedaan Antara Kelas Berbeda Komparasi Kelas Mining: Perbedaan Antara Kelas Berbeda

4 Edward PurbaKonsep Deskripsi 3/90 Apa Itu Konsep Deskripsi? Dalam prakteknya, ada 2 goal utama “level tinggi” dari data mining: prediksi dan deskripsi. 1.Prediksi meliputi penggunaan beberapa variabel atau field dalam database untuk menaksir nilai-nilai yang tidak diketahui atau nilai yang akan datang dari variabel yang diminati lainnya. 2.Deskripsi memusatkan perhatian mencari pola yang menguraikan data yang bisa diinterpretasikan manusia Dalam konteks KDD, deskripsi cenderung lebih penting ketimbang prediksi. Untuk pengenalan pola dan aplikasi mesin pembelajaran, prediksi adalah goal utama proses KDD

5 Edward PurbaKonsep Deskripsi 4/90 Apa Itu Konsep Deskripsi? Konsep deskripsi: –Karakterisasi: menyediakan suatu rangkuman yang ringkas dan singkat dari koleksi data yang diberikan –Komparasi: menyediakan deskripsi-deskripsi yang membandingkan 2 atau lebih koleksi data

6 Edward PurbaKonsep Deskripsi 5/90 Goal Prediksi dan Deskripsi: Tugas Utama Data Mining 1.Klasifikasi adalah pembelajaran suatu fungsi yang memetakan (mengklasifikasikan) suatu item data kedalam salah satu dari dari beberapa kelas yang didefinisikan sebelumnya (Prediksi) 2.Regresi adalah pembelajaran suatu fungsi yang memetakan suatu item data ke suatu variabel prediksi bernilai riil (Prediksi) 3.Clustering adalah suatu tugas umum deskripsi dimana seseorang mencoba mengenali suatu himpunan berhingga kategori atau cluster untuk menguraikan data (Deskripsi) –Yang dekat dengan clustering adalah tugas dari taksiran peluang densitas yang memuat teknik-teknik untuk penaksiran, dari data, gabungan fungsi peluang densitas multivariabel dari seluruh varabel/field didalam database

7 Edward PurbaKonsep Deskripsi 6/90 Goal Prediksi dan Deskripsi: Tugas Utama Data Mining 4.Rangkuman meliputi metoda-metoda untuk mencari suatu deksripsi kompak untuk suatu subset data 5.Pemodelan bergantung memuat pencarian suatu model yang menguraikan kebergantungan berarti antara variabel-variabel Model-model bergantung ada pada 2 level: i.Level struktural dari model merinci (sering secara grafis) variabel mana yang bergantung secara lokal pada setiap yang lain, dan ii.Level kuantitatif dari model merinci kekuatan dari kebergantungan menggunakan beberapa skala numerik

8 Edward PurbaKonsep Deskripsi 7/90 Goal Prediksi dan Deskripsi: Tugas Utama Data Mining 6.Deteksi perubahan dan deviasi memusatkan perhatian pada penemuan perubahan yang paling berarti dalam data dari nilai-nilai yang diukur atau normatif sebelumnya

9 Edward PurbaKonsep Deskripsi 8/90 Induksi Berorientasi Atribut Diusulkan tahun 1989 (KDD ‘89 workshop) Tidak dibatasi untuk kategori data tidak juga hanya untuk ukuran-ukuran khusus. Bagaimana ini dilakukan? –Mengumpulkan data relevan tugas (relasi awal) menggunakan suatu query database relasional –Mengerjakan generalisasi dengan membuang atribut atau generalisasi atribut. –Menerapkan agregasi dengan menggabungkan atribut yang identik, tuple yang di generalisasikan dan mengumpulkan jumlahnya –Penyajian ke user yang interaktif

10 Edward PurbaKonsep Deskripsi 9/90 Atribut Yang Relevan Terhadap Analisis Mengapa? –Dimensi mana yang harus disertakan? –Berapa tinggi level generalisasi? –Otomatis VS. Interaktif –Mengurangi jumlah atribut; mudah untuk memahami pola Apa? –Metoda statistik untuk pemrosesan awal data Menyaring atribut yang tak relevan atau relevan tetapi lemah Menahan atau merangking atribut yang relevan –Relevansi terkait dengan dimensi dan level –Karakterisasi dan komparasi analitis

11 Edward PurbaKonsep Deskripsi 10/90 Atribut Yang Relevan Terhadap Analisis Bagaimana? –Koleksi Data –Generalisasi Analitis Menggunakan analisis information gain (misal, entropy atau ukuran lainnya) untuk mengenali dimensi dan level yang sangat relevan. –Analisis Relevansi Mengurutkan dan memilih dimensi dan level yang paling relevan. –Induksi berorientasi atribut untuk kelas deskripsi Atas dimensi/level terpilih –Operasi OLAP (misal, drilling, slicing) atas kaidah yang relevan

12 Edward PurbaKonsep Deskripsi 11/90 Ukuran Yang Relevan Ukuran relevan kuantitatif menentukan kekuatan suatu atribut mengklasifikasikan sekumpulan data. Metoda-metoda –Informasi gain (ID3) –Rasio gain (C4.5) –Indeks gini –Tabel statistik kontingensi  2 –Koefisien ketakpastian

13 Edward PurbaKonsep Deskripsi 12/90 Information Gain Suatu ukuran berharga dari suatu atribut adalah suatu properti statistik yang disebut information gain. Information gain mengukur seberapa baik suatu atribut yang diberikan memisahkan sampel pelatihan menurut klasifikasi targetnya. –Ukuran ini digunakan untuk memilih diantara kandidat atribut pada setiap step waktu memelihara pohonnya

14 Edward PurbaKonsep Deskripsi 13/90 Information Gain Information gain adalah reduksi yang diharapkan dalam entropy yang disebabkan oleh pempartisian sampel-sampel berdasarkan atribut ini. Lebih tepatnya, information gain, Gain (S, A) dari suatu atribut A, relatif terhadap suatu koleksi sampel S yang didefinisikan sebagai: dimana Values(A) adalah himpunan seluruh nilai-nilai yang mungkin untuk atribut A, dan S v adalah subset dari S dimana atribut A memiliki nilai v (artinya, S v = {s Î S | A(s) = v}).

15 Edward PurbaKonsep Deskripsi 14/90 Entropy Entropy adalah suatu ukuran homogenitas dari sekumpulan sampel Entropy adalah suatu ukuran yang umum digunakan dalam teori informasi Entropy menggambarkan kemurnian (ketakmurnian) dari suatu koleksi sampel sebarang Diberikan suatu himpunan S, memuat hanya contoh- contoh positif dan negatif dari suatu konsep target (suatu problem 2 kelas), entropy dari himpunan S relatif terhadap klasifikasi biner dan sederhana didefinisikan sebagai berikut:

16 Edward PurbaKonsep Deskripsi 15/90 Entropy Entropy(S) = - p p log 2 p p – p n log 2 p n dimana p p adalah perbandingan dari contoh positip dalam S dengan jumlah S dan p n adalah perbandingan dari contoh negatif dalam S dengan jumlah S. Dalam seluruh kalkulasi yang melibatkan entropy kita mendefinisikan 0log0 bernilai 0. Contoh: Misalkan S adalah koleksi 25 sampel, yang melibatkan 15 sampel positip dan 10 sampel negatip. [15+, 10-]. Tentukan entropy S relatif terhadap klasifikasi ini:

17 Edward PurbaKonsep Deskripsi 16/90 Entropy Entropy(S) = - (15/25) log 2 (15/25) - (10/25) log 2 (10/25) = Perhatikan bahwa entropy adalah 0 jika seluruh anggota dari S hanya pada satu kelas yang sama. Sebagai contoh, jika seluruh anggota positip (p p = 1 ), maka p n = 0, dan Entropy(S) = -1* log 2 (1) – 0 * log 2 0 = -1* 0 – 0*log 2 0 = 0 – 0 = 0. Catatan, entropy adalah 1 (nilai maksimum!) saat koleksi memuat suatu jumlah yang sama dari sampel positip dan negatip.

18 Edward PurbaKonsep Deskripsi 17/90 Entropy Jika koleksi memuat jumlah sampel positip dan negatip yang tak sama, entropy akan terletak diantara 0 dan 1. Gambar berikut menunjukkan bentuk fungsi entropy relatif terhadap klasifikasi biner, dimana p + bervariasi antara 0 dan 1.

19 Edward PurbaKonsep Deskripsi 18/90 Entropy Entropy 0 bila himpunan S homogen sempurna Entropy 1 bila himpunan S tak homogen sempurna

20 Edward PurbaKonsep Deskripsi 19/90 Entropy dan Perolehan Informasi S memuat tuple s i dari kelas C i untuk i = {1, …, m} Informasi mengukur info yang diperlukan untuk mengklasifikasikan tuple sebarang apapun Entropi dari atribut A dengan nilai-nilai {a 1,a 2,…,a v } Informasi diperoleh dengan pencabangan atas atribut A

21 Edward PurbaKonsep Deskripsi 20/90 Contoh Pohon Keputusan: Entropy Faktor-faktor yang mempengaruhi Sunburn

22 Edward PurbaKonsep Deskripsi 21/90 Contoh Pohon Keputusan: Entropy Fase 1: dari Data ke Pohon Melakukan kalkulasi entropy rata-rata pada data set lengkap untuk masing-masing dari ke-empat atribut Warna rambut blonde red brown 2 positip 2 negatip 1 positip 3 negatip Total sampel = 8

23 Edward PurbaKonsep Deskripsi 22/90 Contoh Pohon Keputusan: Entropy Hitungan entropy rata-rata sampel untuk atribut “warna rambut”

24 Edward PurbaKonsep Deskripsi 23/90 Contoh Pohon Keputusan: Entropy Bila dilakukan juga untuk Height, Weight, dan Lotion Dengan cara yang sama, sekarang kita memilih uji lainnya untuk memisahkan individu sunburned dari subset tak homogen berambut blonde {Sarah, Dana, Annie, dan Katie}.

25 Edward PurbaKonsep Deskripsi 24/90 Contoh Pohon Keputusan: Entropy Bila dilakukan juga untuk Height, Weight, dan Lotion Warna blonde average tall short 1 positip, Sarah 1 negatip, Dana 1 positip, Annie, 1 negatip, Katie

26 Edward PurbaKonsep Deskripsi 25/90 Contoh Pohon Keputusan: Entropy Kalkulasi entropy rata-rata sampel rambut blonde untuk height Atribut lotion lah yang dipilih sebab atribut ini meminimalkan entropy dalam subset rambut blonde. Jadi, uji Hair dan Lotion bersama-sama menjamin pengenalan yang cocok untuk seluruh sampel.

27 Edward PurbaKonsep Deskripsi 26/90 Contoh Pohon Keputusan: Entropy Pohon keputusan lengkap.

28 Edward PurbaKonsep Deskripsi 27/90 Contoh: Karakterisasi Analitis Tugas –Menambang karakteristik umum yang menerangkan graduate students menggunakan karakterisasi analitis Diberikan –Atribut-atribut name, gender, major, birth_place, birth_date, phone#, dan gpa –Gen(a i ) = konsep hierarki atas a i –U i = atribut ambang analitis untuk a i –T i = atribut ambang general untuk a i –R = atribut ambang yang relevan

29 Edward PurbaKonsep Deskripsi 28/90 Contoh: Karakterisasi Analitis 1.Koleksi data –Kelas target: graduate student –Kelas lawannya: undergraduate student 2.Generalisasi analitis menggunakan Ui –Penghapusan atribut Menghapus name dan phone# –Generalisasi atribut Menggeneralisasi major, birth_place, birth_date dan gpa Mengumpulkan jumlah record –Kandidat relasi: gender, major, birth_country, age_range dan gpa

30 Edward PurbaKonsep Deskripsi 29/90 Contoh: Karakterisasi Analitis Kandidat relasi untuk kelas Target: Graduate students (  =120) Kandidat relasi untuk kelas lawan : Undergraduate students (  =130)

31 Edward PurbaKonsep Deskripsi 30/90 Contoh: Karakterisasi Analitis 3.Analisis Relevansi –Mengitung informasi yang diharapkan untuk mengklasifikasikan suatu tuple sebarang –Mengitung entropy untuk setiap atribut: misal, major major Science Engineering Business 84 Graduate 42 Undergraduate 36 Graduate 46 Undergraduate 0 Graduate 42 Undergraduate

32 Edward PurbaKonsep Deskripsi 31/90 Contoh: Karakterisasi Analitis 3.Analisis Relevansi Menghitung info yang diharapkan yang diperlukan untuk mengklasifikasikan suatu sample yang diberikan jika S dipartisi berdasarkan atribut major Jumlah grad students dalam “Science” Jumlah undergrad students dalam “Science”

33 Edward PurbaKonsep Deskripsi 32/90 Contoh: Karakterisasi Analitis Menghitung perolehan informasi untuk masing- masing atribut –Information gain untuk seluruh atribut

34 Edward PurbaKonsep Deskripsi 33/90 Contoh: Karakterisasi Analitis 4.Initial working relation (W 0 ) derivation –R = 0.1 –Buang atribut yang tak relevan / relevan tapi lemah dari kandidat relasi => buang gender, birth_country –remove contrasting class candidate relation 5.Melakukan induksi berorientasi atribut atas W 0 menggunakan T i

35 Edward PurbaKonsep Deskripsi 34/90 Komparasi Kelas Mining Komparasi: membandingkan dua atau lebih kelas Metoda: – Partisi himpunan data relevan kedalam kelas target dan kelas kontrasnya – Generalisasi kedua kelas ke level tinggi konsep yang sama – Membandingkan tuple dengan deskripsi level tinggi yang sama – Memberikan setiap tuple deskripsinya dan 2 ukuran: support – distribusi didalam kelas tunggal komparasi – distribusi antara kelas – Menonjolkan tuple dengan fitur deskriminan yang kuat Analisis Relevansi: – Tentukan atribut (fitur) yang terbaik membedakan kelas-kelas berbeda

36 Edward PurbaKonsep Deskripsi 35/90 Contoh: Komparasi Analitis Diberikan –Atribut-atribut name, gender, major, birth_place, birth_date, residence, phone# dan gpa –Gen(a i ) = konsep hierarki atas atribut-atribut a i –U i = ambang analitis atribut untuk atribut a i –T i = ambang generalisasi atribut untuk atribut a i –R = ambang relevan atribut

37 Edward PurbaKonsep Deskripsi 36/90 Contoh: Komparasi Analitis 1.Koleksi data –Kelas target dan kontrasnya 2.Analisis relevan atribut –Membuang atribut name, gender, major, phone# 3.Sinkronisasi generalisasi –Dikontrol oleh ambang dimensi yang diberikan user –Relasi/cuboid kelas target utama dan kelas kontrasnya

38 Edward PurbaKonsep Deskripsi 37/90 Contoh: Komparasi Analitis Relasi utama yang digeneralisasi untuk kelas target: Graduate students Relasi utama yang digeneralisasi untuk kelas target: Undergraduate students

39 Edward PurbaKonsep Deskripsi 38/90 Contoh: Komparasi Analitis 4.Operasi OLAP drill down, roll up dan operasi lainnya atas kelas target dan kontras untuk menyesuaikan level abstraksi dari hasil deskripsi 5.Presentasi –Sebagai generalisasi relasi, crosstabs, bar charts, pie charts, atau kaidah-kaidah –Ukuran kontras untuk merefleksikan komparasi antara kelas target dan kelas kontrasnya Contoh count%

40 Edward PurbaKonsep Deskripsi 39/90Kaidah-Kaidah Diskriminan Kuantitatif Cj = kelas target q a = suatu tuple yang digeneralisasi mencakup beberapa tuple dari kelas –Tetapi juga mencakup beberapa tuple dari kelas kontras d-weight –range: [0, 1]

41 Edward PurbaKonsep Deskripsi 40/90Contoh:Kaidah Diskriminan Kuantitatif Jumlah distribusi antara graduate student dan undergraduate students untuk suatu tuple yang digeneralisasi

42 Edward PurbaKonsep Deskripsi 41/90 Contoh: Kaidah Deskripsi Kuantitatif Crosstab menunjukkan nilai-nilai t-weight, d-weight terkait dan jumlah total (dalam ribu) dari TV dan komputer yang terjual pada AllElectronics tahun 1998

43 Edward PurbaKonsep Deskripsi 42/90 Presentasi – Relasi Yang di Generalisasi

44 Edward PurbaKonsep Deskripsi 43/90 Presentasi – Crosstab

45 Edward PurbaKonsep Deskripsi 44/90 Karakteristik Penyembaran Data Mining Motivasi – Untuk memahami data lebih baik: tendensi sentral, variasi, dan sebaran Karakteristik penyebaran data – median, max, min, quantiles, outliers, variansi, dsb. Dimensi numerik berhubungan dengan interval terurut – Sebaran data: dianalisis dengan banyak granulariti dari presisi – Analisis Boxplot atau quantile pada interval terurut Analisis sebaran pada ukuran terhitung – Peliatan ukuran kedalam dimensi numerik – Analisis Boxplot atau quantile pada kubus hasi transformasi

46 Edward PurbaKonsep Deskripsi 45/90 Pengukuran Tendensi Sentral Mean – Aritmatika mean berpemberat Median: suatu ukuran menyeluruh – Nilai tengah jika jumlah nilai ganjil, atau rata-rata 2 nilai tengah jika jumlah nilai genap – Ditaksir dengan interpolasi Mode – Nilai yang muncul paling sering di dalam data – Unimodal, bimodal, trimodal – Rumus empiris:

47 Edward PurbaKonsep Deskripsi 46/90 Pengukuran Penyebaran Data Quartiles, outliers dan boxplots – Quartiles: Q 1 (25 th percentile), Q 3 (75 th percentile) – Inter-quartile range: IQR = Q 3 – Q 1 – Five number summary: min, Q 1, M, Q 3, max – Boxplot: Ujung-ujung dari kotak adalah quartiles, median ditandai, rambut jagung, dan mem-plot outlier secara individu – Outlier: biasanya, suatu nilai besar/kurang dari 1.5 x IQR Variansi dan deviasi standard – Variance s 2 : (komputasi aljabar dan skalabel) – Deviasi standard s adalah akar dari variansi s 2

48 Edward PurbaKonsep Deskripsi 47/90 Analisis BoxPlot 5 jumlah rangkuman dari suatu distribusi: Minimum, Q1, M, Q3, Maximum Boxplot –Data disajikan dengan suatu kotak –Ujung-ujung kotak adalah pada quartile pertama dan ketiga, artinya, tinggi kotak adalah IRQ –Median ditandai dengan suatu garis didalam kotak –Rambut jagung: dua garis diluar kotak diperbesar ke Minimum dan Maksimum

49 Edward PurbaKonsep Deskripsi 48/90 Visualisasi Data Dispersi: Analisis Boxplot

50 Edward PurbaKonsep Deskripsi 49/90 Ukuran Statistik Deskriptif Mining Dalam Database Besar Variansi Deviasi standard: akar kuadrat dari variansi –Mengukur sebaran disekitar mean –Nilainya nol jika dan hanya jika seluruh nilai adalah sama –Deviasi dan variansi adalah aljabar

51 Edward PurbaKonsep Deskripsi 50/90 Analisis Histogram Tampilan grafik dari deskripsi kelas statistik dasar –Histogram frekuensi Suatu metoda grafik univariat Memuat suatu himpunan persegi empat yang menggambarkan jumlah atau frekuensi kehadiran kelas dalam data

52 Edward PurbaKonsep Deskripsi 51/90 Plot Quantile Menampilkan seluruh data (memungkinkan user untuk mengakses perilaku keseluruhan dan kejadian yang tak biasa) Mem-plot informasi quantile –Untuk suatu data x i, data diurutkan dalam urutan menaik, f i menunjukkan bahwa hampir 100 f i % dari data dibawah atau sama dengan nilai x i

53 Edward PurbaKonsep Deskripsi 52/90 Plot Quantile-Quantile Grafik dari quantiles dari satu distribusi univariat terhadap quantile line yang terkait Memungkinkan user untuk melihat apakah ada suatu pergeseran dari satu distribusi ke yang lain

54 Edward PurbaKonsep Deskripsi 53/90 Plot Scatter (Hamburan) Menyediakan suatu tampilan awal pada data bivariat untuk melihat cluster dari titik-titik, outliers, dsb Setaiap pasangan nilai diperlakukan sebagai suatu pasangan dari koordinat dan diplot sebagai titik dalam bidang

55 Edward PurbaKonsep Deskripsi 54/90 Kurva Loess Menambahkan suatu kurva yang halus pada suatu plot hamburan dalam upaya menyediakan persepsi lebih baik dari pola kebergantungan Kurva Loess di cocokkan dengan mengatur 2 parameter: suatu parameter penghalusan, dan derejat polinomial yang dicocokkan dengan regresi

56 Edward PurbaKonsep Deskripsi 55/90 Tampilan Grafik Dari Deskripsi Statistik Dasar Histogram Boxplot Plot quantile: setiap nilai x i dipasangkan dengan f i yang menunjukkan bahwa hampir 100 f i % dari data adalah  x i Plot quantile-quantile (q-q): grafik dari quantiles dari sauatu distribusi univariant terhadap quatile lain yang terkait

57 Edward PurbaKonsep Deskripsi 56/90 Tampilan Grafik Dari Deskripsi Statistik Dasar Plot scatter: setiap pasangan nilai adalah suatu pasangan koordinat dan diplot sebagai titik didalam bidang Kurva Loess (regresi lokal): menambahkan suatu kurva halus pada suatu plot hamburan untuk menyediakan persepsi yang lebih baik dari pola kebergantungan


Download ppt "Edward PurbaKonsep Deskripsi 1/90 Konsep dan Teknik Data Mining."

Presentasi serupa


Iklan oleh Google