Tim Dosen Data Mining Fakultas Informatika

Slides:



Advertisements
Presentasi serupa
PENGERTIAN DAN PROSEDUR SYSTEMATIC RANDOM SAMPLING
Advertisements

 Definisi operasional dari prosedur ini adalah: memilih n buah angka berbeda dengan peluang pengambilan yang sama dari sebuah tabel yang berisikan.
POPULASI DAN SAMPEL.
Model Sistem Pengenalan Pola
Sampling.
….About Me…. Quotes: “ Do U see a star? It’s in your heart… That’s a hope.” Ika Yuni Wulansari, SST Lecturer June 2 nd, 1986
TOWARDS MULTIPLE IDENTITY DETECTION IN SOCIAL NETWORKS & RESEARCH METODOLOGY 3KS2 ERMA FITRIANA RANITA RIZKI APRILLIA.
Data Mining.
Pertemuan XIV FUNGSI MAYOR Assosiation. What Is Association Mining? Association rule mining: –Finding frequent patterns, associations, correlations, or.
Audit Command Language
Pengumpulan Dan Pengolahan Data
Clustering. Definition Clustering is “the process of organizing objects into groups whose members are similar in some way”. A cluster is therefore a collection.
BLACK BOX TESTING.
Association Rule (Apriori Algorithm)
Population and sample. Population is complete actual/theoretical collection of numerical values (scores) that are of interest to the researcher. Simbol.
Reduksi dimensi menggunakan PCA. 2 Dimensionality Reduction Satu pendekatan terkait dengan dimensi yang tinggi adalah mengurangi dimensi data tersebut.
DATA REDUCTION.
Pertemuan XIV FUNGSI MAYOR Assosiation. What Is Association Mining? Association rule mining: –Finding frequent patterns, associations, correlations, or.
Pengenalan Supervised dan Unsupervised Learning
Grafika Komputer dan Visualisasi Disusun oleh : Silvester Dian Handy Permana, S.T., M.T.I. Fakultas Telematika, Universitas Trilogi Pertemuan 15 : Kurva.
DATA MINING (Machine Learning)
PENGANTAR STATISTIKA MANAJEMEN
ANALISIS OUTLIER 1 Data Mining.
2. Data & Proses Datamining
ANALISIS ASOSIASI BAGIAN 2
STATISTIKA BISNIS BY : ERVI COFRIYANTI.
Pertemuan 7 : Latent Semantic Indexing
Pendahuluan Tujuan yang umum dan penting: mempelajari suatu kelompok besar (populasi) dengan cara melakukan pengujian data dari beberapa anggota kelompok.
TESTING DAN IMPLEMENTASI SISTEM (Pertemuan ke-13)
TESTING DAN IMPLEMENTASI SISTEM (Pertemuan ke-13)
Fakultas Informatika – Telkom University
UNIVERSITAS MERCU BUANA
PEMBUATAN POHON KEPUTUSAN
By Daniel Damaris Novarianto S.
Entity Relationship Model
Sampling dan Investigasi Hard Data
TEMU KEMBALI INFORMASI
VECTOR SPACE MODEL.
PENGUKURAN Pengukuran :pemberian “angka” terhadap fenomena dengan mengikuti aturan tertentu Proses pengukuran : investigasi mengenai ciri-ciri yang mendasari.
Entity Relationship Model
Laten Semantic Indexing
Image Enhancement –Spatial Filtering
Similarity/ Dissimilarity
Classification Supervised learning.
Teknik Sampling I Made Kardena Epidemiologi dan Ekonomi Veteriner
Semester Pendek FMIPA UGM 2005
TEXT OPERATION Muhammad Yusuf Teknik Multimedia dan Jaringan
Nilai Harapan dari Kombinasi Linier Peubah Acak
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
Semester Pendek FMIPA UGM 2005
Similarity Analisis.
EKSPLORASI DATA & DATA WAREHOUSE PERTEMUAN - 2 NOVIANDI
Self-Organizing Network Model (SOM) Pertemuan 10
Thresya Febrianti, M. Epid
Data dan Eksplorasi Data
Metode Data Mining “ Self-Organizing Map [SOM] ” Taskum Setiadi ADVANCE MACHINE LEARNING STMIK Nusa Mandiri Jakarta2016 ADVANCE MACHINE LEARNING.
KLASIFIKASI.
Data PreProcessing (Praproses Data)
Chapter 08 POPULASI DAN SAMPLING Konten: Definisi populasi
DATA PREPARATION Kompetensi
Model Boolean & Advanced Boolean
DATA PREPARATION.
IMPLEMENTASI ALGORITMA k-NN
Implementasi clustering K-MEANS (dengan IRIS dataset)
By : Rahmat Robi Waliyansyah, M.Kom
FEATURE SELECTION.
DECISION SUPPORT SYSTEM [MKB3493]
Universitas Gunadarma
Universitas Gunadarma
Transcript presentasi:

Tim Dosen Data Mining Fakultas Informatika DATA BAGIAN 2 Tim Dosen Data Mining Fakultas Informatika

Pokok Bahasan Apa Preprocessing Data Agregasi Sampling 2 Apa Preprocessing Data Agregasi Sampling Pengurangan dimensi Feature subset selection Feature creation Diskretisasi dan Binerisasi Transformasi atribut Pengukuran Similaritas & Dissimilaritas Euclidean distance Minkowski distance Mahalanobis Distance Simple Matching Jaccard Coefficients Cosine Tanimoto Korelasi

Definisi Data Preprocessing 3 Adalah strategi dan teknik yang saling berkaitan untuk membuat data lebih mudah/cocok untuk digunakan pada data mining Tujuannya : meningkatkan hasil analisis data mining terkait masalah waktu, cost dan kualitas

Kategori Data Preprocessing Bisa dibedakan menjadi 2: Pemilihan berdasarkan objek data (record) untuk menganalisis atau creating/changing atribut Contoh : Agregasi, sampling Pemilihan atribut untuk menganalisis atau creating/changing atribut Contoh: Pengurangan Dimensi, feature subset selection

Agregasi 5 Menkombinasikan dua atau lebih atribut (atau objek ) menjadi satu atribut (atau objek) Tujuannya Pengurangan data baik secara jumlah atribut atau objek Merubah skala misalkan penggabungan atribut kota dengan atribut propinsi dan negara Mendapatkan data yang lebih “stabil” karena bisa didapatkan data dengan variabilitas yang kecil

Sampling 6 Merupakan teknik utama utnuk memilih data dan biasanya digunakan untuk investigasi data dan analisis data akhir Sampling di statistik ≠sampling di data mining Jika di statistik berkaitan dengan mahalnya atau lamanya pengumpulan keseluruhan data, jika di data mining data keseluruhan ada namun untuk memproses keseluruhan akan terlalu lama

Sampling … Prinsip utama sampling yang efektif adalah: 7 Prinsip utama sampling yang efektif adalah: Ouput dengan penggunaan sampel sama bagusnya dengan penggunaan data keseluruhan  berarti data sampel sudah representatif Sampel sudah representatif jika memiliki properti yang mirip (dari segi interest) seperti data asli

Tipe-tipe Sampling Simple Random Sampling Sampling without replacement 8 Simple Random Sampling Setiap item memiliki probabilitas yang sama untuk dipilih Sampling without replacement Setiap item yang terpilih akan dikeluarkan dari populasi Sampling with replacement Setiap item yang terpilih tidak dikeluarkan dari populasi, bisa saja terpilih lebih dari satu kali Stratified sampling Data displit menjadi beberapa bagian; lalu diambil sampel secara acak dari tiap bagian

Ukuran Sampel Ukuran sampel penting untuk ditentukan Jika semakin besar jumlah sampel maka peluang sampel tersebut representatif akan besar, namun keuntungan sampling tidak didapat secara optimal Jika semakin kecil sampel kemungkinan pola tidak didapat kan atau kalaupun didapat pola tsb salah Solusinya?? Adaptive/ progressive sampling  Dimulai dari sampel kecil sampai sejumlah sampel yang sudah memadai

Ukuran Sampel 10 8000 points 2000 Points 500 Points

Adaptive/ progressive sampling 11 10 Group Points Probabilitas sampel yang mengandung points dari tiap Group

Pengurangan Dimensi Kenapa harus? Karena data set bisa saja memiliki jumlah features yang sangat banyak (contohnya: data dokumen dengan term sebagi vektor feature-nya) Menghindari Curse of Dimensionality (yakni fenomena di mana analisis data menjadi sangat sulit disebabkan pertambahan dimensi data, data menjadi tersebar /sparse Rmengurangi penggunaan memori dan waktu yang dibutuhkan oleh algortima data mining Memudahkan visualisasi data Membantu pengeliminiran data yang tidak relevan atau noise

Teknik Pengurangan Dimensi 13 Principle Component Analysis (PCA) Singular Value Decomposition Lainnya: supervised dan teknik non-linear

Principle Component Analysis (PCA) 14 Tujuannya untuk mencari projeksi yang menggambarkan variasi terbesar dalam data Teknik aljabar linier untuk atribut kontinu yang dapat menemukan atribut baru (principal component)

Pengurangan Dimensi: ISOMAP 15 By: Tenenbaum, de Silva, Langford (2000) Membangun graf neighbourhood Untuk tiap pasang points pada graf, hitung jarak terpendek– jarak geodesic

Feature Subset Selection 16 Untuk pengurangan dimensi data Redundant features duplicate much or all of the information contained in one or more other attributes Example: purchase price of a product and the amount of sales tax paid Irrelevant features contain no information that is useful for the data mining task at hand Example: students' ID is often irrelevant to the task of predicting students' GPA

Teknik-teknik Feature Subset Selection 17 Pendekatan Brute-force : Mencari semua kemungkinan subsets feature sebagai input algortima data mining Pendekatan Embedded : Feature selection dilakukan sebagai bagina dari algoritma data mining Pendekatan Filter : Feature dipilih sebelum algoritma data mining dijalankan Pendekatan Wrapper : Penggunaan algoritma data mining sebagai black box untuk menemukan best subset dari atribut

Feature Creation 18 Pembuatan atribut baru yang menggambarkan informasi penting pada dataset secara lebih efisien dibanding atribut asal Ada 3 Metodologi umum : Ekstraksi feature domain-specific Mapping Data ke New Space Konstruksi Feature kombinasi features

Mapping Data ke New Space 19 Transformasi Fourier Transformasi Wavelet Two Sine Waves Two Sine Waves + Noise Frequency

Diskretisasi Beberapa teknik tidak menggunakan label kelas 20 Beberapa teknik tidak menggunakan label kelas Data Equal interval width Equal frequency Clustering

Diskretisasi Beberapa teknik menggunakan label kelas 21 Beberapa teknik menggunakan label kelas Entropy based approach 3 categories for both x and y 5 categories for both x and y

Transformasi Atribut 22 Merupakan fungsi yang memetakan keseluruhan nilai atibut ke nilai baru dan setiap nilai lama dapat diidentifikasi dengan satu nilai baru Fungsi sederhana: xk, log(x), ex, |x| Standarisasi dan Normaliasi

Similaritas dan Disimilaritas Pengukuran numerik untuk kemiripan dua objek Semakin tinggi semakin mirip range antara [0,1] Disimilaritas Pengukuran numerik untuk perbedaan dua objek Semakin tinggi semakin berbeda Minimum dissimilaritas = 0 Upper limit varies Untuk ukuran similaritas & dissimilaritas bisa menggunakan jarak (distance)

Similaritas /Disimilaritas untuk Atribut Sederhana Misalkan p dan q adalah nilai atribut untuk 2 objek data.

Teknik-teknik pengukuran jarak Euclidean Distance Minkowski distance Mahalanobis Distance

Contoh perhitungan Euclidean Distance Distance Matrix

Contoh perhitungan Minkowski Distance Distance Matrix

Contoh perhitungan Mahalanobis Distance Covariance Matrix: C A: (0.5, 0.5) B: (0, 1) C: (1.5, 1.5) Mahal(A,B) = 5 Mahal(A,C) = 4 B A

Similaritas untuk data Binary Disebut juga similarity coeficients Nilai antara [0,1] Simple Matching dan Jaccard Coefficients Misalkan : M01 = jumlah atribut di mana p = 0 dan q =1 M10 = jumlah atribut di mana p = 1 and q = 0 M00 = jumlah atribut di mana p = 0 and q = 0 M11 = jumlah atribut di mana p = 1 and q = 1 SMC = number of matches / number of attributes = (M11 + M00) / (M01 + M10 + M11 + M00) J = number of 11 matches / number of not-both-zero attributes values = (M11) / (M01 + M10 + M11)

Contoh SMC Vs Jaccard p = 1 0 0 0 0 0 0 0 0 0 q = 0 0 0 0 0 0 1 0 0 1 M01 = 2 (jumlah atribut di mana p = 0 dan q =1) M10 = 1 (jumlah atribut di mana p =1 dan q = 0) M00 = 7 (jumlah atribut di mana p =0 dan q = 0) M11 = 0 (jumlah atribut di mana p = 1 dan q = 1) SMC = (M11 + M00)/(M01 + M10 + M11 + M00) = (0+7) / (2+1+0+7) = 0.7 J = (M11) / (M01 + M10 + M11) = 0 / (2 + 1 + 0) = 0

Cosine Similarity Jika d1 dan d2 adalah dua vektor dokumen, maka cos( d1, d2 ) = (d1  d2) / ||d1|| ||d2|| , Keterangan  adalah vector dot product dan || d || adalah panjang vector d. Contoh: d1 = 3 2 0 5 0 0 0 2 0 0 d2 = 1 0 0 0 0 0 0 1 0 2 d1  d2= 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5 ||d1|| = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5 = (42) 0.5 = 6.481 ||d2|| = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6) 0.5 = 2.245 cos( d1, d2 ) = .3150

Extended Jaccard Coefficient (Tanimoto) Merupakan varian dari Jaccard untuk atribut kontinu atau count attributes

Korelasi Pengukuran korelasi hubungan linier antara objek-objek Untuk perhitungan korelasi, data objek distandarkan p & q, lalu dilakukan dot product

34 Hatur Nuhun