ANALISIS OUTLIER 1 Data Mining.

Slides:



Advertisements
Presentasi serupa
PENGERTIAN DAN KONSEP DASAR
Advertisements

IDS (INTRUSION DETECTION SYSTEM)
TEKNIK PENGAMBILAN SAMPEL
Analisis Outlier.
Klastering dengan K-Means
Statistical Process Control using Support Vector Machines: A Case Study Stephanie Mayang P
Model Datamining Dr. Sri Kusumadewi, S.Si., MT. Materi Kuliah [10]:
Metode Penarikan Contoh I (Praktikum)
MODUL 1 Analisis & Informasi Proses Bisnis (CSA221)
DATA MINING 1.
Clustering Lecture Note Pengantar Data Mining 2006 Sumber : ngExample.htm
Tugas Pengendalian Mutu
Pemrosesan Teks Klasterisasi Dokumen Teknik Informatika STMIK GI MDP 2013 Shinta P.
SISTEM INFORMASI Pertemuan 5.
Statistika Inferensi : Estimasi Titik & Estimasi Interval
Fuzzy Clustering Logika Fuzzy Materi Kuliah Prodi Teknik Informatika
Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY
TEORI PENDUGAAN STATISTIK
TEORI PENDUGAAN STATISTIK
DATA MINING (Machine Learning)
Statistika Inferensi : Estimasi Titik & Estimasi Interval
Sistem Berbasis Fuzzy Materi 4
Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY
DISUSUN OLEH: SUHERTI ROFIQAH
PENAKSIRAN PARAMETER.
KECERDASAN BISNIS Data Warehouse, Data Mart, OLAP, dan Data Mining
STATISTIK1 Pertemuan 3-4: Ukuran Pemusatan Dosen Pengampu MK:
Data Warehouse, Data Mart, OLAP, dan Data Mining
STATISTIK1 Pertemuan 5: Ukuran Penyebaran Dosen Pengampu MK:
STATISTIK II Pertemuan 3: Metode Sampling dan Distribusi Sampling
Kuliah Sistem Fuzzy Pertemuan 7 “Fuzzy Clustering”
STATISTIK II Pertemuan 5: Interval Konfidensi Dosen Pengampu MK:
STATISTIK1 Pertemuan 3: Ukuran Pemusatan dan Penyebaran
Algoritma kNN (k-Nearest Neighbor)
KECERDASAN BISNIS (Data Warehouse, Data Mart, OLAP, dan Data Mining)
TEORI PENDUGAAN STATISTIK
K-Nearest Neighbor dan K-means
Analisis Tekstur.
Regresi Linier Sederhana dan Korelasi
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
STATISTIK 1 Pertemuan 5,6: Ukuran Pemusatan dan Penyebaran
STATISTIK 1 Pertemuan 5,6: Ukuran Pemusatan dan Penyebaran
DISTRIBUSI PELUANG Nugroho.
Estimasi.
STATISTIK II Pertemuan 5-6: Metode Sampling dan Interval Konfidensi
STATISTIKA Pertemuan 3: Ukuran Pemusatan dan Penyebaran
STATISTIKA Pertemuan 3: Ukuran Pemusatan dan Penyebaran
CLUSTERING.
Analisis Klastering K-Means Model Datamining Kelompok 1 Eko Suryana
Pengantar Statistik Juweti Charisma.
TEORI PENDUGAAN STATISTIK
Algoritma kNN (k-Nearest Neighbor)
Klasifikasi Nearest Neighbor
KLASIFIKASI.
Chapter 08 POPULASI DAN SAMPLING Konten: Definisi populasi
STATISTIK II Pertemuan 3: Metode Sampling dan Distribusi Sampling
Pengetahuan Data Mining
DISUSUN OLEH: SUHERTI ROFIQAH
TEORI PENDUGAAN SECARA STATISTIK
STATISTIKA 2 3. Pendugaan Parameter I OLEH: RISKAYANTO
CLUSTERING.
Definisi Populasi keseluruhan objek pengamatan yang menjadi perhatian. Populasi merupakan himpunan semesta. Penelitian yang melibatkan populasi sebagai.
Implementasi clustering K-MEANS (dengan IRIS dataset)
By : Rahmat Robi Waliyansyah, M.Kom
STATISTIK1 Pertemuan 3-4: Ukuran Pemusatan Dosen Pengampu MK:
DECISION SUPPORT SYSTEM [MKB3493]
TEORI PENDUGAAN STATISTIK
Intro Algoritma K-Nearest Neighbor (K- NN) adalah sebuah metode klasifikasi terhadap sekumpulan data maupun dokumen berdasarkan pembelajaran  data yang.
Distribusi Sampling Menik Dwi Kurniatie, S.Si., M.Biotech.
Algoritma kNN (k-Nearest Neighbor)
Transcript presentasi:

ANALISIS OUTLIER 1 Data Mining

DEFINISI Outlier/anomali adalah sehimpunan data yang dianggap memiliki sifat yang berbeda dibandingkan dengan kebanyakan data lainnya Analisis outlier dikenal juga dengan analisis anomali atau deteksi anomali atau deteksi deviasi (nilai atributnya objek tsb, signifikan berbeda dengan nilai atribut objek lainnya ) atau exception mining 2

MANFAAT MENGGUNAKAN ANALISIS OUTLIER Deteksi penyalahgunaan kartu kredit Deteksi adanya penyusupan pada jaringan komunikasi Analisis Medis Segmentasi data pelanggan dsb 3

PENYEBAB ADANYA OUTLIER Data berasal dari kelas yang berbeda Variasi natural data itu sendiri Error pada saat pengukuran atau pengumpulan data 4

SKEMA ANALISIS OUTLIER Bangun profil dari data “normal” Bisa berupa pola atau deskripsi statistik dari populasi data secara keseluruhan Gunakan profil tsb untuk mendeteksi anomali Data anomali memiliki karakteristik yang sangat berbeda dengan profil data normal 5

PENDEKATAN ANALISIS OUTLIER Pendekatan Grafis Model Based contoh : Statistical Approach Distance Based Data direpresentasikan dalam bentuk vektor contoh : Nearest Neighbor based, Density Based, Clustering Based Deviation Based 6

PENDEKATAN GRAFIS Misalkan dengan menggunakan Box Plot (1D), scatter plot (2 D) spin plot (3D) 7

KEKURANGAN PENDEKATAN GRAFIS Memerlukan waktu yang sangat banyak Sangat subjektif dalam penentuan outlier CS 4333 - Dami - Analisis Outlier *IMD* 8

PENDEKATAN STATISTIK Asumsikan fungsi distribusi data yang dimiliki (mis Distribusi Normal, distribusi Poison, distribusi Gamma,dsb) Gunakan Uji Statistik yang bergantung pada : - Distribusi data - Parameter distribusi (mis: mean,median,variance) - Jumlah outlier yang dapat diterima (selang kepercayaan) CS 4333 - Dami - Analisis Outlier *IMD* 9

KELEBIHAN & KEKURANGAN PENDEKATAN STATISTIK Jika pengetahuan data cukup (jenis distribusi data dan jenis uji yang diperlukan), maka pendekatan statistik akan sangat efektif Umumnya sulit menemukan fungsi distribusi dan jenis uji yang tepat untuk data Kebanyakan uji hanya cocok untuk single attribut Sulit untuk menentukan fungsi distribusi dan uji yang tepat untuk data berdimensi tinggi 10

NEAREST-NEIGHBOR BASED Tentukan jarak dari tiap pasang titik (data) Sebuah titik dikatakan outlier jika (pilih salah satu ): - Banyaknya titik tetangga di sekitarnya lebih sedikit dari p dalam jarak D - Titik tsb merupakan top n titik yang jaraknya paling jauh dari k tetangga terdekatnya - Titik tsb merupakan top n titik rata-rata jaraknya paling besar dari k tetangga terdekatnya 11

KELEBIHAN & KEKURANGAN NEAREST_NEIGHBOR APPROACH Pendekatannya sederhana Untuk basis data yang besar, akan memakan biaya besar karena membutuhkan Sangat tergantung pada nilai parameter yang dipilih Tidak dapat menangani kasus himpunan data yang memiliki kepadatan berbeda pada daerah yang berbeda 12

OUTLIERS PADA PROYEKSI DIMENSI RENDAH Pada ruang berdimensi tinggi, data menjadi jarang dan jarak menjadi tidak memberi “arti“, sehingga setiap titik bisa menjadi outlier jika digunakan definisi proximity-based Solusi : Metoda outlier pada Proyeksi pada Ruang yang berdimensi lebih rendah Sebuah titik merupakan outlier pada ruang berdimensi lebih rendah, jika dapat ditunjukkan ia berada pada lokasi yang kepadatannya rendah secara lokal 13

DENSITY BASED Berdasarkan pendekatan density-based, outlier adalah titik yang berada pada daerah dengan kepadatan rendah (tidak padat) N(x,k) adalah himpunan yang berisi k tetangga terdekat x, y adalah tetangga terdekat dari x dan |N(x,k)| adalah banyaknya anggota himpunan N(x,k) 14

DENSITY-BASED: LOF APPROACH Untuk setiap titik, hitunglah kepadatan lokal dengan average relative density Outlier adalah titik dengan nilai LOF (ard) terbesar p2  p1 Dengan pendekatan NN, p2 tidak akan dianggap sbg outlier, sedangkan dengan pendekatan LOF, p1 dan p2 akan dianggap sebagai outlier 15

KELEBIHAN & KEKURANGAN DENSITY BASED Dapat digunakan untuk data yang kepadatannya berbeda Namun pemilihan parameter juga menjadi satu penentu yang kuat dalam menentukan nilai kepadatan 16

CLUSTERING-BASED Ide dasar: Klasterisasi data menjadi kelompok-kelompok yang kepadatannya berbeda-beda Pilih titik-titik yang berada pada klaster yang kecil sebagai kandidat outlier Hitung jarak antara titik-titik kandidat outlier dengan titik-titik yg berada pada klaster non-kandidat. Jika titik-titik kandidat terletak jauh dari semua titik-titik non kandidat, maka titik kandidat tsb adalah outlier 17

KELEBIHAN & KEKURANGAN CLUSTERING BASED Dapat menggunakan berbagai teknik clustering, sehingga proses deteksi outlier menjadi efisien Namun sangat bergantung pula pada pemilihan nilai parameter, mis pemilihan nilai k jika menggunakan algoritma K-Means Beberapa algoritma klastering hanya sesuai dengan tipe data tertentu 18

DEVIATION-BASED APPROACH Mengidentifikasi outliers dengan menentukan karakteristik utama dari objek-objek dalam sebuah grup Objek yang memiliki “deviasi” dari deskripsi ini, akan dianggap sebagai outlier Teknik sequential exception Mensimulasikan cara manusia membedakan objek yang “berbeda” dari sederetan objek “normal” (perbandingan setahap demi setahap/bagian per bagian) Teknik OLAP data cube Menggunakan data cubes untuk mengidentifikasi daerah-daerah anomali pada data multidimensional yang besar 19