Analisis Outlier.

Slides:

Advertisements

Presentasi serupa

DESKRIPSI DATA Pokok bahasan ke-4.

Advertisements

STATISTIKA DESKRIPTIF

Pertemuan II SEBARAN PEUBAH ACAK

UKURAN-UKURAN STATISTIK

Teknik penarikan sampel

Kesimpulan BUKU Data Mining

Variabilitas Azimmatul Ihwah.

8 Statistik Selang untuk Sampel Tunggal.

ANALISIS REGRESI (REGRESSION ANALYSIS)

Interval Prediksi 1. Digunakan untuk melakukan estimasi nilai X secara individu 2. Tidak digunakan untuk melakukan estimasi parameter populasi yang tidak.

TINJAUAN UMUM DATA DAN STATISTIKA

BAHAN AJAR STATISTIKA ELEMENTER MAA 306

SUPLEMENT SURVEI CONTOH

Fadjar Shadiq, M.App.Sc Widyaiswara PPPPTK Matematika

Menentukan Perilaku Biaya

10 Uji Hipotesis untuk Dua Sampel.

UJI HOMOGENITAS DATA SATU VARIABEL UJI T DAN ANOVA

Sumber : Eduardus Tandelilin

Induksi Matematika.

STATISTIKA OLEH : SURATNO, S.Pd SMAN 1 KALIWUNGU Kelas XI IPS

Oleh Widiyastuti,S.Pd, M.Eng SMA N 3 BOYOLALI

UKURAN PENYEBARAN DATA

Induksi Matematik TIN2204 Struktur Diskrit.

BAB-4 UKURAN DESKRIPTIF VARIABEL NUMERIK By M. YAHYA AHMAD

Ukuran Pemusatan dan Ukuran Penyebaran

DESKRIPSI DATA Pertemuan 9 1. Pendahuluan : Sering digunakan peneliti, khususnya dalam memperhatikan perilaku data dan penentuan dugaan-dugaan yang selanjutnya.

EXPLORE. Nama variabelTipeLabelKeterangan Prestasinumerik1=sangat baik 2=baik 3=cukup baik 4=jelek 5=sangat jelek Ukuran prestasi untuk seorang karyawan.

TINJAUAN UMUM DATA DAN STATISTIKA

Metode Pengumpulan Data (Sampling) Andang Fazri

BAB VII ANALISIS KORELASI DAN REGRESI LINIER SEDERHANA

Turunan Numerik Bahan Kuliah IF4058 Topik Khusus Informatika I

Pertemuan 1 PRAKTIKUM STATISTIKA. Definisi Statistik dan Statistika Statistik adalah kumpulan data dalam bentuk angka maupun bukan angka yang disusun.

BAB II ANALISA DATA.

STATISKA Adlina Zhafarina Dea Aninditha Imadina Nur S Raihana Maynisa

TINJAUAN UMUM DATA DAN STATISTIKA

Modul 6 : Estimasi dan Uji Hipotesis

Ekonometrika Metode-metode statistik yang telah disesuaikan untuk masalah-maslah ekonomi. Kombinasi antara teori ekonomi dan statistik ekonomi.

1 OOAD Classes. 2 Diagram Kelas Diagram kelas digunakan untuk: Memodelkan vocabulary sistem: menggambarkan abstraksi-abstraksi yang terdapat pada sistem.

STATISTIK NONPARAMETRIK Kuliah 10: Uji k-Sampel Berhubungan: Uji Friedman Dosen: Dr. Hamonangan Ritonga, MSc Sekolah Tinggi Ilmu Statistik Jakarta.

Algoritma Pergantian Halaman

4 Peubah Acak Kontinyu dan Sebaran Peluangnya

SAMPLING DAN DISTRIBUSI SAMPLING

PENDEKATAN KETRAMPILAN PROSES DALAM PEMBELAJARAN IPA

Clustering Lecture Note Pengantar Data Mining 2006 Sumber : ngExample.htm

1 Pendahuluan Ir. Waniwatining Astuti, M.T.I Muhammad Rachmadi, S.T., M.T.I.

Distribusi Sampling Tujuan Pembelajaran :

DESKRIPSI DATA (STATISTIKA DESKRIPTIF)

BAB VI UKURAN VARIASI ATAU DISPERSI (Pengukuran Dispersi) (Pertemuan ke-8) Oleh: Andri Wijaya, S.Pd., S.Psi., M.T.I. Program Studi Sistem Informasi Sekolah.

Metode Statistika (STK211)

Fuzzy Clustering Logika Fuzzy Materi Kuliah Prodi Teknik Informatika

1 6 Statistika Deskriptif. © John Wiley & Sons, Inc. Applied Statistics and Probability for Engineers, by Montgomery and Runger. Ringkasan Numerik dari.

Fuzzy Clustering Materi Kuliah (Pertemuan 13 & 14) LOGIKA FUZZY

ANALISIS OUTLIER 1 Data Mining.

Sistem Berbasis Fuzzy Materi 4

STATISTIK1 Pertemuan 5: Ukuran Penyebaran Dosen Pengampu MK:

STATISTIK1 Pertemuan 3: Ukuran Pemusatan dan Penyebaran

Algoritma kNN (k-Nearest Neighbor)

K-Nearest Neighbor dan K-means

STATISTIK 1 Pertemuan 5,6: Ukuran Pemusatan dan Penyebaran

STATISTIKA OLEH : DHANU NUGROHO SUSANTO.

STATISTIK 1 Pertemuan 5,6: Ukuran Pemusatan dan Penyebaran

Drs. Indratmo Yudono, MSi

STATISTIKA Pertemuan 3: Ukuran Pemusatan dan Penyebaran

STATISTIKA Pertemuan 3: Ukuran Pemusatan dan Penyebaran

Analisis Klastering K-Means Model Datamining Kelompok 1 Eko Suryana

Algoritma kNN (k-Nearest Neighbor)

Statistika Deksriptif

Algoritma kNN (k-Nearest Neighbor)

Transcript presentasi:

Analisis Outlier

Definisi Outlier/anomali adalah sehimpunan data yang dianggap memiliki sifat yang berbeda dibandingkan dengan kebanyakan data lainnya Analisis outlier dikenal juga dengan analisis anomali atau deteksi anomali atau deteksi deviasi (nilai atributnya objek tsb, signifikan berbeda dengan nilai atribut objek lainnya ) atau exception mining

Manfaat Menggunakan Analisis Outlier Deteksi penyalahgunaan kartu kredit Deteksi adanya penyusupan pada jaringan komunikasi Analisis Medis Segmentasi data pelanggan dsb

Penyebab adanya Outlier Data berasal dari sumber yang berbeda Variasi natural data itu sendiri Error pada saat pengukuran atau pengumpulan data

Skema Analisis Outlier Bangun profil dari data “normal” Bisa berupa pola atau deskripsi statistik dari populasi data secara keseluruhan Gunakan profil tsb untuk mendeteksi anomali Data anomali memiliki karakteristik yang sangat berbeda dengan profil data normal

Pendekatan Analisis Outlier Pendekatan Grafis Model Based contoh : Statistical Approach Distance Based Data direpresentasikan dalam bentuk vektor contoh : Nearest Neighbor based, Density Based, Clustering Based Deviation Based

Pendekatan Grafis Misalkan dengan menggunakan Box Plot (1D), scatter plot (2 D) spin plot (3D)

Pendekatan Grafis contoh kasus outlier pada penjualan kue kering yang dikemas dalam kemasan toples Pada tahun 2011. Setiap bulan, rata-rata penjualan kue kering mencapai 300-400 toples. namun di bulan September, penjualan kue kering mencapai 704 toples.

Pendekatan Grafis

Pendekatan Grafis Untuk melihat apakah terdapat pencilan pada data, dapat dilakukan dengan memplot antara data dengan observasi ke-i ( i = 1, 2, 3, ..., n ). Dari contoh di atas terdapat salah satu data, yakni observasi data ke-9 yang mengindikasikan merupakan outlier. Selain melalui scatter-plot di atas, jika sudah didapatkan model regresi maka dapat dilakukan dengan cara memplot antara residual (e) dengan nilai prediksi Y . Jika terdapat satu atau beberapa data yang terletak jauh dari pola kumpulan data keseluruhan maka hal ini mengindikasikan adanya outlier. Kelemahan dari metode ini adalah keputusan bahwa suatu data merupakan outlier sangat bergantng pada judgement peneliti, karena hanya mengandalkan visualisasi grafis, untuk itu dibutuhkan seseorang yang ahli dan berpengalaman dalam menginterpretasikan plot grafis tersebut.

Kekurangan Pendekatan Grafis Memerlukan waktu yang sangat banyak Sangat subjektif dalam penentuan outlier

Pendekatan Statistik Asumsikan fungsi distribusi data yang dimiliki (mis Distribusi Normal, distribusi Poison, distribusi Gamma,dsb) Gunakan Uji Statistik yang bergantung pada : - Distribusi data - Parameter distribusi (mis: mean,median,variance) - Jumlah outlier yang dapat diterima (selang kepercayaan) *

Pendekatan Statistik Metode ini merupakan yang paling umum yakni dengan mempergunakan nilai kuartil dan jangkauan. Kuartil 1, 2, dan 3 akan membagi sebuah urutan data menjadi empat bagian. Jangkauan (IQR, Interquartile Range) didefinisikan sebagai selisih kuartil 1 terhadap kuartil 3, atau IQR = Q3 – Q1. Data-data pencilan dapat ditentukan yaitu nilai yang kurang dari 1.5*IQR terhadap kuartil 1 dan nilai yang lebih dari 1.5*IQR terhadap kuartil 3. Cara ini terbilang sangat sederhana untuk mengidentifikasi outlier dari data terhadap penjualan kue kering tersebut. Pertama kita tentukan rata-rata dan standar deviasi. Kemudian akan terbentuk threshold (rata-rata – 2 standar deviasi, rata-rata + 2 standar deviasi). Kemudian semua data yang berada diluar kisaran threshold, maka berpotensi untuk dianggap sebagai outlier. CS 4333 - Dami - Analisis Outlier *IMD*

Kelebihan & Kekurangan Pendekatan Statistik Jika pengetahuan data cukup (jenis distribusi data dan jenis uji yang diperlukan), maka pendekatan statistik akan sangat efektif Umumnya sulit menemukan fungsi distribusi dan jenis uji yang tepat untuk data Kebanyakan uji hanya cocok untuk single attribut Sulit untuk menentukan fungsi distribusi dan uji yang tepat untuk data berdimensi tinggi

Nearest-Neighbor Based Tentukan jarak dari tiap pasang titik (data) Sebuah titik dikatakan outlier jika (pilih salah satu ): - Banyaknya titik tetangga di sekitarnya lebih sedikit dari p dalam jarak D - Titik tsb merupakan top n titik yang jaraknya paling jauh dari k tetangga terdekatnya - Titik tsb merupakan top n titik rata-rata jaraknya paling besar dari k tetangga terdekatnya

Kelebihan & Kekurangan Nearest_Neighbor Approach Pendekatannya sederhana Untuk basis data yang besar, akan memakan biaya besar karena membutuhkan Sangat tergantung pada nilai parameter yang dipilih Tidak dapat menangani kasus himpunan data yang memiliki kepadatan berbeda pada daerah yang berbeda

Density Based Metode density-based tidak secara eksplisit mengklasifikasikan sebuah obyek adalah outlier atau bukan, akan tetapi lebih kepada pemberian nilai kepada obyek sebagai derajat kekuatan obyek tersebut dapat dikategorikan sebagai outlier. Ukuran derajat kekuatan ini adalah local outlier factor (LOF). Pendekatan untuk pencarian outlier ini hanya membutuhkan satu parameter yaitu MinPts, dimana MinPts adalah jumlah tetangga terdekat yang digunakan untuk mendefinisikan local neighborhood suatu obyek. MinPts diasumsikan sebagai jangkauan dari nilai MinPtsLB dan MinPtsUB. Nilai MinPtsLB dan MinPtsUB disarankan bernilai 10 dan 20. Akhirnya semua obyek dalam dataset dihitung nilai LOFnya. CS 4333 - Dami - Analisis Outlier *IMD*

Density Based Berdasarkan pendekatan density-based, outlier adalah titik yang berada pada daerah dengan kepadatan rendah (tidak padat) N(x,k) adalah himpunan yang berisi k tetangga terdekat x, y adalah tetangga terdekat dari x dan |N(x,k)| adalah banyaknya anggota himpunan N(x,k)

Density-based: LOF (Local Outlier Factor) approach Untuk setiap titik, hitunglah kepadatan lokal dengan average relative density Outlier adalah titik dengan nilai LOF (ard) terbesar p2  p1 Dengan pendekatan NN, p2 tidak akan dianggap sbg outlier, sedangkan dengan pendekatan LOF, p1 dan p2 akan dianggap sebagai outlier

Kelebihan & Kekurangan Density Based Dapat digunakan untuk data yang kepadatannya berbeda Namun pemilihan parameter juga menjadi satu penentu yang kuat dalam menentukan nilai kepadatan Tanpa LOF maka objek yang berada pada cluster yang berbeda dapat dianggap outlier juga

Clustering-Based Ide dasar: Klasterisasi data menjadi kelompok-kelompok yang kepadatannya berbeda-beda Pilih titik-titik yang berada pada klaster yang kecil sebagai kandidat outlier Hitung jarak antara titik-titik kandidat outlier dengan titik-titik yg berada pada klaster non-kandidat. Jika titik-titik kandidat terletak jauh dari semua titik-titik non kandidat, maka titik kandidat tsb adalah outlier

Kelebihan & Kekurangan Clustering Based Dapat menggunakan berbagai teknik clustering, sehingga proses deteksi outlier menjadi efisien Namun sangat bergantung pula pada pemilihan nilai parameter, mis pemilihan nilai k jika menggunakan algoritma K-Means Beberapa algoritma klastering hanya sesuai dengan tipe data tertentu

Deviation-Based Approach Mengidentifikasi outliers dengan menentukan karakteristik utama dari objek-objek dalam sebuah grup Objek yang memiliki “deviasi” dari deskripsi ini, akan dianggap sebagai outlier Teknik sequential exception Mensimulasikan cara manusia membedakan objek yang “berbeda” dari sederetan objek “normal” (perbandingan setahap demi setahap/bagian per bagian) Teknik OLAP data cube Menggunakan data cubes untuk mengidentifikasi daerah-daerah anomali pada data multidi mensional yang besar

Kasus Sebagai contoh kasus kali ini, saya mengambil contoh pada penjualan BBM jenis premium di SPBU. Misalnya, sebuah SPBU dalam satu bulan bisa menjual premium kurang lebih sebanyak 150.000 liter. Di sini saya akan perkecil menjadi satu minggu, di mana ada satu hari dalam seminggu tersebut ada penjualan yang lain dibandingkan hari-hari lainnya. Datanya bisa di lihat pada tabel di bawah ini.