Deteksi Spatial Outliers pada Data hasil PILKADA Kota Bogor Berdasarkan TPS Oleh : Ade Trisetyo G64051366 Pembimbing : Hari Agung Adrianto S.Kom, M.Si Departemen Ilmu Komputer Institut Pertanian Bogor
Spatial Outlier Detection Latar Belakang Outlier ?? Spatial Outlier Detection Spatial Non-spatial
Tujuan Mendeteksi TPS di Kecamatan Bogor Tengah yang menjadi spatial outlier dengan menggunakan algoritme iterative ratio dan iterative z-value.
Ruang Lingkup Data sekunder hasil Pilkada Kecamatan Bogor Tengah tahun 2008 Algoritme iterative ratio dan iterative z-value
Tinjauan Pustaka
Spatial Data Mining Spatial data mining mengacu pada ekstraksi pengetahuan, hubungan spasial, atau pola menarik lainnya yang tidak secara eksplisit tersimpan pada basis data spasial. Shekhar et al. 2003
Spatial Outlier Detection Objek yang tereferensi secara spasial dimana atribut non-spasialnya relatif berbeda dengan lingkungannya walaupun tidak terlalu signifikan Global Outlier Spatial Outlier Lu et al. 2003
Spatial Outlier Detection (lanjutan..) B A A A A B A A A A
Spatial Outlier Detection (lanjutan..) Menurut Chang Tien Lu, algoritme iterative ratio dan iterative z-value dapat mengurangi kemungkinan terjadinya kesalahan deteksi. Spatial Outlier Moran Scatterplot
Algoritme Deteksi Spatial Outlier Algoritme yang digunakan adalah algoritme iterative ratio dan iterative z-value. Beberapa variabel yang digunakan adalah: xi adalah titik spasial. k(xi) adalah k nearest neighbors terhadap titik x. f(x) adalah fungsi yang merepresentasikan nilai atribut dari xi. g(x) adalah fungsi yang memetakan X ke R (bilangan riil). h(x) adalah fungsi yang digunakan untuk membandingkan g dan f.
Algoritme Iterative Ratio Untuk setiap titik spasial xi, hitung k nearest neighbors set NNk(xi) dan fungsi neighborhood g(xi). x3 x2 3 x4 4 x5 x6 5 k=4 x8 x9 x7 5 5 Set NNk(xi) 6 x6 x5 5 x3 x1 4 x4 x2 2 5 4 3 Menghitung rataan g(x3) = (x2+x4+x5+x6)/k = (3+4+4+5)/4 = 4
Algoritme Iterative Ratio Hitung hi Threshold θ Bandingkan xi h(xi) x1 h1 x2 h2 … xn hn xq sebagai Spatial Outlier Jika hq ≥ θ hq Max
Algoritme Iterative Ratio > thres Untuk setiap titik xi dimana data set kNN-nya mengandung xq Hitung kembali g(xi) dan hi Ubah f(xq) menjadi g(xq) Periksa kondisi threshold < thres xi f(xi) g(xi) x1 a q xq b r … xn c s xi k=1 k=2 k=3 x1 x2 xq x4 x3 x5 Iterasi berhenti r
algoritme Iterative z-value Untuk setiap titik spasial xi, hitung k nearest neighbors set NNk(xi) dan fungsi neighborhood g(xi). x3 x2 3 x4 4 x5 x6 5 k=4 x8 x9 x7 5 5 Set NNk(xi) 6 x6 x5 5 x3 x1 4 x4 x2 2 5 4 3 Menghitung rataan g(x3) = (x2+x4+x5+x6)/k = (3+4+4+5)/4 = 4
Algoritme Iterative z-value y1 y2 .. yn Hitung hi hi = h(xi) = f(xi) – g(xi) Max Jika xq ≥ θ Nilai absolut i=1,2,…,n h1 h2 .. hn xq sebagai Spatial Outlier yq Bandingkan Standar deviasi (σ) Rataan (µ) Threshold θ
Algoritme Iterative z-value > thres Untuk setiap titik xi dimana data set kNN-nya mengandung xq Hitung kembali g(xi), hi, dan yi Ubah f(xq) menjadi g(xq) Periksa kondisi threshold < thres Iterasi berhenti
Metodologi Penelitian
Tahapan
Pengadaan Data Data hasil Pilkada Kota Bogor diperoleh dari KPUD Kota Bogor. Karena penelitian ini difokuskan pada kecamatan Bogor Tengah, maka pengadaan data dilanjutkan dengan meminta data pada PPS Bogor Tengah.
Praproses Data Pembersihan data Transformasi data
Penggabungan Data Data Hasil PILKADA (non-spatial) Peta Kota Bogor
Pendugaan Spatial Outlier Equal Interval Proses pembagian nilai menjadi beberapa kelas dengan interval yang sama untuk setiap kelas. Natural Breaks Proses pembagian nilai ke dalam kelas-kelas dengan menggunakan algoritme Jenk’s Optimization
Membentuk List kNN Memudahkan proses analisis pada algoritme iterative ratio dan z-value Berisi k-NN dari setiap titik yang dibentuk dalam bentuk tabel xi k1 k2 k3 1 3 4 2 5 6
Analisis Spatial Oultier Algoritme Iterative Ratio Algoritme Iterative z-value
algoritme iterative ratio Visualisasi algoritme iterative ratio Visualisasi algoritme iterative z
Hasil dan Pembahasan
Data hasil Pilkada Bogor Tengah 2008 (data non spasial) Pengadaan data Data hasil Pilkada Bogor Tengah 2008 (data non spasial) Kecamatan Bogor Tengah memiliki TPS sebanyak 189. Terdapat 5 kandidat pasangan walikota dan wakilnya. Peta(data spasial) Peta yang tersedia yaitu peta Jabar 1996
Praproses Pembersihan data Banyaknya TPS yang terdapat pada peta lokasi TPS berbeda dengan banyaknya TPS pada data hasil Pilkada. Jumlah TPS yang digunakan pada penelitian ini adalah jumlah TPS yang ada pada data hasil Pilkada. Transformasi data Jumlah hasil pemilihan persentase hasil pemilihan Menambah atribut ID_TPS dan ID_OBJ Memisahkan data untuk setiap kandidat yang kemudian setiap kandidat diberi simbol
Praproses (lanjutan..) Tabel Kandidat Pasangan Walikota dan wakilnya Simbol Nama A H. Syafei Bratasendjada Drs H. Akik Darul Tahkik B Ki Gendeng Pamungkas KH. Drs Ahmad Chusairi,MM, MA. C Dra. Iis Supriatini, M.Pd. dan dr.H. Ahani Sp.PD D H. Dody Rosadi, M.Eng H. Erik Irawan Suganda, MA. E Drs. H. Diani Budiarto, M.Si. Drh. Achmad Ru’yat, M.Si
Pendugaan Spatial Outlier Langkah ini dilakukan untuk menduga apakah ada suatu outlier atau tidak. Metode yang digunakan adalah : Equal Interval Natural Breaks
Pendugaan Spatial Outlier ID_OBJ ID_TPS Persentase 44 T05 0.012 … 78 CB03 0.34 5 B02 0.364 76 CB05 0.382 Equal Interval ID_TPS=B02 Spatial Outlier B02
Pendugaan Spatial Outlier ID_OBJ ID_TPS Persentase 44 T05 0.012 … 6 B01 0.295 5 B02 0.364 76 CB05 0.382 Natural Breaks Spatial Outlier ID_TPS=B02 ID_TPS=B01 B02 B01
List kNN Implementasi dari algoritme k-NN adalah sebagai berikut : Menentukan nilai k Nilai k ditentukan dengan menghitung nilai rata-rata dari jumlah TPS di setiap kelurahan. Nilai rata-rata yang diperoleh adalah 18,1 yang dibulatkan menjadi 19. Menghitung jarak setiap titik TPS Tabel Matriks Jarak X 1 2 …. 189 81.633 1829 81.63 1880.2 … .... …….
List kNN Kelompokkan setiap titik dengan k nilai terdekat Tabel List kNN TPS set NNk(xi) 1 2 18 3 21 22 17 4 9 19 5 24 20 23 7 10 6 11 33 40 14 13 8 34 41 35 36 37 49 50 51 16 48 46 52 15 12 … 188 187 183 184 180 185 186 178 181 189 179 175 182 156 176 157 177 174 158 163 160
algoritme Iterative Ratio Threshold h(xi) normalisasi Nilai lebih dari 3 memiliki makna bahwa jumlah outlier sebanyak kurang lebih 2%-5% dari data h invers z=3
algoritme Iterative Ratio Tabel Threshold Untuk Setiap Kandidat Kandidat Threshold A 3.067 B 2.648 C 2.671 D 2.9 E 1.454
algoritme Iterative Ratio Kandidat A Kandidat C Kandidat E Kandidat D Kandidat B ID_OBJ ID_TPS 119 KK16 54 S05 135 PL04 50 S03 ID_OBJ ID_TPS 35 T17 83 CW18 ID_TPS ID_OBJ - ID_OBJ ID_TPS 137 PL06 5 B02 159 G12 6 B01 ID_OBJ ID_TPS 167 G03 9 B03
algoritme Iterative z-value Threshold yi Nilai lebih dari 3 memiliki makna bahwa jumlah outlier sebanyak kurang lebih 2%-5% dari data y z=3
algoritme Iterative z-value Kandidat A Kandidat B Kandidat C ID_OBJ ID_TPS 54 S05 50 S03 135 PL04 119 KK16 55 S04 24 T10 90 CW09 ID_OBJ ID_TPS 30 T21 26 T06 28 T02 43 T03 29 T01 9 B03 33 T22 ID_OBJ ID_TPS 35 T17 83 CW18 133 PL02 21 T26
algoritme Iterative z-value Kandidat D Kandidat E ID_OBJ ID_TPS 137 PL06 159 G12 5 B02 76 CB05 6 B01 60 S08 78 CB03 80 CB01 81 CW16 79 CB02 125 PN04 140 PL07 95 CW05 ID_OBJ ID_TPS 54 S05
Spatial Outlier Kandidat A Kandidat C Kandidat D Kandidat E Kandidat B Ratio Z-value 119 54 50 135 55 24 90 Ratio Z-value 35 83 133 21 Ratio Z-value 137 5 159 6 76 60 78 80 81 79 Ratio Z-value - 54 Ratio Z-value 167 30 9 26 28 43 29 33
Visualisasi Kandidat A Z-value
Visualisasi Kandidat B
Visualisasi Kandidat C
Visualisasi Kandidat D
Visualisasi Kandidat E
Kesimpulan dan Saran
Kesimpulan Hasil titik yang terdeteksi menggunakan algoritme Iterative Ratio dan Iterative z-value memiliki perbedaan dalam jumlah spatial outlier yang terdeteksi. Meskipun demikian, ID_OBJ yang terdeteksi memiliki kesamaan, kecuali pada TPS E. Algoritme Iterative Ratio dan Iterative z-value dapat mengurangi kesalahan dalam mendeteksi spatial outlier seperti yang dilakukan pada algoritme sebelumnya seperti Morran Scatterplot.
Saran Dilakukan analisis lebih lanjut dalam menentukan nilai k agar hasil pendeteksian lebih optimal.
Terima Kasih
Langkah pertama Untuk setiap xi f(x) Peta xi Kelurahan f(xi) x Y 700010 9271060 B14 1 699968 9271130 B05 2 699913 9271076 B15 3 … 699589 9269404 BP12 188 699348 9269355 BP20 189 xi Kelurahan x y 700010 9271060 B14 699968 9271130 B05 699913 9271076 B15 … Data set spatial X={x1, x2,…,xn}