Oleh: Tri Endah Wijayanti G64104067 INCREMENTAL UPDATING PADA APLIKASI FUZZY TEMPORAL ASSOCIATION RULE UNTUK DATA TRANSAKSI Oleh: Tri Endah Wijayanti G64104067 PEMBIMBING: Imas S.Sitanggang, S.Si, M.Kom Annisa, S.Kom, M.Kom
PENDAHULUAN Melanjutkan dari penelitian sebelumnya yaitu “Handayani Retno Suminar” pada tahun 2007 dengan judul “Pengembangan Aplikasi Fuzzy Temporal Association Rule Mining”
informasi yang berguna LATAR BELAKANG Data Dampak teknologi waktu hasil Data baru analisis merupakan proses ekstraksi informasi atau pola dalam basis data yang berukuran besar (Han & Kamber 2006) data mining informasi yang berguna teknik Association Rules Mining untuk menemukan keterkaitan antaritem pada basis data
LATAR BELAKANG LANJ… pembelian barang pada waktu tertentu Fuzzy Calendar pembelian barang pada waktu tertentu Association rules mencari keterkaitan antaritem pada basis data baru setelah dilakukan incremental updating maka pada basis data tidak perlu diperiksa secara berulang-ulang (Lee & Lee 2004) Fuzzy Temporal Association Rules
TUJUAN PENELITIAN Menambahkan proses incremental updating pada aplikasi data mining yang telah dilakukan di penelitian sebelumnya (Handayani 2007) Membandingkan hasil yang diperoleh dan waktu eksekusi dari implementasi algoritme fuzzy temporal association rule tanpa adanya penambahan data dan dengan adanya penambahan data
RUANG LINGKUP PENELITIAN Menambahkan data transaksi berdasarkan tanggal yang sekuensial Data transaksi pembelian di Sinar Mart Swalayan selama 1 Maret – 21 Mei 2004 Perlakuan percobaan mengambil contoh dataset 50, 100, 150 transaksi dari data yang sama Pembentukan himpunan fuzzy menggunakan fuzzy calendar algebra dengan batasan 1 operator saja
MANFAAT PENELITIAN Diharapkan dapat memudahkan dalam penambahan data transaksi baru di waktu tertentu sehingga incremental updating dapat dilakukan tanpa melakukan pemrosesan data secara berulang-ulang akan menghasilkan keterkaitan antaritem yang akan digunakan dalam pengambilan keputusan
TINJAUAN PUSTAKA
Time varying information BASIS DATA TEMPORAL Time varying information Data / informasi yang nilainya tergantung dari waktunya (Jensen et al 1992) Basis data temporal Basis data yang menyimpan time-varying information (Jensen et al 1999)
ASSOCIATION RULE MINING Berguna untuk menemukan aturan asosiasi pada basis data, sehingga dapat membantu proses pengambilan keputusan (Han & Kamber 2006) Ukuran keakuratan (Larose 2005) Support proporsi banyaknya kejadian di basis data dimana item A dan item B terdapat di suatu transaksi Confidence persentase transaksi di basis data yang mengandung item A dan item B
FUZZY CALENDAR Teori himpunan fuzzy yang diadopsi untuk membangun kalendar Minggu Bulan Tahun Awal minggu Tengah minggu Akhir minggu Awal bulan Tengah bulan Akhir bulan Awal tahun Tengah tahun Akhir tahun
Operasi-operasi pada Fuzzy Calendar untuk Fuzzy Calendar A dan B FUZZY CALENDAR LANJ… Operasi-operasi pada Fuzzy Calendar untuk Fuzzy Calendar A dan B 1. Operasi AND 2. Operasi OR 3. Operasi NOT A 4. Operasi XOR 5. Operasi SUB
FUZZY CALENDAR LANJ… Fuzzy Calendar digunakan untuk menghitung bobot di tiap partisi Contoh: Fuzzy Calendar : Awal Minggu Or Awal Tahun Tanggal : 1 Maret 2004 Hari Ke 2 dalam minggu Bulan Ke 3 dalam tahun Awal Minggu (Senin, 2) = Beginning Of The Week Awal Tahun (Maret, 3) = Beginning Of The Year = (1 + 1) – (1 × 1) = 0
MINING FUZZY AR untuk menemukan semua association rule yang berasal dari fuzzy calendar yang telah didefinisikan sebelumnya Telah dilakukan pada penelitian sebelumnya (Handayani 2007) 1. Menentukan frequent itemset pada basis data tunggal Penambahan data transaksi baru pada basis data (incremental updating) 2. Update frequent itemset Persamaan yang digunakan untuk menghitung update frequent itemset sebagian menggunakan persamaan di penelitian sebelumnya
PERSAMAAN YANG DIGUNAKAN Partisi Pi, didefinisikan weighted count threshold, mi dari Pi Mencari cumulative weighted count threshold Mencari himpunan candidate 2-itemset, C2 Cumulative weighted count dari itemset (I), didefinisikan sebagai Mencari candidate 2-itemset di masing-masing partisi I akan disimpan menjadi C2, dimana adalah weighted count dari I. Ui(j-1) + I akan dihapus dari C2
INCREMENTAL UPDATING Suatu proses penambahan data transaksi baru pada basis data yang telah ada tanpa harus memeriksa secara berulang-ulang (Lee & Lee 2004) Update dilakukan untuk menentukan aturan asosiasi baru dengan cara menggunakan hasil dari mining sebelumnya Frequent itemset untuk data update (L’) adalah D’ = D + ∆+ ∆+ dibagi menjadi r partisi, sehingga perhitungan ∆+ menjadi n+1 ≤ i ≤ n+r Perhitungan ∆+ : persamaan di penelitian sebelumnya (Handayani 2007) Weighted count untuk data update : weighted count sebelumnya pada frequent itemset (L) dengan weighted count di penambahan data (∆+) dengan persamaan dimana
METODE PENELITIAN
PROSES DASAR SISTEM Praproses Data Meliputi pembersihan, transformasi dan seleksi data. Penelitian ini menggunakan data pada penelitian sebelumnya (Handayani 2007) Data mining Proses ini menggunakan fuzzy temporal association rule dengan penambahan data transaksi baru yang diajukan oleh Wan Jui Lee dan Shie Jue Lee (2004) Contoh : Data lama : pada tanggal 01 – 03 Maret 2004 (Senin – Rabu) Data baru : pada tanggal 01 – 02 April 2004 (Kamis – Jumat) Fuzzy Calendar : Awal bulan and Awal tahun Support & Confidence threshold : 20% & 75%
DATA MINING 4 5 Data baru (∆+) candidate 2 itemset baru (C2_baru) Membagi menjadi r partisi sehingga perhitungan dimulai n+1 ≤ i ≤ j ≤ n+r Menghitung bobot (wi) : operasi fuzzy calendar w4 = × = 1 × 0.67 = 0.67 w5 = × = 1 × 0.67 = 0.67 Menghitung threshold Weighted count threshold : m4 = 0.67 × 2 × 0.2 = 0.268 m5 = 0.67 × 3 × 0.2 = 0.4 Cumulative weighted count threshold : M 44 = m4 = 0.268 M45 = M44 + m5 = 0.268 + 0.4 = 0.668 M55 = m5 = 0.4 Mencari semua kombinasi 2 items dan menghitung bobot serta bobot kumulatif dari masing-masing kombinasi Bobot : Bobot kumulatif : 4 5
DATA MINING LANJ…. ? ≥ M2(5) ≥ 1.868 Membandingkan bobot dari masing-masing kombinasi dengan threshold di masing-masing partisi Ui(j-1) + >> C2_baru : 6080, 5080, 3040, 3060, 3070, 3080, 4060, 4070, 4080, 6070, 7080, dan 1070 Data lama : didapat cumulative weighted count ( ) di frequent itemset (L) Ya, Lolos sebagai C2_baru Tidak, tidak lolos sebagai C2_baru ? Ya, Lolos sebagai L_baru Tidak, tidak lolos sebagai L_baru L 3070 2 3028 6080 7080 3080 ≥ M2(5) L_baru = 3070, 3028, 6080, 7080, 3080 ≥ 1.868
DATA MINING LANJ… C’= C2’, C3’,…,Ck’ Menggabungkan C2_baru dengan L_baru berdasarkan weighted count antar keduanya -> candidate 2 itemsets terbaru (C2’ ) >> C2’ : 3028, 6080, 5080, 3040, 3060, 3070, 3080, 4060, 4070, 4080, 6070, 7080, dan 1070 Mencari candidate frequent itemset terbaru (C’) >> (C’) = 3028, 6080, 5080, 3040, 3060, 3070, 3080, 4060, 4070, 4080, 6070, 7080, 1070, 607080, 304060, 304070, dan 304080 C’= C2’, C3’,…,Ck’ Memeriksa basis data baru (D’) membandingkan frequent itemset terbaru (L’) >> L’= L2’,L3’,…,Lk’
DATA MINING LANJ… ≥ M2(5) L’ = 3028, 6080, 3070, 3080, 7080, 607080 (C’) Count C’ 3028 2 6080 4 5080 0.67 3040 3060 3070 2.67 3080 4060 4070 4080 6070 7080 1070 607080 304060 304070 304080 L’= L2’,L3’,…,Lk’ ≥ M2(5) L’ = 3028, 6080, 3070, 3080, 7080, 607080 ≥ 1.868 Diagram alir
DATA MINING LANJ… 28 -> 30 60 -> 80 3070 -> 80 3080 -> 70 Mencari kemungkinan aturan asosiasi terbaru berdasarkan L’ & hasil confidence dibandingkan dengan confidence threshold yang dimasukkan oleh pengguna >> L’ C% 28 -> 30 1 60 -> 80 3070 -> 80 0.75 3080 -> 70 ≥ confidence threshold pengguna (75%) 28 -> 30 60 -> 80 3070 -> 80 3080 -> 70 rule Representasi Pengetahuan Sederetan aturan asosiasi terbaru yang telah ditemukan diperlihatkan kepada pengguna
LINGKUNGAN PENGEMBANGAN SISTEM a. Perangkat keras pada komputer personal Processor: AMD Athlon 64, 3000+ Memory: 512 MB Harddisk 80 GB Keyboard, mouse, dan monitor b. Perangkat lunak yang digunakan: Sistem operasi: Microsoft® Windows XP Professional MATLAB 7.0.1 sebagai bahasa pemrograman Microsoft® Excel 2007 sebagai pengolah data
HASIL DAN PEMBAHASAN
PERCOBAAN PENELITIAN Penggunaan data lama Minggu keempat Maret untuk data 50, 100 dan 150 transaksi Penggunaan fuzzy calendar Awal minggu or awal tahun Penggunaan data baru minggu pertama April hingga minggu ketiga Mei minggu pertama Mei untuk data 50, 100 dan 150 transaksi Penggunaan support dan confidence threshold Support : 20%, 30% dan 40% Confidence : 65%, 70% dan 75% Pembahasan : Pembentukan frequent itemset Pembentukan aturan asosiasi Waktu eksekusi pembentukan aturan asosiasi
PENGGUNAAN DATA PERCOBAAN Jenis Data : 50 Transaksi Data lama : minggu ke-4 Maret 04 terdiri dari 7 hari (tgl : 22 – 29 Maret 04) & 246 record -> penelitian sebelumnya Data update : minggu ke-1 Mei 04 terdiri dari 7 hari (tgl : 27 April – 04 Mei) & 234 record -> ∆+ incremental updating Data gabung : minggu ke-4 Maret & ke-1 Mei 04 terdiri dari 14 hari & 280 record -> gabungan dari data lama & data update menggunakan pada penelitian sebelumnya
PEMBENTUKAN FREQUENT ITEMSET Jumlah frequent itemset Support threshold Data lama Data update Data gabung 50 Transaksi S=20% 7 4 6 S=30% 2 3 S=40% 1 100 Transaksi 5 150 Transaksi Mengalami penurunan frequent itemset kombinasi items yg dibeli jumlah transaksi pada data yg ditambahkan sehingga kemunculan jenis items semakin
FREQUENT ITEMSET Support threshold Data lama Data update Data gabung 50 Transaksi S=20% 7080, 3080, 3070, 6070, 6080, 1011, 8014 7080, 3080, 6080, 8014 7080, 3080, 3070, 1080, 6080, 8014 S=30% 7080, 3080 3080, 7080 7080, 3080, 8014 S=40% 7080 − Support threshold Data lama Data update Data gabung 100 Transaksi S=20% 1080, 3080, 3070, 7080, 8014, 6080, 307080 3080, 7080, 8014, 1080, 6080, 3070 1080, 3080, 7080, 8014, 6080 S=30% 3080, 7080 S=40% − Support threshold Data lama Data update Data gabung 150 Transaksi S=20% 1080, 3080, 7080 3080, 7080, 1080 1080, 3080, 7080, 8014 S=30% 7080 S=40% − Barang-barang yang sering dibeli yaitu barang dengan : ID 10 (mie) ID 11 (saus kecap) ID 14 (sabun) ID 30 (susu) ID 60 (permen) ID 70 (minuman) ID 80 (snack)
PEMBENTUKAN ATURAN ASOSIASI Support threshold 40% di setiap confidence threshold 65%, 70% dan 75% Jumlah aturan asosiasi Mengalami kenaikan aturan asosiasi S=40% Data lama Data update Data gabung 50 Transaksi c=65% 2 c=70% 1 c=75% 100 Transaksi 150 Transaksi Count untuk data update mengalami peningkatan jika dibandingkan dengan perhitungan count data gabung
WAKTU EKSEKUSI Waktu eksekusi untuk pembentukan aturan asosiasi didapat dari penjumlahan waktu eksekusi frequent itemset dan waktu eksekusi aturan asosiasi Percobaan dilakukan dengan 3 kali perulangan kemudian diambil rataannya threshold threshold threshold Waktu eksekusi (detik) 50 transaksi Waktu eksekusi (detik) 100 transaksi Waktu eksekusi (detik) 150 transaksi
WAKTU EKSEKUSI LANJ… Data update akan semakin cepat seiring dengan bertambahnya data transaksi jika dibandingkan dengan data lama Data gabung kurang efisien karena waktu eksekusi sangat lama Waktu eksekusi tercepat terjadi pada jenis data 50 transaksi dengan support dan confidence threshold tertinggi yaitu 40% dan 75% dengan waktu 5.573 detik Waktu eksekusi terlama terjadi pada jenis data 150 transaksi dengan support dan confidence threshold tertendah yaitu 20% dan 65% dengan waktu 63.88 detik
WAKTU EKSEKUSI LANJ… Peningkatan kecepatan dengan menggunakan proses incremental updating Support threshold Transaksi 20% 30% 40% 50 37.05% 9.63% 2.90% 100 37.76% 14.90% 6.08% 150 51.54% 16.99% 11.22% Semakin banyak jenis transaksi dan semakin tinggi penggunaan support dan confidence threshold akan semakin cepat pembentukan aturan asosiasi
REPRESENTASI PENGETAHUAN Aturan asosiasi support threshold tertinggi 40% disetiap confidence threshold 65%, 70% dan 75% dengan fuzzy calendar awal minggu or awal tahun Hanya 2 items, yaitu 70→80 dan 80→70 S=40% Data lama Data update Data gabung 50 Transaksi c=65% 70→80, 80→70 − c=70% 70→80 c=75% 100 Transaksi 30→80, 70→80 150 Transaksi Untuk support threshold 20% & 30% banyaknya aturan asosiasi untuk data update mengalami peningkatan jika dibandingkan dengan data lama maupun data gabung
REPRESENTASI PENGETAHUAN LANJ… “JIKA pembeli membeli barang dengan ID 70 (minuman) dengan fuzzy calendar awal minggu or awal tahun, MAKA dia juga akan membeli barang dengan ID 80 (snack)” Proporsi banyaknya kejadian dalam basis data di mana barang dengan ID 70 dan ID 80 dibeli secara bersamaan mencapai 40% dari jumlah transaksi Keakuratan dari aturan tersebut, yang dihitung dari persentase transaksi dalam basis data yang mengandung barang dengan ID 70 dan juga ID 80, mencapai 65%, 70% dan 75%
KESIMPULAN DAN SARAN
KESIMPULAN Dengan adanya penambahan proses incremental updating data bisa diperbaharui (update) tanpa melakukan pemrosesan data secara berulang-ulang Frequent itemset yang terbentuk dengan adanya penambahan data hanya menghasilkan 2 items untuk setiap support threshold (S) 20%, 30%, dan 40% di masing-masing jenis transaksi (50, 100, dan 150 transaksi) Jumlah aturan asosiasi yang terbentuk di setiap support threshold (S) 20%, 30% dan 40% dengan masing-masing confidence threshold (c) 65%, 70%, dan 75% untuk penambahan data mengalami kenaikan jika dibandingkan dengan tanpa adanya penambahan data
KESIMPULAN LANJ… Banyaknya aturan asosiasi yang terbentuk ditentukan oleh nilai support dan confidence threshold yang dimasukkan oleh pengguna. Semakin besar nilainya maka akan semakin sedikit dan semakin cepat hasil aturan asosiasi yang terbentuk (S %) dan (c%) tertinggi yaitu 40% dan 75% pada data 50 transaksi yaitu 5.573 detik sedangkan untuk (S %)dan (c%) terendah yaitu 20% dan 65% yaitu 63.88 detik Efisiensi terhadap waktu eksekusi agar dapat membentuk aturan asosiasi setelah terjadi penambahan data dengan menggunakan proses incremental updating lebih cepat hingga 37.05%, 37.76% dan 51.54% untuk jenis data 50, 100 dan 150 transaksi dengan support threshold 20% jika dibandingkan dengan proses yang tanpa incremental updating
SARAN Praproses data dapat dilakukan secara automatis, tidak dilakukan secara manual sehingga dapat mempercepat hasil yang terbentuk Penggunaan kombinasi operasi fuzzy calendar lebih dari satu operasi misalkan (awal bulan and akhir tahun) or (tengah minggu or akhir tahun)
DAFTAR PUSTAKA Cox E. 2004. Fuzzy Modeling and Genetic Algorithms for Data Mining and Exploration. Elseiver Inc. San Francisco, USA. Han J, Kamber M. 2006. Data Mining: Concepts and Techniques. San Diego, USA: Morgan-Kauffman. Larose DT. 2005. Discovering Knowledge in Data: An Introduction to Data Mining. New Jersey, USA: Wiley-Interscience. Lee WJ, Lee SJ. 2004. Discovery of Fuzzy Temporal Association Rules. IEEE Transactions On Systems, Man, and Cybernetics, Vol. 34, No. 6. Jensen, C. S., Cliford, J., Gadia, S. K., & R. T. Snodgrass. 1992. A Glossary of Temporal Database Concepts. http://citeseer.nj.nec.com [6 Oktober 2001]. Jensen, C. S. 1999. Temporal Database Management. http://www.cs.auc.dk/~csj/Thesis/TemporalDB [20 November 2001]. Suminar HR. 2007. Pengembangan Aplikasi Fuzzy Temporal Association Rule Mining (Studi Kasus : Data Transaksi Pasar Swalayan) [Skripsi]. Bogor: Departemen Ilmu Komputer, FMIPA, Institut Pertanian Bogor.
TERIMA KASIH
UKURAN KEAKURATAN Contoh : 1000 orang berbelanja pada Kamis malam membeli 200 orang diapers 50 orang membeli beer Aturan yang dihasilkan : “Jika membeli diapers, maka membeli beer” Support = 50/1000=5% Confidence = 50/200=25%
Banyaknya aturan asosiasi dengan support threshold (S) 20% dan 30% untuk dataset 50, 100, dan 150 taransaksi S=20% Data lama Data update Data gabung 50 Transaksi c=65% 5 3 c=70% 4 c=75% 100 Transaksi 150 Transaksi 2 6 1 S=30% Data lama Data update Data gabung 50 Transaksi c=65% 3 4 2 c=70% c=75% 100 Transaksi 150 Transaksi 1
PENGOLAHAN DATA Data asli : 54441 record Seleksi Data Pembersihan data (transaksi yg berisi 1 jenis barang dihapus, barang yg sama namun berulang lebih dari 1 record secara berurutan dijadikan 1 record saja) Seleksi Data 27854 record dengan 9110 transaksi Waktu eksekusi lama Data 1 Maret – 21 Mei 2004 Dibagi 11 Minggu 100 transaksi 50 transaksi 150 transaksi Pengambilan contoh per minggu (setelah dilakukan pembersihan data)